You are on page 1of 90

MỤC LỤC

MỤC LỤC.......................................................................................................................i

DANH MỤC HÌNH......................................................................................................iii

DANH MỤC BẢNG....................................................................................................vii

LỜI MỞ ĐẦU................................................................................................................1

BẢNG PHÂN CÔNG CÔNG VIỆC............................................................................3

CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI ”

.........................................................................................................................................5

1.1. Giới thiệu về khoa học dữ liệu.............................................................................5

1.1.1. Dữ liệu...........................................................................................................5

1.1.2. Tổng quan về khoa học dữ liệu.....................................................................5

1.1.3. Ứng dụng tiêu biểu của khoa học dữ liệu......................................................7

1.2. Giới thiệu về đề tài...............................................................................................9

1.2.1. Lý do chọn đề tài...........................................................................................9

1.2.2. Định nghĩa về “Rủi ro tín dụng”...................................................................9

1.2.3. Mục tiêu nghiên cứu....................................................................................10

CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ PHƯƠNG


PHÁP SỬ DỤNG.........................................................................................................11

2.1. Các phương pháp của Excel dùng để khai thác dữ liệu......................................11

2.1.1. Phương pháp Thống kê mô tả......................................................................11

2.1.2. Phương pháp về Phân tích dự báo...............................................................19

2.1.3. Phương pháp phân tích tối ưu......................................................................27

2.2. Phần mềm Orange..............................................................................................31

2.2.1. Tổng quan về phần mềm Orange................................................................31

2.2.2. Phương pháp phân cụm dữ liệu...................................................................34

Trang | i
2.2.3. Phương pháp phân lớp dữ liệu ” ................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... 39

CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ.............48

3.1. Phân tích dữ liệu Credit Risk Analysis..............................................................48

3.1.1 Mô tả dữ liệu................................................................................................48

3.1.2 Tiền xử lý dữ liệu.........................................................................................49

3.1.3. Thống kê mô tả dữ liệu...............................................................................51

3.2. Phân lớp dữ liệu Credit Risk Analysis...............................................................57

3.2.1. Một số mô hình phân lớp dữ liệu................................................................57

3.2.2. Kết quả mô hình..........................................................................................64

3.2.3. Ma trận nhầm lẫn (Confusion Matrix)........................................................69

CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ MÔ HÌNH...................................................74

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.................................................................75

4.1. Những công việc đã thực hiện............................................................................75

4.1.1. Tóm tắt........................................................................................................75

4.1.2. Kết luận.......................................................................................................75

4.2. Hướng phát triển và giải pháp............................................................................75

TÀI LIỆU THAM KHẢO..........................................................................................77

Trang | ii
DANH MỤC HÌNH
Hình 1-1. Đề tài...............................................................................................................9

Hình 2-1. Các bước thực hiện phương php Thống kê mô tả (1)...................................12

Hình 2-2. Các bước thực hiện phương pháp Thống kê mô tả (2).................................12

Hình 2-3. Ví dụ phương pháp Thống kê mô tả (1)........................................................13

Hình 2-4. Ví dụ phương pháp Thống kê mô tả (2)........................................................13

Hình 2-5. Ví dụ phương pháp tổng hợp nhóm với Subtotal (1)....................................16

Hình 2-6. Ví dụ phương pháp tổng hợp nhóm với Subtotal (2)....................................16

Hình 2-7. Ví dụ phương pháp tổng hợp nhóm với Subtotal (3)....................................17

Hình 2-8. Ví dụ hợp nhất dữ liệu - Cửa hàng 1.............................................................18

Hình 2-9. Ví dụ hợp nhất dữ liệu - Cửa hàng 2.............................................................18

Hình 2-10. Ví dụ hợp nhất dữ liệu - Cửa hàng 3...........................................................19

Hình 2-11. Ví dụ hợp nhất dữ liệu - Kết quả (1)...........................................................19

Hình 2-12. Ví dụ hợp nhất dữ liệu - Kết quả (2)...........................................................19

Hình 2-13. Cách thực hiện phương pháp Trung bình trượt...........................................21

Hình 2-14. Các bước thực hiện phương pháp San bằng mũ.........................................23

Hình 2-15. Cách thực hiện phương pháp Hồi quy........................................................26

Hình 2-16. Dùng công cụ Solver để giải mô hình.........................................................28

Hình 2-0-17.Hộp thoại Solver Parameters....................................................................28

Hình 2-18. Thêm điều kiện ràng buộc vào ô Subject to the Constraints.......................29

Hình 2-19. Hộp thoại Solver Results............................................................................30

Hình 2-20. Kết quả khi dùng công cụ Solver................................................................30

Hình 2-21. Báo cáo kèm lời giải công cụ Solver..........................................................31

Hình 2-22. Logo phần mềm Orange Data Mining........................................................32

Hình 2-23. Tiện ích Data...............................................................................................32


Trang | iii
Hình 2-24. Tiện ích Transform.....................................................................................33

Hình 2-25. Tiện tích Visualize......................................................................................33

Hình 2-26. Tiện ích Model............................................................................................33

Hình 2-27. Tiện ích Evaluate........................................................................................34

Hình 2-28. Tiện ích Unsupervised................................................................................34

Hình 2-29. Tiện ích Educational...................................................................................34

Hình 2-30. Minh họa phương pháp phân cụm..............................................................35

Hình 2-31. Mô hình phân cụm dữ liệu..........................................................................35

Hình 2-32. So sánh 2 phương pháp thường dùng Diana và Agnes...............................38

Hình 2-33. “Quá trình phân lớp dữ liệu - Xây dựng mô hình”.....................................40

Hình 2-34. “Quá trình phân lớp dữ liệu - Ước lượng độ chính xác của mô hình”........41

Hình 2-35.“Quá trình phân lớp dữ liệu - Xử lý dữ liệu”...............................................41

Hình 2-36. “Minh họa phương pháp hồi quy Logistic”................................................42

Hình 2-37. “Minh họa về phương pháp cây quyết định”..............................................43

Hình 2-38. “Minh họa phương pháp SVM”..................................................................44

Hình 2-39. Các phương pháp đánh giá mô hình...........................................................45

Hình 2-40. ROC (Receiver Operating Characteristic)..................................................46

Hình 2-41. AUC (Area Under the Curve).....................................................................46

Hình 3-1. Tiền xử lý dữ liệu (1)....................................................................................49

Hình 3-2. Tiền xử lý dữ liệu (2)....................................................................................49

Hình 3-3.Tiền xử lý dữ liệu (3).....................................................................................50

Hình 3-4. Tiền xử lý dữ liệu (4)....................................................................................50

Hình 3-5. Tiền xử lý dữ liệu (5)....................................................................................51

Hình 3-6. Tiền xử lý dữ liệu (6)....................................................................................51

Hình 3-7. Biểu đồ người vay và thu nhập theo độ tuổi.................................................53

Trang | iv
Hình 3-8. Biểu đồ tình trạng sở hữu nhà của người vay...............................................54

Hình 3-9. Biểu đồ số năm đi làm của người vay...........................................................56

Hình 3-10. Biểu đồ mục đích vay tiền của người vay...................................................57

Hình 3-11. Hồi quy Logistic.........................................................................................58

Hình 3-12. Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy Logistic..........58

Hình 3-13. Câu quyết định............................................................................................59

Hình 3-14. SVM............................................................................................................61

Hình 3-15. Phương trình biểu diễn siêu phẳng trong không gian đa chiều...................62

Hình 3-16. Các biến thể của SVM................................................................................63

Hình 3-17. Xây dựng mô hình (1).................................................................................64

Hình 3-18. Xây dựng mô hình (2).................................................................................64

Hình 3-19. Tập dữ liệu của mô hình.............................................................................65

Hình 3-20. Xác định biến phụ thuộc (target)................................................................65

Hình 3-21. Ở bảng Test and Score, lựa chọn tỷ lệ lấy mẫu tại Cross Validation hoặc
Random Sampling để thu được chỉ số tốt nhất..............................................................66

Hình 3-22. Chọn tỷ lệ lấy mẫu Cross Validation (1)....................................................66

Hình 3-23. Chọn tỷ lệ lấy mẫu Cross Validation (2)....................................................67

Hình 3-24. Chọn tỷ lệ lấy mẫu Random Sampling (1)..................................................67

Hình 3-25. Chọn tỷ lệ lấy mẫu Random Sampling (2)..................................................68

Hình 3-26. Chọn tỷ lệ lấy mẫu Random Sampling (3)..................................................68

Hình 3-27. Ma trận nhầm lẫn - SVM............................................................................69

Hình 3-28. Ma trận nhầm lẫn - Logistic Regression.....................................................70

Hình 3-29. Ma trận nhầm lẫn - Decision Tree..............................................................70

Hình 3-30. ROC Analysis với biến y = 0......................................................................71

Hình 3-31. ROC Analysis với biến y = 1......................................................................71

Trang |v
Hình 3-32. Thực hiện dự báo bằng công cụ Predictions...............................................72

Hình 3-33. Kết quả dự báo bằng công cụ Predictions...................................................73

Trang | vi
DANH MỤC BẢNG
Bảng 2-1. Ưu và nhược điểm của phương pháp Thống kê mô tả.................................11

Bảng 2-2. Ưu và nhược điểm của phương pháp tổng hợp nhóm với Subtotal..............15

Bảng 2-3. Ưu và nhược điểm của phương pháp hợp nhất dữ liệu với Consolidate......18

Bảng 2-4. Ưu và nhược điểm của phương pháp Trung bình trượt................................20

Bảng 2-5. Ưu và nhược điểm của phương pháp San bằng mũ......................................22

Bảng 2-6. Ưu và nhược điểm phương pháp Hồi quy....................................................24

Bảng 2-7. Chiến lược phân cụm dựa trên phân cấp......................................................37

Bảng 2-8. Ưu và nhược điểm của phân cụm dựa trên phân cấp...................................37

Bảng 2-9. Phương pháp đánh giá phân cụm dữ liệu.....................................................39

Bảng 3-1. Mô tả dữ liệu Credit Risk Analysis..............................................................48

Bảng 3-2. Số lượng người vay và thu nhập theo độ tuổi...............................................51

Bảng 3-3. Tình trạng sở hữu nhà...................................................................................54

Bảng 3-4. Số năm đi làm của người vay.......................................................................55

Bảng 3-5. Mục đích khoản vay của người đi vay..........................................................56

Bảng 4-1.Model Comparison by AUC..........................................................................74

Trang | vii
LỜI MỞ ĐẦU
Khoa học dữ liệu tập trung vào nghiên cứu và phân tích thông tin từ dữ liệu để
cung cấp những thông tin sâu rộng, mang ý nghĩa đặc biệt đối với kinh doanh. Các
hoạt động cốt lõi của lĩnh vực này bao gồm thu thập, chuẩn hóa, xử lý, phân tích, mô
hình hóa dữ liệu và trình bày kết quả. Trong lĩnh vực tài chính, ứng dụng khoa học dữ
liệu đa dạng, từ phân tích rủi ro tín dụng đến định giá tài sản và quản lý danh mục đầu
tư.

Với sự phát triển của nền kinh tế, nhu cầu vay vốn tăng cao, đặt ra yêu cầu cao
hơn cho việc đánh giá khả năng trả nợ của người vay. Phân tích rủi ro tín dụng đóng
vai trò quan trọng trong việc thu thập và phân tích thông tin về người vay để đánh giá
khả năng trả nợ. Cùng với sự tiến bộ của công nghệ thông tin, các phương pháp phân
tích rủi ro tín dụng đã được cải tiến, sử dụng các kỹ thuật máy học để tăng cường dự
đoán.

Nhóm đã áp dụng kiến thức từ lĩnh vực này vào việc phân tích bộ dữ liệu "Phân
tích rủi ro tín dụng từ thông tin người vay" trên Kaggle thông qua công cụ Orange. Bộ
dữ liệu này chứa thông tin của hơn 32,000 người vay trên toàn thế giới. Kết quả
nghiên cứu chỉ ra rằng việc sử dụng các kỹ thuật phân tích rủi ro tín dụng có thể nâng
cao khả năng dự đoán, giảm thiểu rủi ro nợ xấu đối với các tổ chức tín dụng.

Đồ án này sẽ trình bày tổng quan về khoa học dữ liệu, giới thiệu đề tài và mục
tiêu nghiên cứu của nhóm. Chương 2 sẽ tập trung vào việc áp dụng kiến thức đã học
vào chương trình và các phương pháp sẽ được áp dụng. Nhóm sẽ áp dụng những
phương pháp này vào bài toán thực tế, sau đó đánh giá kết quả mô hình. Cuối cùng, sẽ
rút ra những kết luận và đề xuất phương hướng phát triển tiếp theo.

Nhóm chúng em chân thành cảm ơn thầy TS. Nguyễn Quốc Hùng, giảng viên
môn Khoa học dữ liệu đã đồng hành, hướng dẫn chúng em trong khoảng thời gian vừa
qua. Nhờ có thầy mà những bài học không còn khô khan và trở nên sống động hơn,
chúng em đã học hỏi thêm được nhiều kiến thức bổ ích cũng như hiểu vai trò của Khoa
học dữ liệu và cách vận dụng kỹ năng vào các phần mềm khoa học Excel và Orange .
Với lòng biết ơn sâu sắc, chúng em xin cảm ơn thầy vì sự tận tâm và công lao của thầy
trong quá trình giảng dạy và truyền đạt kiến thức. Một lần nữa, nhóm em xin chân

Trang | 1
thành cảm ơn thầy!

Trang | 2
Trang | 3
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI
THIỆU ĐỀ TÀI
1.1. Giới thiệu về khoa học dữ liệu

1.1.1. Dữ liệu

Dữ liệu (Data) là những giá trị biểu thị thông tin theo hình thức định lượng hoặc
định tính của các đối tượng, hiện tượng trong đời sống. Trong lĩnh vực khoa học dữ
liệu, dữ liệu được coi là một phương tiện để thể hiện thông tin về các sự kiện, hiện
tượng một cách hợp lý để có thể truyền tải, hiển thị và xử lý bởi máy tính. Thông tin
(Information) là dữ liệu đã qua quá trình xử lý, phân tích, sắp xếp nhằm mục đích làm
rõ hơn các đối tượng, sự việc, hiện tượng theo một quan điểm nhất định.

Dựa trên nguồn gốc thu thập, dữ liệu cũng có thể được chia thành dữ liệu thứ
cấp và dữ liệu sơ cấp.

 Dữ liệu thứ cấp: là dữ liệu đã được thu thập và sẵn có, thường được thu thập
bởi các tổ chức khác. Ví dụ: dữ liệu thống kê, dữ liệu doanh nghiệp, dữ liệu
nghiên cứu,...
 Dữ liệu sơ cấp: là dữ liệu được thu thập trực tiếp từ nguồn, thường được thu
thập bởi người sử dụng dữ liệu. Ví dụ: dữ liệu khảo sát, dữ liệu nghiên cứu
thị trường, dữ liệu thử nghiệm,...

Ngoài ra, dữ liệu cũng có thể được chia thành dữ liệu có cấu trúc và dữ liệu
không có cấu trúc.

 Dữ liệu có cấu trúc: là dữ liệu được tổ chức theo một định dạng nhất định,
dễ dàng lưu trữ và truy cập. Ví dụ: dữ liệu trong cơ sở dữ liệu, dữ liệu
bảng,...
 Dữ liệu không có cấu trúc: là dữ liệu không được tổ chức theo một định
dạng nhất định, khó lưu trữ và truy cập. Ví dụ: dữ liệu văn bản, dữ liệu hình
ảnh, dữ liệu video,...

1.1.2. Tổng quan về khoa học dữ liệu

Khoa học dữ liệu (Data Science) là một lĩnh vực nghiên cứu liên ngành, sử
dụng các phương pháp thống kê, toán học, máy học và trí tuệ nhân tạo để thu thập, xử

Trang | 4
lý, phân tích dữ liệu, nhằm rút ra thông tin và tri thức có giá trị.

Trang | 5
Khoa học dữ liệu có thể được chia thành các quy trình chính sau:

 Thu thập: Đây là bước đầu tiên trong quá trình khoa học dữ liệu, nhằm thu
thập dữ liệu từ các nguồn khác nhau, chẳng hạn như từ các cơ sở dữ liệu,
khảo sát, mạng xã hội,...
 Làm sạch: Bước này nhằm loại bỏ các dữ liệu lỗi, thiếu sót hoặc không phù
hợp, nhằm đảm bảo chất lượng dữ liệu.
 Tiền xử lý: Bước này nhằm chuẩn hóa dữ liệu, chẳng hạn như chuyển đổi dữ
liệu về cùng một định dạng, loại bỏ các giá trị ngoại lai,...
 Phân tích: Đây là bước quan trọng nhất trong khoa học dữ liệu, nhằm rút ra
thông tin và tri thức từ dữ liệu. Các phương pháp phân tích dữ liệu có thể
được chia thành hai loại chính: phân tích mô tả và phân tích dự đoán.
 Trực quan hóa: Bước này nhằm thể hiện kết quả phân tích dữ liệu một cách
trực quan, giúp người dùng dễ dàng hiểu và tiếp thu.

Khoa học dữ liệu đang ngày càng trở nên quan trọng trong nhiều lĩnh vực,
chẳng hạn như kinh doanh, tài chính, y tế, giáo dục,... Khoa học dữ liệu giúp các tổ
chức và doanh nghiệp đưa ra các quyết định sáng suốt hơn, cải thiện hiệu quả hoạt
động và mang lại lợi thế cạnh tranh.

Khoa học dữ liệu có vai trò quan trọng trong nhiều lĩnh vực của đời sống xã
hội, bao gồm:

 Kinh doanh: Khoa học dữ liệu giúp các doanh nghiệp đưa ra các quyết định
kinh doanh sáng suốt hơn, cải thiện hiệu quả hoạt động và mang lại lợi thế
cạnh tranh. Ví dụ, các doanh nghiệp có thể sử dụng khoa học dữ liệu để
phân tích dữ liệu khách hàng, dữ liệu bán hàng, dữ liệu sản phẩm,... nhằm
xác định nhu cầu khách hàng, tối ưu hóa chiến lược tiếp thị, phát triển sản
phẩm mới,...
 Tài chính: Khoa học dữ liệu giúp các nhà đầu tư đưa ra các quyết định đầu
tư hiệu quả hơn, quản lý rủi ro tốt hơn. Ví dụ, các nhà đầu tư có thể sử dụng
khoa học dữ liệu để phân tích dữ liệu thị trường, dữ liệu tài chính, dữ liệu
khách hàng,... nhằm dự đoán xu hướng thị trường, xác định các cơ hội đầu
tư tiềm năng,...

Trang | 6
 Y tế: Khoa học dữ liệu giúp cải thiện việc chẩn đoán, điều trị bệnh, phát
triển thuốc mới. Ví dụ, các bác sĩ có thể sử dụng khoa học dữ liệu để phân
tích dữ liệu y tế, dữ liệu bệnh nhân, dữ liệu nghiên cứu,... nhằm nâng cao
hiệu quả chẩn đoán, điều trị bệnh, phát triển các phương pháp điều trị mới.
 Giáo dục: Khoa học dữ liệu giúp cải thiện chất lượng giáo dục, nâng cao
hiệu quả giảng dạy. Ví dụ, các nhà giáo dục có thể sử dụng khoa học dữ liệu
để phân tích dữ liệu học tập, dữ liệu giáo viên, dữ liệu nhà trường,... nhằm
đánh giá hiệu quả học tập của học sinh, phát triển các phương pháp giảng
dạy hiệu quả hơn.
 Chính phủ: Khoa học dữ liệu giúp đưa ra các chính sách hiệu quả hơn, cải
thiện đời sống của người dân. Ví dụ, chính phủ có thể sử dụng khoa học dữ
liệu để phân tích dữ liệu dân số, dữ liệu kinh tế, dữ liệu tội phạm,... nhằm
hiểu rõ hơn về nhu cầu của người dân, đưa ra các chính sách phù hợp.

Nhìn chung, khoa học dữ liệu có vai trò quan trọng trong việc giúp chúng ta
hiểu rõ hơn về thế giới xung quanh, đưa ra các quyết định sáng suốt hơn và cải thiện
chất lượng cuộc sống.

1.1.3. Ứng dụng tiêu biểu của khoa học dữ liệu

Khoa học dữ liệu có thể được ứng dụng trong nhiều lĩnh vực khác nhau, với
những ứng dụng tiêu biểu như sau:

Trong kinh doanh, khoa học dữ liệu được sử dụng để:

 Phân tích dữ liệu khách hàng để hiểu rõ hơn về nhu cầu, sở thích của khách
hàng, từ đó đưa ra các chiến lược tiếp thị, bán hàng hiệu quả hơn.
 Phân tích dữ liệu bán hàng để dự đoán xu hướng thị trường, xác định các
sản phẩm, dịch vụ tiềm năng.
 Phân tích dữ liệu sản phẩm để cải thiện chất lượng sản phẩm, dịch vụ, giảm
chi phí sản xuất.
 Phân tích dữ liệu hoạt động của doanh nghiệp để tối ưu hóa quy trình, nâng
cao hiệu quả hoạt động.

Trong tài chính, khoa học dữ liệu được sử dụng để:

Trang | 7
 Phân tích dữ liệu thị trường để dự đoán xu hướng thị trường, đưa ra các
quyết định đầu tư hiệu quả.
 Phân tích dữ liệu tài chính của doanh nghiệp để đánh giá tình hình tài chính,
đưa ra các quyết định tài chính phù hợp.
 Phân tích dữ liệu giao dịch tài chính để phát hiện gian lận, rửa tiền.

Trong y tế, khoa học dữ liệu được sử dụng để:

 Phân tích dữ liệu y tế để chẩn đoán bệnh, điều trị bệnh hiệu quả hơn.
 Phân tích dữ liệu nghiên cứu y khoa để phát triển các phương pháp điều trị
mới, thuốc mới.
 Phân tích dữ liệu sức khỏe của người dân để đưa ra các chính sách chăm sóc
sức khỏe phù hợp.

Trong giáo dục, khoa học dữ liệu được sử dụng để:

 Phân tích dữ liệu học tập của học sinh để đánh giá hiệu quả học tập, phát
triển các phương pháp giảng dạy hiệu quả hơn.
 Phân tích dữ liệu giáo viên để đánh giá năng lực giảng dạy, phát triển các
chương trình đào tạo giáo viên.
 Phân tích dữ liệu nhà trường để cải thiện chất lượng giáo dục của nhà

trường. Trong chính phủ, khoa học dữ liệu được sử dụng để:

 Phân tích dữ liệu dân số để hiểu rõ hơn về nhu cầu của người dân, đưa ra
các chính sách phù hợp.
 Phân tích dữ liệu kinh tế để đánh giá tình hình kinh tế, đưa ra các chính sách
kinh tế phù hợp.
 Phân tích dữ liệu tội phạm để phòng chống tội phạm hiệu quả hơn.

Ngoài ra, khoa học dữ liệu còn được ứng dụng trong nhiều lĩnh vực khác, chẳng hạn
như:

 Truyền thông: Phân tích dữ liệu người dùng để đưa ra các nội dung, quảng
cáo phù hợp.
 Thương mại điện tử: Phân tích dữ liệu mua sắm của khách hàng để đưa ra
các khuyến mãi, ưu đãi phù hợp.

Trang | 8
 Giao thông vận tải: Phân tích dữ liệu giao thông để dự đoán tình trạng giao
thông, đưa ra các giải pháp giảm tắc nghẽn giao thông.
 Môi trường: Phân tích dữ liệu môi trường để giám sát chất lượng môi
trường, đưa ra các giải pháp bảo vệ môi trường.

Khoa học dữ liệu là một lĩnh vực rộng lớn và đang phát triển nhanh chóng. Với
những tiềm năng to lớn, khoa học dữ liệu được dự đoán sẽ có tác động sâu sắc đến
nhiều lĩnh vực của đời sống xã hội trong tương lai.

1.2. Giới thiệu về đề tài

Phân tích và dự đoán tình trạng khoản vay của khách hàng dựa trên bộ dữ liệu
“Phân tích rủi ro tín dụng từ thông tin người vay" trên Kaggle.

Link Dataset

Hình 1-1. Đề tài

1.2.1. Lý do chọn đề tài

Ngày nay, rủi ro tín dụng là một vấn đề thực tế và quan trọng trong lĩnh vực
ngân hàng và tài chính, nhất là trong bối cảnh sau đại dịch Covid-19. Bằng cách sử
dụng các phương pháp thống kê và học máy, ta có thể phân loại và dự báo xác suất trả
nợ của các khách hàng, từ đó giúp các tổ chức tài chính đưa ra quyết định cho vay một
cách hiệu quả và an toàn. Đồng thời, việc phân tích và dự đoán tình trạng khoản vay
cũng có ích cho các khách hàng, giúp họ nắm bắt được khả năng tài chính của mình và
lựa chọn khoản vay phù hợp.

1.2.2. Định nghĩa về “Rủi ro tín dụng”

Trang | 9
Rủi ro tín dụng là khả năng mất mát mà ngân hàng hoặc tổ chức tài chính phải
đối mặt khi khách hàng không thể hoặc không muốn trả nợ. Điều này có thể xảy ra do
nhiều nguyên nhân, bao gồm thất nghiệp, thay đổi trong tình hình kinh tế, hoặc sự
không ổn định trong ngành công nghiệp. Rủi ro tín dụng có thể ảnh hưởng đến lợi
nhuận của ngân hàng và tạo ra tác động tiêu cực đối với hệ thống tài chính nói chung.
Để giảm thiểu rủi ro tín dụng, các tổ chức thường áp dụng các biện pháp đánh giá rủi
ro, xác định hạn mức tín dụng và quản lý portfolio nợ.

1.2.3. Mục tiêu nghiên cứu

Mục tiêu chung:

 Phân tích và đánh giá tổng thể về rủi ro tín dụng từ thông tin của người vay.
 Xây dựng mô hình dự đoán rủi ro dựa trên thông tin từ bộ dữ

liệu. Mục tiêu cụ thể:

 Nghiên cứu và phân tích các yếu tố tác động đến rủi ro tín dụng.
 Xác định các tác động và đưa ra ngưỡng quyết định tín dụng.
 Đánh giá hiệu quả của mô hình dự đoán.
 Đề xuất biện pháp quản lý rủi ro.

Trang | 10
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG
VÀ PHƯƠNG PHÁP SỬ DỤNG
2.1. Các phương pháp của Excel dùng để khai thác dữ liệu

2.1.1. Phương pháp Thống kê mô tả

2.1.1.1. Thống kê bằng công cụ Descriptive Statistic

a. Định nghĩa

Phương pháp thống kê mô tả (Descriptive Statistics) là một phương tiện để mô


tả và tổng quan hóa dữ liệu một cách đơn giản và dễ hiểu. Đây là một phần quan trọng
của thống kê không chỉ giúp hiểu về đặc điểm cơ bản của dữ liệu mà còn hỗ trợ trong
việc đưa ra các kết luận sơ bộ về dữ liệu mà không cần tiến hành các phân tích phức
tạp hơn.

b. Đặc điểm của phương pháp

 Mô tả dữ liệu: Cho phép xác định các đặc tính cơ bản của dữ liệu như trung
bình, phương sai, độ lệch chuẩn, giá trị lớn nhất, giá trị nhỏ nhất, v.v.
 Tóm tắt dữ liệu: Giúp hiểu rõ hơn về phân phối của dữ liệu thông qua các độ
đo tần suất như median, mode, phân vị.
 Hình thức đơn giản: Dễ hiểu và dễ thực hiện, thường được thực hiện bằng
các công cụ phần mềm như Excel, SPSS, R, v.v.

c. Ưu và nhược điểm của phương pháp này


Bảng 2-1. Ưu và nhược điểm của phương pháp Thống kê mô tả

Ưu điểm Nhược điểm

Dễ áp dụng: Không yêu cầu kiến thức Thiếu sâu sắc: Không cung cấp thông
chuyên sâu về thống kê. tin chi tiết hoặc liên hệ giữa các biến.

Tổng quan dữ liệu: Cho cái nhìn tổng Không chứng minh mối quan hệ
quan về dữ liệu một cách nhanh chóng. nguyên nhân – kết quả: Chỉ mô tả dữ

Giúp chuẩn bị cho phân tích chi tiết liệu mà không giải thích mối quan hệ
hơn: Cung cấp thông tin cơ bản để quyết giữa các yếu tố.

Trang | 11
định liệu dữ liệu có nên được phân tích Dễ bị sai lầm nếu dữ liệu bị lệch hoặc
chi tiết hơn hay không. có giá trị ngoại lệ: Các thước đo trung
bình, phương sai có thể bị ảnh hưởng bởi
dữ liệu bất thường.

2.1.1.4. Cách thực hiện

 Bước 1: Chuẩn bị bảng dữ liệu cần thống kê


 Bước 2: Chọn Data → Data Analysis

Hình 2-1. Các bước thực hiện phương php Thống kê mô tả (1)

 Bước 3: Trong hộp thoại Data Analysis, chọn Descriptive Statistic. Chọn
OK.

Hình 2-2. Các bước thực hiện phương pháp Thống kê mô tả (2)

 Bước 4: Chọn các thông số Input và Output

Ví dụ: TKMT cho lượng thịt bò (theo kg) bán được trong tháng 03 tại siêu thị
ABC

Trang | 12
Trang | 13
Hình 2-3. Ví dụ phương pháp Thống kê mô tả (1)

Trong hộp thoại Descriptive Statistic, nhập dữ liệu vào Input Range là cột dữ
liệu thịt bò, Output Range là ô xuất dữ liệu. Mức độ tin cậy cho giá trị trung bình
(Confidence Level For Mean) là 95%. Ta được bảng thống kê mô tả như sau:

Hình 2-4. Ví dụ phương pháp Thống kê mô tả (2)

2.1.1.2. Báo cáo tổng hợp nhóm với Subtotal

a. Định nghĩa

Phương pháp Subtotal (Tổng hợp nhóm): Là cách thức tự động tạo ra các tổng
hợp cho các nhóm dữ liệu đã được phân loại trong bảng tính. Khi áp dụng, nó tạo các

Trang | 14
dòng tổng hợp cho từng nhóm, thường được thể hiện bằng các tổng, trung bình hoặc
các phép tính khác.

b. Đặc điểm

 Tạo tự động: Subtotal tự động tạo ra các dòng tổng hợp cho từng nhóm
trong bảng dữ liệu dựa trên các tiêu chí phân loại.
 Có thể thay đổi: Có thể chọn các phép tính khác nhau như tổng, trung bình,
tối đa, tối thiểu cho mỗi nhóm.
 Tính linh hoạt: Có thể thay đổi các tiêu chí phân nhóm để thấy tổng hợp cho
các nhóm khác nhau.

Trang | 15
c. Ưu và nhược điểm của phương pháp
Bảng 2-2. Ưu và nhược điểm của phương pháp tổng hợp nhóm với Subtotal

Ưu điểm Nhược điểm

Tự động hóa: Tiết kiệm thời gian và Phụ thuộc vào cấu trúc dữ liệu:
công sức so với việc thực hiện các tính Subtotal yêu cầu dữ liệu được tổ chức
toán tổng hợp thủ công cho từng nhóm. theo cấu trúc phân loại nhất định để hoạt

Dễ dàng cập nhật: Khi dữ liệu thay đổi, động hiệu quả.
các tổng hợp được cập nhật tự động theo Khả năng gây nhầm lẫn: Trong một số
các thay đổi đó. trường hợp, việc sử dụng Subtotal có thể

Tính trực quan: Hiển thị dữ liệu theo dẫn đến hiểu lầm khi không chú ý đến
các nhóm và tổng hợp dễ dàng để phân các thay đổi trong dữ liệu gốc.
tích.

d. Cách thực hiện

 Bước 1: Phân loại dữ liệu theo cột


 Bước 2: Chọn tất cả các cột dữ liệu
 Bước 3: Truy cập vào Data → Outline → Subtotal. Một hộp thoại Subtotal
sẽ hiển thị.

Ví dụ: Tính tổng số tiền được thực hiện bởi mỗi nhân viên.

Trang | 16
Hình 2-5. Ví dụ phương pháp tổng hợp nhóm với Subtotal (1)

Trong hộp thoại Subtotal, chọn cột cần gom nhóm (At each change in) là
Salesperson, chọn hàm thống kê Use function là Sum. Chọn cột thống kê giá trị (Add
subtotal to) là Order Amount.

Hình 2-6. Ví dụ phương pháp tổng hợp nhóm với Subtotal (2)

Trang | 17
Ta được bảng kết quả như sau:

Hình 2-7. Ví dụ phương pháp tổng hợp nhóm với Subtotal (3)

2.1.1.3. Hợp nhất dữ liệu với Consolidate

a. Định nghĩa

Consolidate trong Excel hoặc các công cụ tương tự là quá trình kết hợp dữ liệu
từ nhiều vùng, bảng tính hoặc nguồn dữ liệu khác nhau vào một vị trí duy nhất, thông
thường là một bảng tổng hợp.

b. Đặc điểm của phương pháp

 Tính linh hoạt: Cho phép người dùng chọn các vùng dữ liệu khác nhau để
kết hợp.
 Tạo bảng tổng hợp: Tạo ra một bảng tổng hợp chứa thông tin từ các nguồn
dữ liệu khác nhau.
 Cập nhật tự động: Có thể cấu hình để tự động cập nhật dữ liệu khi có thay
đổi trong các nguồn gốc.

c. Ưu và nhược điểm
Trang | 18
Bảng 2-3. Ưu và nhược điểm của phương pháp hợp nhất dữ liệu với Consolidate

Ưu điểm Nhược điểm

Tổ chức dữ liệu: Giúp tổ chức dữ liệu Độ phức tạp: Quá trình cấu hình và thiết
từ nhiều nguồn thành một cấu trúc dễ lập ban đầu có thể phức tạp đối với người
quản lý và phân tích. mới sử dụng.

Tiết kiệm thời gian: Loại bỏ việc thủ Rủi ro sai sót: Có thể xảy ra sai sót khi
công sao chép và dán dữ liệu từng phần kết hợp dữ liệu từ nhiều nguồn khác nhau,
một. đặc biệt nếu không kiểm soát được định

Cập nhật dễ dàng: Có thể cập nhật dữ dạng hoặc cấu trúc dữ liệu.
liệu một cách nhanh chóng khi có thay
đổi trong các nguồn dữ liệu.

d. Cách thực hiện

 Bước 1: Chọn vùng chứa dữ liệu được hợp nhất


 Bước 2: Chọn Data → Data Tools → Consolidate. Xuất hiện hộp thoại
Consolidate.

Ví dụ: Hợp nhất doanh thu của 3 cửa hàng.

Hình 2-8. Ví dụ hợp nhất dữ liệu - Cửa hàng 1

Hình 2-9. Ví dụ hợp nhất dữ liệu - Cửa hàng 2

Trang | 19
Hình 2-10. Ví dụ hợp nhất dữ liệu - Cửa hàng 3

Ở mục Function chọn Sum. Reference là vùng sẽ hiện kết quả. Mục All
References thêm vào các vùng dữ liệu cần hợp nhất của 3 cửa hàng. Sau đó, ta được
kết quả.

Hình 2-11. Ví dụ hợp nhất dữ liệu - Kết quả (1)

Hình 2-12. Ví dụ hợp nhất dữ liệu - Kết quả (2)

2.1.2. Phương pháp về Phân tích dự báo

Phân tích dự báo là một quá trình sử dụng dữ liệu trong quá khứ để dự đoán các giá trị
trong tương lai.

2.1.2.1. Phương pháp Trung bình trượt (Moving Average)

a Định nghĩa

Trang | 20
Phương pháp Trung bình trượt là một kỹ thuật thống kê được sử dụng trong
việc dự báo và phân tích chuỗi dữ liệu. Đây là cách tính trung bình của các giá trị liên
tiếp trong chuỗi dữ liệu, với một cửa sổ trượt di chuyển theo thời gian.

b. Đặc điểm

 Đơn giản: Dễ dàng hiểu và triển khai.


 Làm mịn chuỗi dữ liệu: Giúp loại bỏ nhiễu và nổi bật xu hướng trong dữ liệu.
 Dễ dàng điều chỉnh: Có thể điều chỉnh kích thước của cửa sổ trượt để thích
nghi với mô hình dữ liệu cụ thể.
 Dùng để dự báo: Có thể sử dụng kết quả trung bình trượt để dự đoán xu
hướng hoặc giá trị tiếp theo của chuỗi dữ liệu.

c. Ưu và nhược điểm
Bảng 2-4. Ưu và nhược điểm của phương pháp Trung bình trượt

Ưu điểm Nhược điểm

Đơn giản và linh hoạt: Dễ dàng triển Làm mất thông tin chi tiết: Do tính chất
khai và có thể áp dụng cho nhiều loại làm mịn dữ liệu, phương pháp này có thể
chuỗi dữ liệu khác nhau. làm mất thông tin chi tiết trong dữ liệu

Loại bỏ nhiễu: Giúp giảm nhiễu và làm gốc.


mịn dữ liệu, giúp phát hiện xu hướng Phụ thuộc vào cỡ cửa sổ: Kích thước của
chính xác hơn. cửa sổ trượt có thể ảnh hưởng đến độ

Dễ dàng thay đổi cỡ cửa sổ: Cho phép chính xác của dự đoán và phân tích.
tinh chỉnh mô hình để phù hợp với tính
chất của dữ liệu.

d. Công thức tính


1
Ft = 𝐷𝑡−1+𝐷𝑡−2+…+𝐷𝑡−𝑤
∑𝑤≤𝑁 =
𝐷𝑛=1 𝑡−𝑤
𝑤 𝑤
Trong đó:
o Ft: là giá trị dự báo kỳ t
Trang | 21
o Dt: là giá trị thực tế của kỳ t
o
N: tổng số kỳ thực tế
o
w: được gọi là cửa sổ trượt (w ≤ N)

e. Cách thực hiện

 Bước 1: Tạo bảng số liệu cần tiến hành dự báo.


 Bước 2: Truy cập lệnh Data → Data Analysis → Moving Average để mở
hộp thoại Moving Average.
 Bước 3: Đưa ra các thông số cần thiết trong Input và Output Options.

Hình 2-13. Cách thực hiện phương pháp Trung bình trượt

Hộp thoại Moving Average

 Input Range: Đây là phạm vi các ô chứa dữ liệu mà chúng ta muốn dùng để
dự báo giá trị trung bình trượt.
 Labels in First Row: Nếu tiêu đề nằm ở dòng đầu tiên của Input Range có
chứa tiêu đề cột thì tick vào đây.
 Interval: Số lượng giá trị được sử dụng để tính toán giá trị trung bình trượt
(w).
 Output Range: Phạm vi ô nơi xuất kết quả. Những ô không đủ giá trị để tính
trung bình trượt sẽ hiện giá trị #N/A.

Trang | 22
 Chart Output: Tạo biểu đồ cùng với kết quả.
 Standard Errors: Tạo thêm một cột chứa sai số chuẩn.

2.1.2.2. Phương pháp San bằng mũ (Exponential Smoothing)

a. Định nghĩa

Phương pháp San bằng mũ thực hiện dự đoán bằng cách gán trọng số khác nhau
cho các giá trị trong chuỗi dữ liệu, với trọng số giảm dần theo thời gian.

b. Đặc điểm

 Cập nhật liên tục: Phương pháp này liên tục cập nhật dự đoán dựa trên các
giá trị mới nhất.
 Trọng số biến đổi: Sử dụng trọng số để ước lượng giá trị mới, với trọng số
giảm theo thời gian.
 Độ linh hoạt: Có thể áp dụng cho các loại chuỗi dữ liệu khác nhau và dễ
dàng thay đổi độ mịn của dự đoán.

c. Ưu và nhược điểm
Bảng 2-5. Ưu và nhược điểm của phương pháp San bằng mũ

Ưu điểm Nhược điểm

Tính linh hoạt: Có thể điều chỉnh độ Đòi hỏi lựa chọn hằng số: Việc lựa chọn
mịn của dự đoán bằng cách thay đổi hằng số trọng số có thể ảnh hưởng đến độ
hằng số trọng số. chính xác của dự đoán.

Ưu tiên giá trị mới: Gán trọng số lớn Dễ bị ảnh hưởng bởi nhiễu: Dữ liệu
cho giá trị mới nhất, phản ánh xu nhiễu có thể làm giảm độ chính xác của dự
hướng gần đây của dữ liệu. đoán.

Đơn giản: Dễ hiểu và triển khai.

d. Công thức tính

Công thức tính:

Ft = a.Dt-1 + (1-a).Ft-1
Trang | 23
Trong đó

o Ft: là giá trị dự báo kỳ t


o Ft-1: là giá trị dự báo kỳ t-1
o Dt-1: là giá trị thực tế của kỳ t-1
o
a: là hệ số điều chỉnh (hệ số này tùy chọn sao cho 0 ≤ a ≤ 1)

e. Các bước thực hiện

 Bước 1: Chuẩn bị bảng số liệu cần dự báo.


 Bước 2: Truy cập lệnh Data → Data Analysis → Exponential Smoothing để
mở hộp thoại Exponential Smoothing.
 Bước 3: Đặt thông số Input và Output Options.

Hình 2-14. Các bước thực hiện phương pháp San bằng mũ

Hộp thoại Exponential Smoothing

 Input Range: Tham chiếu đến phạm vi dữ liệu thực tế.


 Damping factor: Một giá trị dùng để làm hệ số san bằng. Nó điều chỉnh sự
của dữ liệu, với giá trị mặc định là Damping factor (1-a) = 0.7
 Labels: Nếu tiêu đề nằm ở dòng đầu tiên của Input Range chứa tiêu đề cột,
đánh dấu vào đây để Excel tự động loại bỏ.
 Output Range: Khu vực ô nơi kết quả được xuất hiện.
 Chart Output: Tạo biểu đồ kèm theo kết quả.

Trang | 24
 Standard Errors: Tạo một cột bổ sung chứa các sai số chuẩn.

2.1.2.3. Phương pháp Hồi quy (Regression)

a. Định nghĩa

Phương pháp Hồi quy xây dựng một mô hình toán học để mô tả mối quan hệ
giữa các biến độc lập và biến phụ thuộc. Nó sử dụng dữ liệu đã biết để dự đoán giá trị
của biến phụ thuộc khi có giá trị của các biến độc lập mới.

b. Đặc điểm

 Mô hình toán học: Sử dụng một phương trình toán học để biểu diễn mối
quan hệ giữa các biến.
 Phân tích đa biến: Có thể xử lý nhiều biến độc lập cùng lúc.
 Định lượng mối quan hệ: Cho phép định lượng mức độ ảnh hưởng của các
biến độc lập đối với biến phụ thuộc.

c. Ưu và nhược điểm
Bảng 2-6. Ưu và nhược điểm phương pháp Hồi quy

Ưu điểm Nhược điểm

Dự đoán và giải thích: Cho phép dự Dễ bị ảnh hưởng bởi dữ liệu nhiễu: Dữ liệu
đoán giá trị của biến phụ thuộc và nhiễu có thể làm giảm độ chính xác của mô
giải thích mối quan hệ giữa các biến. hình.

Linh hoạt: Có thể áp dụng cho nhiều Giả định về mô hình: Cần phải xác định
loại dữ liệu và mô hình hóa nhiều đúng mô hình phù hợp với dữ liệu, mô hình
loại mối quan hệ. không phản ánh đầy đủ mọi trường hợp thực

Phát hiện mối quan hệ: Phân tích tế.


mức độ ảnh hưởng của các biến độc
lập đối với biến phụ thuộc.

d. Công thức tính

Phương trình hồi quy có dạng tổng quát:

Trang | 25
Y = f(X1, X2, …, Xn)
(Hồi quy đơn biến: Y= aX+b)

Trong đó:

o Y: là biến phụ thuộc (dependent variable)


o Xi: là các biến độc lập (independent variable)

e. Cách thực hiện

Thực hiện bằng phương pháp đồ thị:

 Bước 1: Chuẩn bị tập dữ liệu cần dự báo.


 Bước 2: Chọn các vùng chứa biến phụ thuộc Y và biến độc lập X.
 Bước 3: Xây dựng đồ thị Scatter.
 Bước 4: Click chuột phải vào dãy dữ liệu, chọn Add Trendline.
 Bước 5: Tùy chọn hiển thị trong Trendline Options:
o Linear: dạng đường thẳng.
o Hiển thị phương trình trên biểu đồ.
o Hiển thị giá trị R-squared trên biểu đồ.

Thực hiện bằng công cụ Regression:

 Bước 1: Chuẩn bị tập dữ liệu cần dự báo.


 Bước 2: Data -> Data Analysis -> Regression, hiện hộp thoại Regression.
 Bước 3: Điền thông tin cho các Input và Output Options.

Trang | 26
Hình 2-15. Cách thực hiện phương pháp Hồi quy

Hộp thoại
Regression

 Y Range Input: Phạm vi ô chứa giá trị của Y, biến phụ thuộc
 X Range Input: Phạm vi ô chứa giá trị của X, biến độc lập (Có thể chọn
nhiều biến X trong trường hợp hồi quy đa biến)
 Labels: Đánh dấu vào đây để xác nhận rằng ô (các ô) đầu tiên không chứa
dữ liệu hồi quy
 Constant is Zero: Chọn mục này để xác nhận rằng hệ số tự do của hàm hồi
quy tuyến tính a = 0
 Confidence Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1-a, với a
là mức ý nghĩa hoặc xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0
đúng
 Output Range: Phạm vi ô mà bạn muốn chứa kết quả
 New Worksheet Ply: In kết quả ra một sheet mới
 New Workbook: In kết quả ra một tập tin Excel mới
 Residuals: Sai số do ngẫu nhiên

Trang | 27
 Standardized Residuals: Tạo biểu đồ chuẩn hóa sai số
 Residuals Plots: Tạo biểu đồ cho sai số
 Line Fit Plots: Tạo đồ thị cho hàm hồi quy tuyến tính
 Normal Probability Plots: Tạo đồ thị xác suất theo phân phối chuẩn

2.1.3. Phương pháp phân tích tối ưu

2.1.3.1. Định nghĩa

Tối ưu hóa là quá trình tìm kiếm và xác định giá trị tối đa hoặc tối thiểu của
một hàm số hoặc một tập hợp các ràng buộc, dựa trên một số tiêu chí nhất định. Tối ưu
hóa được áp dụng trong nhiều lĩnh vực, bao gồm kinh tế học, kỹ thuật, khoa học máy
tính, toán học, vật lý, hóa học và các ngành khoa học khác.

Trong lĩnh vực kinh tế, việc tối ưu hóa thường được áp dụng để giải quyết các
vấn đề như tăng lợi nhuận tối đa hoặc giảm thiểu chi phí. Các phương pháp tối ưu hóa
thường được sử dụng để cải thiện các quyết định trong quản lý sản xuất, quản lý vốn,
tài chính, tiếp thị và phân tích dữ liệu.

2.1.3.2. Ứng dụng phương pháp phân tích vào bài toán thực tế

Một cơ sở hộ gia đình chuyên làm hai loại kẹo: A và B. Để làm được một thùng
kẹo A, cần phải dành 2 giờ công cho việc chuẩn bị nguyên liệu, 1 giờ công cho việc
chế biến và 1 giờ công cho việc hoàn tất. Để làm được một thùng kẹo B, cần phải dành
1 giờ công cho việc chuẩn bị nguyên liệu, 1 giờ công cho việc chế biến và 2 giờ công
cho việc hoàn tất. Cơ sở này có thể sử dụng tối đa 100 giờ công cho việc chuẩn bị, 70
giờ công cho việc chế biến và 120 giờ công cho việc hoàn tất trong mỗi tuần. Mỗi
thùng kẹo A và B mang lại lợi nhuận là 30$ và 40$. Cơ sở cần phải tìm ra cách làm
sao để có lợi nhuận cao nhất.

Các bước lập mô hình:

 Bước 1: Xác định biến quyết định

Gọi x1 là số lượng kẹo A, x2 là số lượng kẹo B (thùng) cần sản xuất

 Bước 2: Xác định hàm mục tiêu

Mục tiêu bài toán là tối đa hóa lợi nhuận cho công ty, ta có được hàm mục tiêu P
( lợi nhuận ) như sau: P = P (kẹo A) + P (kẹo B) = 30x1 + 40x2 ⇒ max
Trang | 28
 Bước 3: Xác định hệ ràng buộc

Ràng buộc về số giờ công


o Số giờ công chuẩn bị: 2x1+ x2 ≤ 100
o Số giờ công chế biến: x1+ x2 ≤ 70
o Số giờ công hoàn tất: x1+ 2x2 ≤

120 Ràng buộc tự nhiên: x1, x2 > 0

Dùng công cụ Solver để giải mô hình trên:

 Bước 1: Thiết lập bảng tính

Hình 2-16. Dùng công cụ Solver để giải mô hình

 Bước 2: Chọn tab Data ⇒ Solver

Hình 2-0-17.Hộp thoại Solver Parameters


Trang | 29
 Bước 3: Khai báo các tham số của bài toán
o Set Objective: Chọn hàm mục tiêu trong trường hợp này là ô $E$9 ( Lợi
nhuận )
o To: Chọn Max để để tính toán lợi nhuận tối đa cho doanh nghiệp.
o By Changing Variable Cells: Chọn các ô chứa các biến quyết định, trong
trường hợp ta sẽ chọn $C$8:$D$8
o Đưa các ràng buộc của đề bài vào Subject to the Constraints bằng cách
nhấn nút Add ”

Hình 2-18. Thêm điều kiện ràng buộc vào ô Subject to the Constraints

 Bước 4: Nhấn nút Solve để giải mô hình

Trong hộp thoại Solver Results, bạn có thể chọn các tùy chọn sau

 Keep Solver Solution: Giữ nguyên kết quả và hiển thị trên bảng tính
 Restore Original Values: Bỏ qua kết quả vừa tìm được và khôi phục các
biến về giá trị ban đầu.
 Save Scenario: Lưu kết quả vừa tìm được dưới dạng một tình huống để có
thể xem lại khi cần.
 Có thể xuất hiện thêm các dạng báo cáo trong kết quả: Answer, Sensitivity
và Limits ”

Trang | 30
Hình 2-19. Hộp thoại Solver Results

 Bước 5: Nhấn OK để xem kết quả

Hình 2-20. Kết quả khi dùng công cụ Solver

Trang | 31
Hình 2-21. Báo cáo kèm lời giải công cụ Solver

2.2. Phần mềm Orange

2.2.1. Tổng quan về phần mềm Orange

Orange là hệ điều hành nhân bản của Linux (Dòng Minimal X của OpenSUSE).
Đây là một phần mềm phân tích dữ liệu và học máy được phát triển bởi Viện Khoa học
Thông tin thuộc Đại học Ljubljana, Slovenia. Orange có thể được sử dụng để khám
phá, trực quan hóa và mô hình hóa dữ liệu bằng cách sử dụng các kỹ thuật học máy và
thống kê. Nhờ vào giao diện đồ họa trực quan, vì thế thao tác chỉ gói gọn ở việc kéo và
thả các thành phần xử lý dữ liệu để tạo ra các quy trình phân tích. Ngoài ra, đây cũng
có thể được sử dụng như một thư viện Python, cho phép người dùng viết các đoạn mã
để tùy biến các chức năng của phần mềm. Orange được viết bằng ngôn ngữ Python và
sử dụng các thư viện như NumPy, SciPy, Scikit-learn và PyQt. Đặc biệt, đây là một
phần mềm mã nguồn mở, có thể được tải về miễn phí và sử dụng cho các mục đích
giáo dục, nghiên cứu và thương mại.

Trang | 32
Hình 2-22. Logo phần mềm Orange Data Mining

Orange cung cấp cho người dùng bao gồm các tiện ích được tích hợp tối giản
nhất để người dùng thực hiện các thao tác phân tích dữ liệu dễ dàng, điển hình như các
nhóm:

 Data cho phép người dùng nhập dữ liệu, loại bỏ hay biến đổi dữ liệu.

Hình 2-23. Tiện ích Data

 Transform dùng để biến đổi, chuẩn hóa dữ liệu

Trang | 33
Hình 2-24. Tiện ích Transform

 Visualize tạo các biểu đồ để quan sát và phân tích dữ liệu tối ưu hơn.

Hình 2-25. Tiện tích Visualize

 Model phân lớp dữ liệu.

Hình 2-26. Tiện ích Model

 Evaluate bao gồm các phương pháp đánh giá mô hình học máy.

Trang | 34
Hình 2-27. Tiện ích Evaluate

 Unsupervised phân cụm dữ liệu.

Hình 2-28. Tiện ích Unsupervised

 Educational bao gồm một số quy trình khai thác dữ liệu và học máy quan
trọng.

Hình 2-29. Tiện ích Educational

2.2.2. Phương pháp phân cụm dữ liệu


Trang | 35
Phương pháp phân cụm không có biến phụ thuộc Target y, chỉ có biến phụ
thuộc feature x.

2.2.2.1. Định nghĩa về phân cụm dữ liệu

Phân cụm dữ liệu là quá trình gom nhóm các đối tượng dữ liệu có sự tương
đồng với nhau thành các cụm. Quá trình này được sử dụng để phát hiện các cấu trúc ẩn
trong dữ liệu và có nhiều ứng dụng trong thực tế, chẳng hạn như phân loại khách hàng,
phân tích thị trường.

Lưu ý: trong quá trình phân cụm ta không biết trước đặc điểm của các cụm mà
phải dựa vào mối liên hệ giữa các đối tượng để xác định sự tương đồng đặc trưng cho
mỗi cụm giữa các đối tượng theo một độ đo nào đó.

Hình 2-30. Minh họa phương pháp phân cụm

Hình 2-31. Mô hình phân cụm dữ liệu

2.2.2.2. Đặc điểm của phân cụm dữ liệu

Trang | 36
 Tìm được, đo lường được sự khác nhau của các đối tượng
 Phương pháp học không có giám sát được sử dụng khi số cụm dữ liệu không
được biết trước.
 Cái nào tạo ra được cụm chất lượng cao là phương pháp phân cụm tốt:
o
Độ giống nhau bên trong cụm nhiều
o
Độ giống nhau giữa các cụm ít (khác nhau nhiều hơn)

2.2.2.3. Ứng dụng của phân cụm dữ liệu

Ứng dụng điển hình:

 Được ứng dụng như một công cụ phân cụm dữ liệu độc lập
 Là tiền đề cho các thuật toán khác

Ứng dụng kinh tế:

 Dự đoán tệp khách hàng tiềm năng


 Phân tích xu hướng, hành vi người dùng
 Phân nhóm thị trường
 Phân tích rủi ro tín dụng,...

 Phương pháp phân cụm dữ liệu đóng vai trò quan trọng trong lĩnh vực khai
phá dữ liệu, là một trong những thuật toán phổ biến nhất. Ứng dụng của nó rất đa
dạng, giúp hiệu quả trong việc giải quyết nhiều vấn đề liên quan đến dữ liệu. Sau khi
áp dụng phương pháp này, ta sẽ có khả năng hiểu rõ hơn về cấu trúc và mối quan hệ
trong dữ liệu, từ đó có thể chuyển giao thông tin đó cho các phương tiện xử lý dữ liệu
khác để tiếp tục khám phá và giải quyết các thách thức khác nhau.

2.2.2.4. Các phương pháp phân cụm dữ liệu

2.2.2.4.1. Phân cụm dựa trên phân cấp

a. Định nghĩa

Phân cụm dựa trên phân cấp (Hierarchical clustering) là một phương pháp
được thực hiện bằng cách coi tất cả các đối tượng dữ liệu là một cụm. Sau đó, các cụm
được hợp nhất hoặc chia nhỏ dựa trên độ tương đồng giữa các đối tượng dữ liệu. Quá
trình này được lặp lại cho đến khi đạt được số lượng cụm mong muốn.

Có hai chiến lược phân cụm phân cấp chính:


Trang | 37
Bảng 2-7. Chiến lược phân cụm dựa trên phân cấp

Chiến lược hợp nhất (agglomerative) Chiến lược chia nhỏ (divisive)

Đối tượng là các cụm riêng biệt Đối tượng là một cụm chung

Liên kết các cụm để tạo thành cụm lớn Chia nhỏ dần dần cụm thành các cụm nhỏ
hơn hơn.

b. Đặc điểm

Việc phân cấp các đối tượng thường được thực hiện theo 2 tiêu chí:

 Tạo ra được một ma trận khoảng cách giữa các phần tử (ma trận tương đồng
hoặc ma trận khác biệt).
 Độ đo khoảng cách giữa các cụm (single link, complete link…)
Bảng 2-8. Ưu và nhược điểm của phân cụm dựa trên phân cấp

Ưu điểm Nhược điểm

Không cần xác định trước số lượng cụm. Cần xác định điều kiện dừng

Có thể phát hiện các mối quan hệ phức tạp Có thể khó hiểu kết quả phân cụm.
giữa các đối tượng dữ liệu.

Có thể được sử dụng cho dữ liệu số, dữ Có thể bị ảnh hưởng bởi cách lựa chọn
liệu văn bản và dữ liệu hình ảnh. độ đo tương đồng.

c. Ứng dụng

Các phương pháp thường dùng: Diana, Agnes

Trang | 38
Hình 2-32. So sánh 2 phương pháp thường dùng Diana và Agnes

Ngoài ra còn có các phương pháp liên kết khác như:

 Single-linkage: Thuật toán này hợp nhất hai cụm có độ tương đồng giữa các
đối tượng dữ liệu của chúng là lớn nhất.
 Complete-linkage: Thuật toán này hợp nhất hai cụm có độ tương đồng giữa
các đối tượng dữ liệu của chúng là nhỏ nhất.
 Average-linkage: Thuật toán này hợp nhất hai cụm có độ tương đồng trung
bình giữa các đối tượng dữ liệu của chúng.
 Ward's method: Thuật toán này hợp nhất hai cụm sao cho tổng phương sai
của các cụm mới được tạo ra là nhỏ nhất.

Có thể thấy, phân cụm dựa trên phân cấp cho ra kết quả trực quan, giải thuật dễ
hiểu, không cần tham số đầu vào. Tuy nhiên, tốc độ xử lý của phương pháp này còn
chậm và thường bị thiếu và nhiễu, nhất là đối với các dữ liệu lớn, phức tạp.

2.2.2.4.2. Phân cụm dựa trên phân hoạch (Partitioning Clustering)

a. Định nghĩa

Là quá trình phân chia tập dữ liệu ban đầu có x phần tử thành y tập con (y<=x),
trong đó mỗi tập con đại diện cho một cụm.

b. Đặc điểm

 Phương pháp này dựa trên khoảng cách cơ bản giữa các điểm để xác định
các điểm dữ liệu gần nhau và xa nhau.
 Không thể xử lý các cụm có hình dạng phức tạp hoặc có mật độ điểm dày đặc.

c. Ứng dụng

Trang | 39
Thuật toán K-means là một trong những phương pháp phân cụm dựa trên phân
hoạch.

Với b là số thuộc tính, ta xem đối tượng trong tập dữ liệu là một điểm trong không
gian có b chiều.

 Bước 1: Chọn x điểm ban đầu làm trung tâm của x cụm.
 Bước 2: Gán từng điểm vào cụm có trung tâm gần nhất. Nếu kết quả sau vẫn
giống kết quả trước, thuật toán phân chia sẽ dừng.
 Bước 3: Xác định trung tâm cho mỗi cụm bằng cách tính trung bình của các
điểm trong cụm.
 Bước 4: Quay lại bước 2.

2.2.2.4.3. Phương pháp đánh giá phân cụm dữ liệu

Các tiêu chí bao gồm độ nén và độ phân cách.

Các phương pháp đánh giá


Bảng 2-9. Phương pháp đánh giá phân cụm dữ liệu

Ngoài Nội bộ Tương đối


Dựa trên cấu trúc hoặc xu Hầu hết dựa vào các Đánh giá kết quả gom cụm
hướng phân cụm vector chính của ma trận bằng cách so sánh
xấp xỉ

2.2.3. Phương pháp phân lớp dữ liệu

Phân lớp là một dạng của phân tích dữ liệu dùng để dự đoán giá trị của những
nhãn xác định hay những giá trị rời rạc.

2.2.3.1. Định nghĩa

Phân lớp dữ liệu là quá trình phân chia các đối tượng dữ liệu theo các lớp khác
biệt dựa trên một hoặc nhiều tiêu chí đã được định nghĩa sẵn bằng cách áp dụng một
mô hình phân lớp nhất định. Mô hình này được xây dựng trên cơ sở tập dữ liệu đã
được gắn nhãn từ trước. Quá trình gắn nhãn cho các đối tượng dữ liệu diễn ra trong
quá trình phân loại dữ liệu.

2.2.3.2. Quá trình phân lớp dữ liệu

Trang | 40
Gồm 2 bước chính:

Trang | 41
 Bước 1: Xây dựng mô hình

Bước này nhằm xây dựng mô hình mô tả một tập các lớp dữ liệu hay các khái
niệm định trước. Dữ liệu đầu vào là những dữ liệu mẫu đã được tiền xử lý và gán nhãn
để nó không bị lỗi. Sau đó sử dụng: hàm số toán học, cây quyết định,… để tạo ra mô
hình phân lớp đã được huấn luyện.

Hình 2-33. Quá trình phân lớp dữ liệu - Xây dựng mô hình

 Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ


o
Bước 2.1: Kiểm tra, xem xét (tính chính xác)

Input là tập dữ liệu mẫu khác có nhãn, đã qua xử lý cơ bản. Các mẫu này được
lựa chọn ngẫu nhiên và không liên quan đến các mẫu khác trong tập dữ liệu đào tạo.
Khi đưa chúng vào mô hình phân lớp, phải bỏ qua thuộc tính nào đã có nhãn. Độ chính
xác của mô hình này được đánh giá bằng cách so khớp thuộc tính có nhãn của kết quả
phân lớp của mô hình và dữ liệu đầu vào. Nếu mô hình có độ chính xác cao trên tập dữ
liệu đào tạo và có thể chấp nhận được, thì mô hình này được áp dụng để phân lớp các
dữ liệu sau này, hoặc các dữ liệu mà giá trị của thuộc tính phân lớp chưa rõ.

Trang | 42
Hình 2-34. Quá trình phân lớp dữ liệu - Ước lượng độ chính xác của mô hình

o
Bước 2.2: Xử lý dữ liệu

Input của bước này là các dữ liệu bị “khuyết” cần được dự đoán được lớp. Mô
hình này phân lớp cho dữ liệu nhờ cái đã biết ở bước 1.

Hình 2-35. Quá trình phân lớp dữ liệu - Xử lý dữ liệu

2.2.3.3. Một số phương pháp phân lớp

a. Phương pháp Hồi quy Logistic - Logistic Regression

Phương pháp này là một mô hình xác suất dùng để dự đoán được giá trị đầu ra
rời rạc được biểu diễn bằng vector. Điều này tương tự như phân loại các đầu vào x vào
các nhóm y phù hợp.

Trang | 43
Ví dụ, ta đưa một bức hình là một vườn hoa vào phương pháp này. Với đầu ra y
= 1 nếu bức ảnh có một bông hoa, y = 0 nếu bức ảnh không có bông hoa nào. Đầu vào
x sẽ là các pixel ảnh được đưa vào.

Hình 2-36. Minh họa phương pháp hồi quy Logistic

b. Phương pháp cây quyết định (Decision Tree)

Cây quyết định là một mô hình các quyết định, nó được đánh giá là tiện ích hiệu
quả, mạnh mẽ, phổ biến, thích hợp cho phân lớp dữ liệu.

 Về quản trị, đây chính là đồ thị chứa kết quả khả dĩ và những quyết định gắn
liền nhằm giúp cho việc đưa ra quyết định.
 Về khai thác dữ liệu, đây là thứ dùng phân loại, mô tả, tổng quát tập dữ liệu
cho trước.

Trang | 44
Hình 2-37. Minh họa về phương pháp cây quyết định

Ưu điểm

 Có thể xây dựng nhanh, đơn giản


 Dễ hiểu, dễ tính toán khi phân lớp
 Không cần chuẩn hóa dữ liệu
 Dùng được trên đa dạng dữ liệu
 Xử lý hiệu quả dữ liệu tương đối nhiều trong thời gian ngắnĐạt được sự
tương đồng và thậm chí lại đúng hơn so với phương pháp khác
 Làm nổi bật thuộc tính tốt

Nhược điểm

 Khó khăn khi bị phụ thuộc thời gian


 Chi phí cao
 Đôi khi lại không ổn định và các dữ liệu dễ bị thay đổi
 Khi dữ liệu huấn luyện không cân bằng thì sẽ dẫn đến sai lệch trên cây
 Dễ bị lỗi khi có quá nhiều lớp

c. Phương pháp SVM (Support Vector Machine)

SVM được dùng để phân loại, có sự giám sát. Nó nhận dữ liệu vào, xem là
vector trong không gian và sẽ đưa các vector này vào các lớp không giống nhau.

Trang | 45
Nhiều biến thể đa dạng và phù hợp với nhiều bài toán

Hình 2-38. Minh họa phương pháp SVM

Ưu điểm

 Không chiếm nhiều dung lượng lưu trữ


 Linh hoạt: áp dụng được cả tuyến tính và phi tuyến
 Không bị chặn trong không gian nhiều chiều
 Có thể tạo ra được nhiều hàm quyết định

Nhược điểm

 Khi chiều dữ liệu nhiều hơn dòng dữ liệu thì SVM cho kết quả không ổn định.
 Không bộc lộ được tính xác suất

 Ngoài là phương pháp hiệu quả trong các bài toán phân lớp dữ liệu, đây còn
là một công cụ đắc lực dùng được cả trong các công việc như xử lý ảnh, văn bản, phân
tích quan điểm…

2.2.3.4. Các phương pháp đánh giá mô hình

Dùng để xem xét khả năng làm việc của mô hình phân lớp từ các dữ liệu có
tính chất riêng, từ đó ra kết luận về việc sử dụng mô hình

Mô hình không quá đơn giản là mô hình lý tưởng, không nhạy cảm với nhiễu và
ít phức tạp. Khi tạo mô hình nên tránh 2 lỗi sau để tránh sai sót như Underfitting (chưa
khớp) và Overfitting (quá khớp).
Trang | 46
Hình 2-39. Các phương pháp đánh giá mô hình

a. Ma trận nhầm
lẫn

 Xác định được số điểm dữ liệu thực sự thuộc vào một lớp cụ thể.
 Dự đoán các điểm dữ liệu sẽ rơi vào lớp nào.
 Ma trận có kích thước k x k với k là số lượng lớp của dữ liệu.

Accuracy (tính chính xác): Tỷ lệ dữ liệu phân loại đúng nhưng không nêu rõ
từng loại phân loại ra sao, lớp nào có độ chính xác cao nhất, dữ liệu nào bị lẫn vào lớp
sai.

acc = 𝑇𝑃+𝑇𝑁 => 𝐸𝑅𝑅𝑂𝑅 𝑟𝑎𝑡𝑒 = 1 − 𝑎𝑐𝑐


𝑛

Precision (độ chính xác): thể hiện trong số x mẫu được phân vào lớp y có tỷ lệ
bao nhiêu mẫu có đúng.

𝑇𝑃
precision =
𝑇𝑃+𝐹𝑃

Recall (độ phủ) hay sensitivity (độ nhạy): Dùng để đánh giá tỷ lệ dự đoán
đúng các trường hợp có kết quả dương tính trong số tất cả các mẫu thuộc nhóm dương
tính.

𝑇𝑃
recall =
𝑇𝑃+𝐹𝑁

F1-score: giá trị trung bình điều hòa của độ chính xác và độ phủ.

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙
F1 = 2𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
Trang | 47
ROC và AUC: AUC - ROC là phương pháp đo lường hiệu quả của một mô
hình phân loại theo các mức phân loại khác nhau

ROC (Receiver Operating Characteristic): Mô tả mối liên hệ giữa độ nhạy


và đặc hiệu. Nó thường được dùng để đánh giá mô hình phân loại hai nhóm. Đường
cong này được vẽ bằng cách thể hiện tỷ lệ dự đoán true positive rate (TPR) theo tỷ lệ
dự đoán false positive rate (FPR) ở các mức ngưỡng khác nhau.

Hình 2-40. ROC (Receiver Operating Characteristic)

AUC (Area Under the Curve): Còn được gọi là phần bên dưới của đường
cong ROC. Giá trị AUC là số dượng nhỏ hơn hoặc bằng một. AUC càng cao thì mô
hình càng tốt và chính xác.

Hình 2-41. AUC (Area Under the Curve)

Trang | 48
b. Phương pháp phân chia dữ liệu Hold-out

Trang | 49
Dùng để phân chia tập dữ liệu ban đầu thành hai tập độc lập.

VD: tập huấn luyện 70%, tập thử nghiệm 30%.

 Thích hợp với tập dữ liệu nhỏ, các mẫu có thể không phản ánh đúng toàn bộ
dữ liệu.
 Thu được kết quả hiệu quả hơn nếu áp dụng phương pháp lấy mẫu để mỗi
lớp được phân bố đồng đều trong cả hai tập dữ liệu huấn luyện và kiểm tra.

c. K-fold cross validation

 Dùng để phân chia dữ liệu thành x phần, 1 phần được dùng để làm tập dữ
liệu kiểm tra, số còn lại được dùng để làm tập huấn luyện.
 Quá trình này được lặp lại cho đến khi tất cả các phần đều được dùng để làm
tập dữ liệu kiểm tra.

2.2.3.5. Ứng dụng phân lớp dữ liệu trong kinh tế

Ứng dụng vào đa dạng lĩnh vực: thương mại, nghiên cứu thị trường, nhà băng,
bảo hiểm, y tế,marketing, giáo dục.

VD: Quản lý, đánh giá rủi ro và quyết định việc cung cấp tín dụng cho khách
hàng…

Trang | 50
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN
THỰC TẾ
3.1. Phân tích dữ liệu Credit Risk Analysis

3.1.1 Mô tả dữ liệu

 Thông tin dữ liệu Credit Risk Analysis: Bộ dữ liệu này cung cấp thông tin
cần thiết về người xin vay và đặc điểm của họ.Trong bối cảnh tài chính ngày
nay, việc đánh giá rủi ro tín dụng là rất quan trọng đối với người cho vay và
tổ chức tài chính. Bộ dữ liệu này cung cấp cái nhìn đơn giản về các yếu tố
góp phần gây ra rủi ro tín dụng, tạo cơ hội tuyệt vời cho các nhà khoa học
dữ liệu áp dụng các kỹ năng của họ trong học máy và mô hình dự đoán.
 Bộ dữ liệu bao gồm 12 biến 32.780 bản ghi.
Bảng 3-1. Mô tả dữ liệu Credit Risk Analysis

STT Tên biến Giải thích


1 ID Mã định danh duy nhất cho mỗi người đăng ký vay.
2 Age Độ tuổi của người vay
3 Income Thu nhập của người vay
4 Home Tình trạng sở hữu nhà (Sở hữu, Thế chấp, Thuê).
5 Emp_Length Thời gian làm việc tính bằng năm.
Mục đích của khoản vay (ví dụ: giáo dục, cải thiện nhà
6 Intent
cửa).
7 Amount Số tiền vay được áp dụng.
8 Rate Lãi suất của khoản vay.
Trạng thái phê duyệt khoản vay (Đã thanh toán đầy đủ,
9 Status
Đã tính phí, Hiện tại)

10 Percent_Income Số tiền cho vay tính theo phần trăm thu nhập.

Liệu người nộp đơn có từng vỡ nợ trước đây hay không


11 Default
(Có, Không).
12 Cred_Length Độ dài lịch sử tín dụng của người nộp đơn.

Trang | 51
 Mục tiêu phân tích: Dựa trên các yếu tố ảnh hưởng trên bộ dữ liệu để dự
đoán về rủi ro tín dụng với biến mục tiêu là Target. Cung cấp một quy trình
phân tích và khai phá dữ liệu hợp lý, thành công, giúp đưa ra các chiến lược
phù hợp cho các ngân hàng để giảm thiểu rủi ro tín dụng.

3.1.2 Tiền xử lý dữ liệu

Tiến hành xử lý dữ liệu bằng phần mềm Orange bao gồm các bước sau:

Hình 3-1. Tiền xử lý dữ liệu (1)

 Bước 1: Nhập dữ liệu vào Orange và chọn Data Table để xem dữ liệu liệu có
bị thiếu hay không.

Hình 3-2. Tiền xử lý dữ liệu (2)

Trang | 52
 Bước 2: Sau khi quan sát Data Info thì ta thấy rằng dữ liệu đang có 1.0% dữ
liệu bị khuyết thiếu. Do đó, ta sẽ xử lý các dữ liệu bị thiếu này bằng
Preprocess.

Hình 3-3.Tiền xử lý dữ liệu (3)

Hình 3-4. Tiền xử lý dữ liệu (4)

 Bước 3: Tại hộp thoại Preprocess, ta tiến hành chọn Impute Missing Values
⇒ Average/Most Frequent để điền các dữ liệu còn thiếu bằng giá trị trung
bình / thường gặp của dữ liệu.

Trang | 53
Hình 3-5. Tiền xử lý dữ liệu (5)

 Bước 4: Sau khi tiền xử lý dữ liệu có thể thấy rằng dữ liệu đã không còn bị
khuyết thiếu. Từ đây, ta có thể tiến hành lưu dữ liệu với tên
credit_risk_daxuly.xlsx để phân phân tích, phân lớp dữ liệu.

Hình 3-6. Tiền xử lý dữ liệu (6)

3.1.3. Thống kê mô tả dữ
liệu

3.1.3.1. Khảo sát số lượng người vay và thu nhập theo độ tuổi
Bảng 3-2. Số lượng người vay và thu nhập theo độ tuổi

Độ tuổi Số lượng người Thu nhập Độ tuổi Số lượng người Thu thập

20 15 $1,362,163 49 49 $3,597,549

21 1229 $53,126,025 50 52 $4,474,313

Trang | 54
22 3633 $191,713,387 51 39 $3,791,219

Trang | 55
23 3889 $235,466,176 52 36 $2,939,723

24 3549 $224,814,267 53 30 $2,144,292

25 3037 $198,648,437 54 24 $1,865,844

26 2477 $167,976,271 55 20 $1,327,640

27 2138 $142,905,380 56 15 $1,254,572

28 1854 $127,639,979 57 15 $866,264

29 1687 $120,753,472 58 19 $3,420,298

30 1316 $96,037,814 59 5 $395,768

31 1142 $81,222,632 60 15 $2,762,516

32 964 $71,507,679 61 9 $835,636

33 856 $61,732,888 62 7 $401,325

34 709 $53,028,484 63 3 $1,925,000

35 620 $45,968,208 64 7 $557,000

36 548 $42,621,111 65 9 $693,796

37 478 $36,075,102 66 9 $701,400

38 373 $25,638,990 67 1 $200,000

39 302 $22,121,500 69 5 $285,000

40 271 $22,225,060 70 7 $365,996

41 241 $17,870,930 73 3 $156,240

42 188 $17,970,480 76 1 $75,000

43 164 $13,531,871 78 1 $48,000

44 141 $11,523,581 80 1 $64,000

Trang | 56
45 108 $7,362,162 84 1 $94,800

46 94 $7,562,458 94 1 $24,000

47 94 $7,885,930 123 2 $158,004

48 75 $4,617,006 144 3 $6,450,000

Hình 3-7. Biểu đồ người vay và thu nhập theo độ tuổi

Có thể thấy, độ tuổi có số lượng người vay cao nhất là 22-29 tuổi, với hơn
20000 người vay. Tiếp theo là độ tuổi 30-34 tuổi, với khoảng 5000 người vay. Độ tuổi
có số lượng người vay thấp nhất là từ 60 tuổi trở lên.

Độ tuổi 22-29 tuổi là độ tuổi có nhu cầu vay vốn cao nhất, do đây là độ tuổi
đang trong giai đoạn học tập, lập nghiệp và cần vốn để đầu tư cho bản thân, cho kinh
doanh và mua tài sản. Độ tuổi 30-34 tuổi cũng là độ tuổi có nhu cầu vay vốn cao
nhưng ít hơn nhóm 22-19 tuổi, do đây là độ tuổi đang trong giai đoạn đi làm, họ có thể
tích lũy tài sản và cần ít vốn để mua nhà, mua xe,...Độ tuổi có số lượng người vay thấp
nhất là trên 60 tuổi, do đây là độ tuổi đã nghỉ hưu và không còn nhu cầu vay vốn.

Biểu đồ cho thấy rằng số lượng người vay có xu hướng tăng khi thu nhập của
họ tăng. Những người có thu nhập cao hơn thường có khả năng tiếp cận các nguồn tài
chính khác, chẳng hạn như các khoản vay từ ngân hàng hoặc các tổ chức tài chính
Trang | 57
khác. Họ

Trang | 58
thường có nhu cầu vay tiền để mua nhà, mua xe hoặc chi trả cho các nhu cầu giáo dục
của con cái.

3.3.3.2. Khảo sát tình trạng sở hữu nhà


Bảng 3-3. Tình trạng sở hữu nhà

Tình trạng sở hữu nhà Số lượng người Số lượng người (%)

RENT 16446 50.48%

MORTGAGE 13444 41.26%

OWN 2584 7.93%

OTHER 107 0.33%

Tổng cộng 32581 100.00%

Hình 3-8. Biểu đồ tình trạng sở hữu nhà của người vay

Tỷ lệ người thuê nhà chiếm đa số, khoảng 50,48%, cao hơn so với tỷ lệ người
mua nhà trả góp (41,26%) và sở hữu nhà (7,93%). Điều này cho thấy rằng nhiều người
vẫn chưa có nhà ở riêng, mà phải thuê nhà để ở.

Trang | 59
3.3.3.3. Khảo sát số năm làm việc của người đi vay
Bảng 3-4. Số năm đi làm của người vay

Số năm đi làm Số lượng người Số năm đi làm Số lượng người

0 4105 18 104

1 2915 19 64

2 3849 20 42

3 3456 21 38

4 2874 22 19

4.79 895 23 10

5 2946 24 10

6 2666 25 8

7 2196 26 6

8 1687 27 5

9 1367 28 3

10 696 29 1

11 740 30 2

12 575 31 4

13 426 34 1

14 335 38 1

15 238 41 1

16 165 123 2

17 129

Trang | 60
Hình 3-9. Biểu đồ số năm đi làm của người vay

Số lượng người đi vay cao khi số năm đi làm của người vay thấp. Theo biểu đồ, số
lượng người đi vay đạt mức cao khi họ mới đi làm được từ 0-3 năm. Hầu hết những
người vừa đi làm là sinh viên đang học hoặc sinh viên mới tốt nghiệp, nhu cầu vay tiền
của sinh viên để chi trả cho học phí và sinh hoạt phí là rất cao. Hơn nữa, người trẻ cần
vay tiền để mua sắm, du lịch, chi tiêu… Người trẻ thường có nhu cầu tiêu dùng cao,
khiến họ dễ dàng vay tiền để mua sắm, du lịch hoặc các nhu cầu khác. Những người đã
đi làm lâu thường ít có nhu cầu vay vì họ có khoản tiền tiết kiệm từ việc đi làm, dành
dụm.

3.3.3.4. Khảo sát mục đích vay tiền của người đi vay
Bảng 3-5. Mục đích khoản vay của người đi vay

Mục đích khoản vay Số lượng người Số lượng người (%)


EDUCATION 6453 19.81%
MEDICAL 6071 18.63%
VENTURE 5719 17.55%
PERSONAL 5521 16.95%
DEBT CONSOLIDATION 5212 16.00%
HOME IMPROVEMENT 3605 11.06%
Tổng cộng 32581 100.00%

Trang | 61
Hình 3-10. Biểu đồ mục đích vay tiền của người vay

Vay để học tập là mục đích vay phổ biến nhất, với 6453 người vay, chiếm hơn
19% tổng số người vay. Điều này cho thấy rằng giáo dục vẫn là một ưu tiên hàng đầu
của mọi người.

Vay để khám chữa bệnh là mục đích vay phổ biến thứ hai, với 6071 người vay,
chiếm 18,63% tổng số người vay, cho thấy mọi người ngày càng quan tâm về vấn đề y
tế. Thứ ba là vay để đầu tư vào kinh doanh mạo hiểm, đây cũng là một lĩnh vực đòi hỏi
sự đầu tư lớn. Mọi người cũng có xu hướng vay để chi tiêu cho mục đích cá nhân,
chiếm 16,95% tổng số người, vay để trả nợ (16%) và cuối cùng là vay để cải thiện nhà
cửa (11,06%).

3.2. Phân lớp dữ liệu Credit Risk Analysis

3.2.1. Một số mô hình phân lớp dữ liệu

3.2.1.1. Hồi quy logistic ( Logistic Regression)

a. Khái niệm

Mô hình hồi quy logistic là một kỹ thuật phân tích dữ liệu sử dụng toán học để
tìm ra mối quan hệ giữa một biến phụ thuộc là biến nhị phân với một hoặc nhiều biến
độc lập. Biến phụ thuộc là biến có hai giá trị có thể có, chẳng hạn như "có" hoặc
"không", "chết" hoặc "sống", "khách hàng" hoặc "không phải khách hàng", v.v.
Trang | 62
b. Mô tả

Đối với bài toán phân lớp



Với n là số lớp, ta có tập nhãn y = {y1, y2,...yn}

Với d (biểu diễn dưới dạng vector) là số thuộc tính của từng dòng dữ liệu, ta
sẽ có đối tượng dữ liệu x = {x1, x2, …, xd}.

Hình 3-11. Hồi quy Logistic

Để dự đoán đối tượng x sở hữu các thuộc tính vào lớp y nào, ta dùng hàm logistic
P(y=1) = 11+ e-(w0+ w1x1+ w2x2+...+ wdxd)

Trong đó, ta có:



d là số thuộc tính của dữ liệu

w là trọng số, ban đầu sẽ được gán với giá trị bất kỳ, sau đó sẽ được thay đổi
lại cho phù hợp.

Hình 3-12. Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy Logistic

Trang | 63
z = ∑𝑖=0

𝑤 𝑖 𝑥𝑖
1
P(y) = 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 (𝑧) =
1+𝑒−𝑧

3.2.1.2. Cây quyết định ( Decision Tree)

a. Khái niệm

Cây quyết định là một kỹ thuật phân tích dữ liệu mạnh mẽ và linh hoạt có thể
được sử dụng trong nhiều lĩnh vực khác nhau. Nó được sử dụng để mô tả, phân loại và
dự đoán các kết quả có thể xảy ra. Cây quyết định có thể được sử dụng để giải quyết
nhiều loại vấn đề, bao gồm phân loại khách hàng, dự đoán thị trường, và tối ưu hóa
chuỗi cung ứng

Hình 3-13. Câu quyết định

b. Đặc điểm

 Ưu điểm
o Dễ hiểu và dễ giải thích
o Không bắt buộc phải chuẩn hóa dữ liệu
o Có thể xử lý trên nhiều kiểu dữ liệu khác nhau
o Thời gian xử lý một lượng lớn dữ liệu được rút ngắn
 Nhược điểm
Trang | 64
o Không phù hợp với bài toán dữ liệu phụ thuộc thời gian.
o Tốn thời gian và tài nguyên để xây dựng mô hình

3.2.1.3. SVM ( Support Vector Machines)

a. Khái niệm

SVM là một thuật toán học máy có giám sát, sử dụng để phân loại dữ liệu.
SVM hoạt động bằng cách tìm một siêu phẳng trong không gian nhiều chiều để phân
tách các điểm dữ liệu của các lớp khác nhau.

Siêu phẳng là một mặt phẳng trong không gian nhiều chiều. Để tối ưu kết quả
phân loại, SVM tìm siêu phẳng có khoảng cách (margin) đến các điểm dữ liệu của các
lớp khác nhau càng lớn càng tốt. Margin là khoảng cách giữa siêu phẳng và điểm dữ
liệu gần nhất của mỗi lớp.

Một cách để hiểu SVM là tưởng tượng bạn đang đứng trên một sườn núi nhìn
xuống một thung lũng. Các điểm dữ liệu của mỗi lớp nằm ở hai bên thung lũng. Bạn
muốn tìm một đường thẳng chạy dọc theo sườn núi, cách xa các điểm dữ liệu của hai
lớp càng xa càng tốt. Đường thẳng này sẽ là siêu phẳng của SVM.

SVM có nhiều biến thể khác nhau, mỗi biến thể phù hợp với các bài toán phân
loại khác nhau. Ví dụ, một biến thể của SVM là SVM tuyến tính, sử dụng một siêu
phẳng tuyến tính để phân tách các điểm dữ liệu. Một biến thể khác là SVM phi tuyến,
sử dụng một siêu phẳng phi tuyến để phân tách các điểm dữ liệu. SVM là một thuật
toán học máy mạnh mẽ và hiệu quả có thể được sử dụng để giải quyết nhiều loại bài
toán phân loại.

Trang | 65
Hình 3-14. SVM

SVM cố gắng tối ưu bằng cách tìm siêu phẳng có khoảng cách lớn nhất đến các
điểm dữ liệu của hai lớp. Điều này giúp SVM giảm thiểu việc phân lớp sai đối với
điểm dữ liệu mới đưa vào

Support Vectors: Với bài toán của tìm 2 đường biên của 2 lớp dữ liệu có
khoảng cách lớn nhất là giữa chúng. Trong trường hợp này, siêu phẳng cần tìm chính
là siêu phẳng nằm giữa 2 biên đó. Các điểm xanh, đỏ trên 2 đường biên (màu xanh lá)
được gọi là các support vector, vì chúng giúp tìm ra siêu phẳng (màu cam).

b. Tổng quát hóa trong không gian nhiều chiều

Số chiều của không gian bài toán (còn gọi là không gian đặc trưng) tương ứng
với số lương thuộc tính (đặc trưng) của một đối tượng dữ liệu.

Trang | 66
Hình 3-15. Phương trình biểu diễn siêu phẳng trong không gian đa chiều

Mục tiêu của SVM là cần tìm giá trị margin cực đại đồng nghĩa với việc ||𝑤|| đạt
cực tiểu với điều kiện:

𝑦𝑛(𝑤𝑇𝑥𝑛 + 𝑏) ≥ 1, ∀𝑛 = 1, 2, 3, . . . , 𝑛
Hàm mục tiêu cần tối ưu là một norm nên là một hàm lồi => bài toán quy hoạch
toàn phương (Quadratic Programing)

c. Các biến thể của SVM

Trang | 67
Hình 3-16. Các biến thể của SVM

d. Đặc điểm của SVM

Ưu điểm

 Tiêu tốn ít dung lượng: SVM chỉ cần lưu trữ các support vector, số lượng
support vector thường nhỏ hơn đáng kể so với số lượng điểm dữ liệu trong
tập huấn luyện. Điều này giúp SVM tiết kiệm bộ nhớ khi triển khai trong
thực tế.
 Linh hoạt: SVM có thể phân lớp tuyến tính và phi tuyến bằng cách sử dụng
đa dạng các loại kernel. Điều này giúp SVM có thể giải quyết nhiều loại bài
toán phân loại khác nhau.
 Xử lý trong không gian đa chiều: SVM có thể xử lý dữ liệu trong không
gian nhiều chiều, giúp giải quyết các bài toán phân loại phức tạp hơn.

Nhược điểm

 Trong trường hợp số chiều lớn hơn số dòng thì SVM cho kết quả không tốt.
SVM có thể gặp khó khăn trong việc tìm kiếm siêu phẳng phân tách các lớp
dữ liệu.

Trang | 68
 Chưa thể hiện tính xác suất trong phân lớp. SVM chỉ có thể đưa ra kết quả
phân loại là lớp nào, mà không thể đưa ra xác suất cho kết quả đó.

3.2.2. Kết quả mô hình

 Bước 1: Xây dựng mô hình. Đầu tiên chúng em sẽ thực hiện chia mẫu dữ
liệu thành hai file dữ liệu lần lượt là 80% và 20% bằng cách sử dụng Data
Sampler. Sau đó chọn Save Data để lưu trữ dữ liệu với tên
credit_risk_daxuly_80%.xlsx và credit_risk_daxuly_20%.xlsx

Hình 3-17. Xây dựng mô hình (1)

Hình 3-18. Xây dựng mô hình (2)

Tập dữ liệu 80% sau khi lấy mẫu sẽ có 26065 dữ liệu, 12 biến (11 feature và 1
target) và không có dữ liệu bị lỗi.
Trang | 69
Hình 3-19. Tập dữ liệu của mô hình

Tập dữ liệu 20% sau khi lấy mẫu sẽ có 6516 dữ liệu với 12 features. Tuy nhiên
do nhóm đã xóa dữ liệu của cột Status (phục vụ cho phần predictions) nên dữ liệu có
8,3% missing value.

 Bước 2: Áp dụng mô hình

Áp dụng công cụ Test and Score để so sánh và đánh giá các thuật toán, từ đó
chọn ra thuật toán tốt nhất phục vụ cho việc dự báo.

Sử dụng tập tin credit_risk_daxuly_80%.xlsx làm tập huấn luyện, chọn biến y
là biến phụ thuộc (target).

Hình 3-20. Xác định biến phụ thuộc (target)


Trang | 70
Hình 3-21. Ở bảng Test and Score, lựa chọn tỷ lệ lấy mẫu tại Cross Validation hoặc Random Sampling để thu
được chỉ số tốt nhất.

 Bước 3: Chọn tỷ lệ lấy mẫu Cross Validation

o Chia mẫu dữ liệu thành 5 phần

Hình 3-22. Chọn tỷ lệ lấy mẫu Cross Validation (1)

o Chia mẫu dữ liệu thành 10 phần

Trang | 71
Hình 3-23. Chọn tỷ lệ lấy mẫu Cross Validation (2)

 Bước 4: Chọn tỷ lệ lấy mẫu Random Sampling


o Chia mẫu dữ liệu thành 50 - 90%

Hình 3-24. Chọn tỷ lệ lấy mẫu Random Sampling (1)

o Chia mẫu dữ liệu thành 20 - 70%

Trang | 72
Hình 3-25. Chọn tỷ lệ lấy mẫu Random Sampling (2)

o Chia dữ liệu thành 50 - 66%

Hình 3-26. Chọn tỷ lệ lấy mẫu Random Sampling (3)

 Nhận xét: Các kết quả đánh giá cho thấy giá trị định lượng của ba mô hình -
Hồi quy Logistic (Logistic Regression), Cây quyết định (Decision Tree), và SVM
(Support Vector Machines). Qua việc xem xét chỉ số từ việc lựa chọn mẫu ngẫu nhiên
Trang | 73
trong các trường hợp khác nhau, ta nhận thấy rằng mô hình Cây quyết định (Decision
Tree) với phân chia mẫu dữ liệu thành 10 phần đạt được kết quả tốt nhất trong số các
ví dụ đã được xem xét.

 Tính chính xác (CA) = 90,5%


 Giá trị trung bình điều hòa (F1) = 90,3%
 Độ chính xác (Precision) = 90,2%
 Độ phủ (Recall) = 90,5%
 Diện tích đường cong (AUC) = 82,1%

3.2.3. Ma trận nhầm lẫn (Confusion Matrix)

3.2.3.1. SVM

Hình 3-27. Ma trận nhầm lẫn - SVM

Trang | 74
3.2.3.2. Logistic Regression

Hình 3-28. Ma trận nhầm lẫn - Logistic Regression

3.2.3.3. Decision Tree

Hình 3-29. Ma trận nhầm lẫn - Decision Tree

 Nhận xét: Tại Confusion Matrix, chúng ta cần chú ý đến tỷ lệ sai lầm loại 1
và loại 2 để đánh giá mô hình. Mô hình được đánh giá tốt nhất khi cả hai tỷ lệ này đều
thấp nhất. Kết quả quan sát cho thấy mô hình Tree đạt tỷ lệ sai lầm thấp nhất, với
17.5% cho sai lầm loại 1 và 7.6% cho sai lầm loại 2. Dựa trên điều này, kết luận rằng
phương pháp Decision Tree - Cây quyết định là phương pháp phù hợp nhất trong
trường hợp này.

Trang | 75
3.2.3.4. ROC Analysis

 Với biến y là 0:

Hình 3-30. ROC Analysis với biến y = 0

 Với biến y là
1

Hình 3-31. ROC Analysis với biến y = 1

 Nhận xét: về hiệu suất của các mô hình dự báo được đánh giá dựa trên hai
yếu tố quan trọng: tỷ lệ dương tính giả cao (FPR) và tỷ lệ nhận diện đúng (TPR). Một
mô hình hiệu quả sẽ có FPR cao và TPR thấp, và khi đường cong ROC trong biểu đồ
tiệm cận với điểm (0;1), mô hình đó sẽ càng được xem là hiệu quả hơn. Dựa trên hai
Trang | 76
hình thể hiện đường cong ROC của biến y, có thể thấy mô hình Cây quyết định có
đường cong ROC tiệm cận với điểm (0;1) hơn cả, điều này chứng tỏ hiệu suất cao của
mô hình này.

Kết luận được đưa ra là phương pháp Cây quyết định là lựa chọn tốt nhất dựa
trên các tiêu chí sau:

 Mô hình này có diện tích nằm dưới đường cong ROC (AUC) lớn nhất, minh
chứng cho việc nó là mô hình tốt nhất trong số các phương pháp được đánh
giá.
 Độ chính xác (CA) của phương pháp này là cao nhất.
 Tỉ lệ sai lầm loại 2 của phương pháp này là thấp nhất.
 Đặc biệt, đường cong ROC của phương pháp này tiệm cận với điểm (0;1),
cho thấy mức độ hiệu quả cao nhất.

Sau quá trình đánh giá các phương pháp dự báo mô hình phân lớp, quyết định
chọn phương pháp Cây quyết định để dự báo file credit_risk_daxuly_20%.xlsx. Để
thực hiện dự báo, chúng ta sử dụng công cụ Prediction theo phương pháp này.

Hình 3-32. Thực hiện dự báo bằng công cụ Predictions

Kết quả dự báo ta được

Trang | 77
Hình 3-33. Kết quả dự báo bằng công cụ Predictions

Trang | 78
CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ MÔ HÌNH
Dựa vào bảng Model Comparison by AUC, ta có thể nhận thấy mô hình khi
chia mẫu dữ liệu thành 10 phần sẽ tốt hơn là chia mẫu dữ liệu thành 5 phần. Bởi vì chỉ
số AUC của kết quả chia mẫu dữ liệu thành 10 phần lớn hơn chỉ số của việc chia mẫu
thành 5 phần. Và chỉ số AUC của mô hình nào lớn hơn thì mô hình đó sẽ tốt hơn.
Bảng 4-1.Model Comparison by AUC

Tỷ lệ Cross Validation Chia làm 5 phần Chia làm 10 phần


Tính chính xác (AC) 90,3% 90,5%
Giá trị trung bình điều hòa (F1) 90% 90,3%
Độ chính xác (Precision) 90% 90,2%
Độ phủ (Recall) 90,3% 90,5%

Diện tích đường cong (AUC) 0,817 0,821

Chọn mô hình chia tỷ lệ mẫu làm 10 phần vì mô hình này có chỉ số diện tích
đường cong (AUC) lớn nhất, sẽ hoạt động tốt nhất.

Đánh giá bằng ma trận nhầm lẫn thì thì mô hình Cây quyết định (Decision
Tree) cho ra kết quả sai lầm loại 1 và sai lầm loại 2 là thấp nhất, với tỷ lệ lần lượt là
15.7% của sai lầm loại và sai lầm loại 2 là 7.6%.

 Kết luận: Chọn mô hình Cây quyết định là phù hợp nhất.

Trang | 79
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Sau khi đã trình bày những kiến thức cũng như mô hình đồ án đã thực hiện, ở
phần kết luận này sẽ đưa ra một cái nhìn tổng quan về đồ án, cũng như là cung cấp một
bản tóm tắt về đồ án (bao gồm quy trình nghiên cứu và kết quả mô hình), cùng với đó
là hướng phát triển, tính thực tế của đồ án và khuyến nghị để có thể hoàn thiện hơn.

4.1. Những công việc đã thực hiện

4.1.1. Tóm tắt

Nhóm đã dự báo được trạng thái khoản vay và khả năng vỡ nợ của người đi vay
dựa trên việc phân tích cơ sở dữ liệu Credit Risk Analysis. Đồng thời xây dựng được
mô hình nghiên cứu tác động của các yếu tố như thu nhập, lãi suất cho vay, độ dài lịch
sử tín dụng của người vay… đến trạng thái khoản vay và khả năng vỡ nợ của người
vay. Sau khi tiến hành lấy mẫu dữ liệu từ bộ dữ liệu của phần mềm Orange, xử lý dữ
liệu, huấn luyện dữ liệu, phân lớp dữ liệu thì chọn ra được mô hình Cây quyết định
(Decision Tree) là mô hình tốt nhất để phân lớp dữ liệu, với độ chính xác lên đến
82,1% và sai lầm loại 2 là 7,6%.

4.1.2. Kết luận

Mục tiêu ban đầu của nhóm đã hoàn thành được là dự báo trạng thái khoản vay
và rủi ro tín dụng (khả năng vỡ nợ của người vay). Các lý thuyết ở chương 2 đã được
áp dụng để xây dựng mô hình dự báo và đảm bảo các ước tính từ phân tích có độ chính
xác cao.

4.2. Hướng phát triển và giải pháp

Mô hình này có thể được dùng để dự báo trạng thái của khoản vay (Fully
Paid/Charged Off/Current) dựa trên những thông tin thu thập được từ người vay như
độ tuổi, thu nhập, tình trạng sở hữu nhà (Sở hữu, Thế chấp, Thuê), độ dài lịch sử tín
dụng… Thông qua mô hình này, người cho vay có thể chọn ra cho mình những hướng
phát triển trong tương lai, chẳng hạn như là:

 Tối ưu hóa và mở rộng phạm vi thu thập dữ liệu: Việc thu thập thông tin từ
người vay không chỉ giới hạn ở các yếu tố cơ bản như độ tuổi, thu nhập hay
tình trạng sở hữu nhà. Nếu mở rộng việc thu thập thông tin đến các yếu tố

Trang | 80
như lối sống, sở thích, hoặc mức độ ổn định công việc, mô hình có thể trở
nên chính xác hơn và cung cấp thông tin chi tiết hơn về khả năng trả nợ.
 Nghiên cứu và tích hợp các yếu tố mới: Các yếu tố mới như dữ liệu về hành
vi tiêu dùng, hoặc thông tin về việc sử dụng các loại dịch vụ tài chính khác
(ví dụ: sử dụng thẻ tín dụng, vay mượn từ các nguồn khác) có thể được xem
xét để cải thiện độ chính xác của mô hình.
 Tạo ra các chiến lược tùy chỉnh: Dựa trên thông tin được thu thập từ mô
hình, người cho vay có thể phát triển các chiến lược tùy chỉnh cho từng
khách hàng tiềm năng. Điều này có thể bao gồm việc tinh chỉnh lãi suất,
mức độ vay hoặc thậm chí đề xuất các sản phẩm tài chính phù hợp với từng
đối tượng.
 Liên kết với công nghệ tiên tiến: Áp dụng trí tuệ nhân tạo (AI) và học máy
(Machine Learning) để cải thiện mô hình dự báo và tự động hóa quy trình
đánh giá rủi ro tín dụng. Sử dụng các công cụ và thuật toán mới để đưa ra dự
báo chính xác hơn và nhanh chóng hơn.
 Điều chỉnh và đánh giá liên tục: Mô hình cần được điều chỉnh và cải thiện
liên tục dựa trên dữ liệu mới và phản hồi từ thực tế. Việc đánh giá định kỳ
sẽ giúp cập nhật mô hình, đảm bảo tính chính xác và đáng tin cậy trong việc
dự đoán rủi ro tín dụng.
 Phát triển công cụ hỗ trợ quyết định: Xây dựng các công cụ hoặc giao diện
dễ sử dụng giúp người cho vay hiểu rõ hơn về dữ liệu và kết quả từ mô hình,
từ đó hỗ trợ họ trong việc ra quyết định tốt nhất về việc cấp vay.

Trang | 81
TÀI LIỆU THAM KHẢO
[1]. Tài liệu tham khảo môn học Khoa học dữ liệu. Đại học UEH (2023)

[2]. Đồ án mẫu môn Khoa học dữ liệu

[3]. Một số vấn đề về rủi ro tín dụng của ngân hàng thương mại. (n.d.). Tạp chí Tài chính.
Retrieved December 7, 2023, from https://tapchitaichinh.vn/mot-so-van-de-ve-rui-ro-tin-
dung-cua-ngan-hang-thuong-mai.html

[4]. Các Yếu Tố Ảnh Hưởng Đến Rủi Ro Tín Dụng Của Hệ Thống Ngân Hàng Thương Mại
Việt Nam. Quý. Tạp chí Khoa học đại học mở Thành phố Hồ Chí Minh - Kinh tế và Quản trị
kinh doanh.

[5]. Dự báo và Phân tích Cơ sở dữ liệu HDI. Tú, Na, Phượng, Trang, Ý. Đại học Kinh tế
Thành phố Hồ Chí Minh.

[6]. Tác động của rủi ro tín dụng đến hiệu quả hoạt động của các ngân hàng thương mại
Việt. Đạt, N. T., Duyên, T. T. M., & Nga, L. H. (2021).

Tạp Chí Nghiên cứu Tài chính - Marketing, 63(3), 66-75. Nam.
https://doi.org/10.52932/jfm.vi63.164

Trang | 82

You might also like