Professional Documents
Culture Documents
Nhom5 KHDL
Nhom5 KHDL
MỤC LỤC.......................................................................................................................i
LỜI MỞ ĐẦU................................................................................................................1
.........................................................................................................................................5
1.1.1. Dữ liệu...........................................................................................................5
2.1. Các phương pháp của Excel dùng để khai thác dữ liệu......................................11
Trang | i
2.2.3. Phương pháp phân lớp dữ liệu ” ................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... 39
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ.............48
3.1.1 Mô tả dữ liệu................................................................................................48
Trang | ii
DANH MỤC HÌNH
Hình 1-1. Đề tài...............................................................................................................9
Hình 2-1. Các bước thực hiện phương php Thống kê mô tả (1)...................................12
Hình 2-2. Các bước thực hiện phương pháp Thống kê mô tả (2).................................12
Hình 2-5. Ví dụ phương pháp tổng hợp nhóm với Subtotal (1)....................................16
Hình 2-6. Ví dụ phương pháp tổng hợp nhóm với Subtotal (2)....................................16
Hình 2-7. Ví dụ phương pháp tổng hợp nhóm với Subtotal (3)....................................17
Hình 2-13. Cách thực hiện phương pháp Trung bình trượt...........................................21
Hình 2-14. Các bước thực hiện phương pháp San bằng mũ.........................................23
Hình 2-18. Thêm điều kiện ràng buộc vào ô Subject to the Constraints.......................29
Hình 2-33. “Quá trình phân lớp dữ liệu - Xây dựng mô hình”.....................................40
Hình 2-34. “Quá trình phân lớp dữ liệu - Ước lượng độ chính xác của mô hình”........41
Trang | iv
Hình 3-8. Biểu đồ tình trạng sở hữu nhà của người vay...............................................54
Hình 3-10. Biểu đồ mục đích vay tiền của người vay...................................................57
Hình 3-12. Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy Logistic..........58
Hình 3-15. Phương trình biểu diễn siêu phẳng trong không gian đa chiều...................62
Hình 3-21. Ở bảng Test and Score, lựa chọn tỷ lệ lấy mẫu tại Cross Validation hoặc
Random Sampling để thu được chỉ số tốt nhất..............................................................66
Trang |v
Hình 3-32. Thực hiện dự báo bằng công cụ Predictions...............................................72
Trang | vi
DANH MỤC BẢNG
Bảng 2-1. Ưu và nhược điểm của phương pháp Thống kê mô tả.................................11
Bảng 2-2. Ưu và nhược điểm của phương pháp tổng hợp nhóm với Subtotal..............15
Bảng 2-3. Ưu và nhược điểm của phương pháp hợp nhất dữ liệu với Consolidate......18
Bảng 2-4. Ưu và nhược điểm của phương pháp Trung bình trượt................................20
Bảng 2-5. Ưu và nhược điểm của phương pháp San bằng mũ......................................22
Bảng 2-7. Chiến lược phân cụm dựa trên phân cấp......................................................37
Bảng 2-8. Ưu và nhược điểm của phân cụm dựa trên phân cấp...................................37
Trang | vii
LỜI MỞ ĐẦU
Khoa học dữ liệu tập trung vào nghiên cứu và phân tích thông tin từ dữ liệu để
cung cấp những thông tin sâu rộng, mang ý nghĩa đặc biệt đối với kinh doanh. Các
hoạt động cốt lõi của lĩnh vực này bao gồm thu thập, chuẩn hóa, xử lý, phân tích, mô
hình hóa dữ liệu và trình bày kết quả. Trong lĩnh vực tài chính, ứng dụng khoa học dữ
liệu đa dạng, từ phân tích rủi ro tín dụng đến định giá tài sản và quản lý danh mục đầu
tư.
Với sự phát triển của nền kinh tế, nhu cầu vay vốn tăng cao, đặt ra yêu cầu cao
hơn cho việc đánh giá khả năng trả nợ của người vay. Phân tích rủi ro tín dụng đóng
vai trò quan trọng trong việc thu thập và phân tích thông tin về người vay để đánh giá
khả năng trả nợ. Cùng với sự tiến bộ của công nghệ thông tin, các phương pháp phân
tích rủi ro tín dụng đã được cải tiến, sử dụng các kỹ thuật máy học để tăng cường dự
đoán.
Nhóm đã áp dụng kiến thức từ lĩnh vực này vào việc phân tích bộ dữ liệu "Phân
tích rủi ro tín dụng từ thông tin người vay" trên Kaggle thông qua công cụ Orange. Bộ
dữ liệu này chứa thông tin của hơn 32,000 người vay trên toàn thế giới. Kết quả
nghiên cứu chỉ ra rằng việc sử dụng các kỹ thuật phân tích rủi ro tín dụng có thể nâng
cao khả năng dự đoán, giảm thiểu rủi ro nợ xấu đối với các tổ chức tín dụng.
Đồ án này sẽ trình bày tổng quan về khoa học dữ liệu, giới thiệu đề tài và mục
tiêu nghiên cứu của nhóm. Chương 2 sẽ tập trung vào việc áp dụng kiến thức đã học
vào chương trình và các phương pháp sẽ được áp dụng. Nhóm sẽ áp dụng những
phương pháp này vào bài toán thực tế, sau đó đánh giá kết quả mô hình. Cuối cùng, sẽ
rút ra những kết luận và đề xuất phương hướng phát triển tiếp theo.
Nhóm chúng em chân thành cảm ơn thầy TS. Nguyễn Quốc Hùng, giảng viên
môn Khoa học dữ liệu đã đồng hành, hướng dẫn chúng em trong khoảng thời gian vừa
qua. Nhờ có thầy mà những bài học không còn khô khan và trở nên sống động hơn,
chúng em đã học hỏi thêm được nhiều kiến thức bổ ích cũng như hiểu vai trò của Khoa
học dữ liệu và cách vận dụng kỹ năng vào các phần mềm khoa học Excel và Orange .
Với lòng biết ơn sâu sắc, chúng em xin cảm ơn thầy vì sự tận tâm và công lao của thầy
trong quá trình giảng dạy và truyền đạt kiến thức. Một lần nữa, nhóm em xin chân
Trang | 1
thành cảm ơn thầy!
Trang | 2
Trang | 3
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI
THIỆU ĐỀ TÀI
1.1. Giới thiệu về khoa học dữ liệu
1.1.1. Dữ liệu
Dữ liệu (Data) là những giá trị biểu thị thông tin theo hình thức định lượng hoặc
định tính của các đối tượng, hiện tượng trong đời sống. Trong lĩnh vực khoa học dữ
liệu, dữ liệu được coi là một phương tiện để thể hiện thông tin về các sự kiện, hiện
tượng một cách hợp lý để có thể truyền tải, hiển thị và xử lý bởi máy tính. Thông tin
(Information) là dữ liệu đã qua quá trình xử lý, phân tích, sắp xếp nhằm mục đích làm
rõ hơn các đối tượng, sự việc, hiện tượng theo một quan điểm nhất định.
Dựa trên nguồn gốc thu thập, dữ liệu cũng có thể được chia thành dữ liệu thứ
cấp và dữ liệu sơ cấp.
Dữ liệu thứ cấp: là dữ liệu đã được thu thập và sẵn có, thường được thu thập
bởi các tổ chức khác. Ví dụ: dữ liệu thống kê, dữ liệu doanh nghiệp, dữ liệu
nghiên cứu,...
Dữ liệu sơ cấp: là dữ liệu được thu thập trực tiếp từ nguồn, thường được thu
thập bởi người sử dụng dữ liệu. Ví dụ: dữ liệu khảo sát, dữ liệu nghiên cứu
thị trường, dữ liệu thử nghiệm,...
Ngoài ra, dữ liệu cũng có thể được chia thành dữ liệu có cấu trúc và dữ liệu
không có cấu trúc.
Dữ liệu có cấu trúc: là dữ liệu được tổ chức theo một định dạng nhất định,
dễ dàng lưu trữ và truy cập. Ví dụ: dữ liệu trong cơ sở dữ liệu, dữ liệu
bảng,...
Dữ liệu không có cấu trúc: là dữ liệu không được tổ chức theo một định
dạng nhất định, khó lưu trữ và truy cập. Ví dụ: dữ liệu văn bản, dữ liệu hình
ảnh, dữ liệu video,...
Khoa học dữ liệu (Data Science) là một lĩnh vực nghiên cứu liên ngành, sử
dụng các phương pháp thống kê, toán học, máy học và trí tuệ nhân tạo để thu thập, xử
Trang | 4
lý, phân tích dữ liệu, nhằm rút ra thông tin và tri thức có giá trị.
Trang | 5
Khoa học dữ liệu có thể được chia thành các quy trình chính sau:
Thu thập: Đây là bước đầu tiên trong quá trình khoa học dữ liệu, nhằm thu
thập dữ liệu từ các nguồn khác nhau, chẳng hạn như từ các cơ sở dữ liệu,
khảo sát, mạng xã hội,...
Làm sạch: Bước này nhằm loại bỏ các dữ liệu lỗi, thiếu sót hoặc không phù
hợp, nhằm đảm bảo chất lượng dữ liệu.
Tiền xử lý: Bước này nhằm chuẩn hóa dữ liệu, chẳng hạn như chuyển đổi dữ
liệu về cùng một định dạng, loại bỏ các giá trị ngoại lai,...
Phân tích: Đây là bước quan trọng nhất trong khoa học dữ liệu, nhằm rút ra
thông tin và tri thức từ dữ liệu. Các phương pháp phân tích dữ liệu có thể
được chia thành hai loại chính: phân tích mô tả và phân tích dự đoán.
Trực quan hóa: Bước này nhằm thể hiện kết quả phân tích dữ liệu một cách
trực quan, giúp người dùng dễ dàng hiểu và tiếp thu.
Khoa học dữ liệu đang ngày càng trở nên quan trọng trong nhiều lĩnh vực,
chẳng hạn như kinh doanh, tài chính, y tế, giáo dục,... Khoa học dữ liệu giúp các tổ
chức và doanh nghiệp đưa ra các quyết định sáng suốt hơn, cải thiện hiệu quả hoạt
động và mang lại lợi thế cạnh tranh.
Khoa học dữ liệu có vai trò quan trọng trong nhiều lĩnh vực của đời sống xã
hội, bao gồm:
Kinh doanh: Khoa học dữ liệu giúp các doanh nghiệp đưa ra các quyết định
kinh doanh sáng suốt hơn, cải thiện hiệu quả hoạt động và mang lại lợi thế
cạnh tranh. Ví dụ, các doanh nghiệp có thể sử dụng khoa học dữ liệu để
phân tích dữ liệu khách hàng, dữ liệu bán hàng, dữ liệu sản phẩm,... nhằm
xác định nhu cầu khách hàng, tối ưu hóa chiến lược tiếp thị, phát triển sản
phẩm mới,...
Tài chính: Khoa học dữ liệu giúp các nhà đầu tư đưa ra các quyết định đầu
tư hiệu quả hơn, quản lý rủi ro tốt hơn. Ví dụ, các nhà đầu tư có thể sử dụng
khoa học dữ liệu để phân tích dữ liệu thị trường, dữ liệu tài chính, dữ liệu
khách hàng,... nhằm dự đoán xu hướng thị trường, xác định các cơ hội đầu
tư tiềm năng,...
Trang | 6
Y tế: Khoa học dữ liệu giúp cải thiện việc chẩn đoán, điều trị bệnh, phát
triển thuốc mới. Ví dụ, các bác sĩ có thể sử dụng khoa học dữ liệu để phân
tích dữ liệu y tế, dữ liệu bệnh nhân, dữ liệu nghiên cứu,... nhằm nâng cao
hiệu quả chẩn đoán, điều trị bệnh, phát triển các phương pháp điều trị mới.
Giáo dục: Khoa học dữ liệu giúp cải thiện chất lượng giáo dục, nâng cao
hiệu quả giảng dạy. Ví dụ, các nhà giáo dục có thể sử dụng khoa học dữ liệu
để phân tích dữ liệu học tập, dữ liệu giáo viên, dữ liệu nhà trường,... nhằm
đánh giá hiệu quả học tập của học sinh, phát triển các phương pháp giảng
dạy hiệu quả hơn.
Chính phủ: Khoa học dữ liệu giúp đưa ra các chính sách hiệu quả hơn, cải
thiện đời sống của người dân. Ví dụ, chính phủ có thể sử dụng khoa học dữ
liệu để phân tích dữ liệu dân số, dữ liệu kinh tế, dữ liệu tội phạm,... nhằm
hiểu rõ hơn về nhu cầu của người dân, đưa ra các chính sách phù hợp.
Nhìn chung, khoa học dữ liệu có vai trò quan trọng trong việc giúp chúng ta
hiểu rõ hơn về thế giới xung quanh, đưa ra các quyết định sáng suốt hơn và cải thiện
chất lượng cuộc sống.
Khoa học dữ liệu có thể được ứng dụng trong nhiều lĩnh vực khác nhau, với
những ứng dụng tiêu biểu như sau:
Phân tích dữ liệu khách hàng để hiểu rõ hơn về nhu cầu, sở thích của khách
hàng, từ đó đưa ra các chiến lược tiếp thị, bán hàng hiệu quả hơn.
Phân tích dữ liệu bán hàng để dự đoán xu hướng thị trường, xác định các
sản phẩm, dịch vụ tiềm năng.
Phân tích dữ liệu sản phẩm để cải thiện chất lượng sản phẩm, dịch vụ, giảm
chi phí sản xuất.
Phân tích dữ liệu hoạt động của doanh nghiệp để tối ưu hóa quy trình, nâng
cao hiệu quả hoạt động.
Trang | 7
Phân tích dữ liệu thị trường để dự đoán xu hướng thị trường, đưa ra các
quyết định đầu tư hiệu quả.
Phân tích dữ liệu tài chính của doanh nghiệp để đánh giá tình hình tài chính,
đưa ra các quyết định tài chính phù hợp.
Phân tích dữ liệu giao dịch tài chính để phát hiện gian lận, rửa tiền.
Phân tích dữ liệu y tế để chẩn đoán bệnh, điều trị bệnh hiệu quả hơn.
Phân tích dữ liệu nghiên cứu y khoa để phát triển các phương pháp điều trị
mới, thuốc mới.
Phân tích dữ liệu sức khỏe của người dân để đưa ra các chính sách chăm sóc
sức khỏe phù hợp.
Phân tích dữ liệu học tập của học sinh để đánh giá hiệu quả học tập, phát
triển các phương pháp giảng dạy hiệu quả hơn.
Phân tích dữ liệu giáo viên để đánh giá năng lực giảng dạy, phát triển các
chương trình đào tạo giáo viên.
Phân tích dữ liệu nhà trường để cải thiện chất lượng giáo dục của nhà
trường. Trong chính phủ, khoa học dữ liệu được sử dụng để:
Phân tích dữ liệu dân số để hiểu rõ hơn về nhu cầu của người dân, đưa ra
các chính sách phù hợp.
Phân tích dữ liệu kinh tế để đánh giá tình hình kinh tế, đưa ra các chính sách
kinh tế phù hợp.
Phân tích dữ liệu tội phạm để phòng chống tội phạm hiệu quả hơn.
Ngoài ra, khoa học dữ liệu còn được ứng dụng trong nhiều lĩnh vực khác, chẳng hạn
như:
Truyền thông: Phân tích dữ liệu người dùng để đưa ra các nội dung, quảng
cáo phù hợp.
Thương mại điện tử: Phân tích dữ liệu mua sắm của khách hàng để đưa ra
các khuyến mãi, ưu đãi phù hợp.
Trang | 8
Giao thông vận tải: Phân tích dữ liệu giao thông để dự đoán tình trạng giao
thông, đưa ra các giải pháp giảm tắc nghẽn giao thông.
Môi trường: Phân tích dữ liệu môi trường để giám sát chất lượng môi
trường, đưa ra các giải pháp bảo vệ môi trường.
Khoa học dữ liệu là một lĩnh vực rộng lớn và đang phát triển nhanh chóng. Với
những tiềm năng to lớn, khoa học dữ liệu được dự đoán sẽ có tác động sâu sắc đến
nhiều lĩnh vực của đời sống xã hội trong tương lai.
Phân tích và dự đoán tình trạng khoản vay của khách hàng dựa trên bộ dữ liệu
“Phân tích rủi ro tín dụng từ thông tin người vay" trên Kaggle.
Link Dataset
Ngày nay, rủi ro tín dụng là một vấn đề thực tế và quan trọng trong lĩnh vực
ngân hàng và tài chính, nhất là trong bối cảnh sau đại dịch Covid-19. Bằng cách sử
dụng các phương pháp thống kê và học máy, ta có thể phân loại và dự báo xác suất trả
nợ của các khách hàng, từ đó giúp các tổ chức tài chính đưa ra quyết định cho vay một
cách hiệu quả và an toàn. Đồng thời, việc phân tích và dự đoán tình trạng khoản vay
cũng có ích cho các khách hàng, giúp họ nắm bắt được khả năng tài chính của mình và
lựa chọn khoản vay phù hợp.
Trang | 9
Rủi ro tín dụng là khả năng mất mát mà ngân hàng hoặc tổ chức tài chính phải
đối mặt khi khách hàng không thể hoặc không muốn trả nợ. Điều này có thể xảy ra do
nhiều nguyên nhân, bao gồm thất nghiệp, thay đổi trong tình hình kinh tế, hoặc sự
không ổn định trong ngành công nghiệp. Rủi ro tín dụng có thể ảnh hưởng đến lợi
nhuận của ngân hàng và tạo ra tác động tiêu cực đối với hệ thống tài chính nói chung.
Để giảm thiểu rủi ro tín dụng, các tổ chức thường áp dụng các biện pháp đánh giá rủi
ro, xác định hạn mức tín dụng và quản lý portfolio nợ.
Phân tích và đánh giá tổng thể về rủi ro tín dụng từ thông tin của người vay.
Xây dựng mô hình dự đoán rủi ro dựa trên thông tin từ bộ dữ
Nghiên cứu và phân tích các yếu tố tác động đến rủi ro tín dụng.
Xác định các tác động và đưa ra ngưỡng quyết định tín dụng.
Đánh giá hiệu quả của mô hình dự đoán.
Đề xuất biện pháp quản lý rủi ro.
Trang | 10
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG
VÀ PHƯƠNG PHÁP SỬ DỤNG
2.1. Các phương pháp của Excel dùng để khai thác dữ liệu
a. Định nghĩa
Mô tả dữ liệu: Cho phép xác định các đặc tính cơ bản của dữ liệu như trung
bình, phương sai, độ lệch chuẩn, giá trị lớn nhất, giá trị nhỏ nhất, v.v.
Tóm tắt dữ liệu: Giúp hiểu rõ hơn về phân phối của dữ liệu thông qua các độ
đo tần suất như median, mode, phân vị.
Hình thức đơn giản: Dễ hiểu và dễ thực hiện, thường được thực hiện bằng
các công cụ phần mềm như Excel, SPSS, R, v.v.
Dễ áp dụng: Không yêu cầu kiến thức Thiếu sâu sắc: Không cung cấp thông
chuyên sâu về thống kê. tin chi tiết hoặc liên hệ giữa các biến.
Tổng quan dữ liệu: Cho cái nhìn tổng Không chứng minh mối quan hệ
quan về dữ liệu một cách nhanh chóng. nguyên nhân – kết quả: Chỉ mô tả dữ
Giúp chuẩn bị cho phân tích chi tiết liệu mà không giải thích mối quan hệ
hơn: Cung cấp thông tin cơ bản để quyết giữa các yếu tố.
Trang | 11
định liệu dữ liệu có nên được phân tích Dễ bị sai lầm nếu dữ liệu bị lệch hoặc
chi tiết hơn hay không. có giá trị ngoại lệ: Các thước đo trung
bình, phương sai có thể bị ảnh hưởng bởi
dữ liệu bất thường.
Hình 2-1. Các bước thực hiện phương php Thống kê mô tả (1)
Bước 3: Trong hộp thoại Data Analysis, chọn Descriptive Statistic. Chọn
OK.
Hình 2-2. Các bước thực hiện phương pháp Thống kê mô tả (2)
Ví dụ: TKMT cho lượng thịt bò (theo kg) bán được trong tháng 03 tại siêu thị
ABC
Trang | 12
Trang | 13
Hình 2-3. Ví dụ phương pháp Thống kê mô tả (1)
Trong hộp thoại Descriptive Statistic, nhập dữ liệu vào Input Range là cột dữ
liệu thịt bò, Output Range là ô xuất dữ liệu. Mức độ tin cậy cho giá trị trung bình
(Confidence Level For Mean) là 95%. Ta được bảng thống kê mô tả như sau:
a. Định nghĩa
Phương pháp Subtotal (Tổng hợp nhóm): Là cách thức tự động tạo ra các tổng
hợp cho các nhóm dữ liệu đã được phân loại trong bảng tính. Khi áp dụng, nó tạo các
Trang | 14
dòng tổng hợp cho từng nhóm, thường được thể hiện bằng các tổng, trung bình hoặc
các phép tính khác.
b. Đặc điểm
Tạo tự động: Subtotal tự động tạo ra các dòng tổng hợp cho từng nhóm
trong bảng dữ liệu dựa trên các tiêu chí phân loại.
Có thể thay đổi: Có thể chọn các phép tính khác nhau như tổng, trung bình,
tối đa, tối thiểu cho mỗi nhóm.
Tính linh hoạt: Có thể thay đổi các tiêu chí phân nhóm để thấy tổng hợp cho
các nhóm khác nhau.
Trang | 15
c. Ưu và nhược điểm của phương pháp
Bảng 2-2. Ưu và nhược điểm của phương pháp tổng hợp nhóm với Subtotal
Tự động hóa: Tiết kiệm thời gian và Phụ thuộc vào cấu trúc dữ liệu:
công sức so với việc thực hiện các tính Subtotal yêu cầu dữ liệu được tổ chức
toán tổng hợp thủ công cho từng nhóm. theo cấu trúc phân loại nhất định để hoạt
Dễ dàng cập nhật: Khi dữ liệu thay đổi, động hiệu quả.
các tổng hợp được cập nhật tự động theo Khả năng gây nhầm lẫn: Trong một số
các thay đổi đó. trường hợp, việc sử dụng Subtotal có thể
Tính trực quan: Hiển thị dữ liệu theo dẫn đến hiểu lầm khi không chú ý đến
các nhóm và tổng hợp dễ dàng để phân các thay đổi trong dữ liệu gốc.
tích.
Ví dụ: Tính tổng số tiền được thực hiện bởi mỗi nhân viên.
Trang | 16
Hình 2-5. Ví dụ phương pháp tổng hợp nhóm với Subtotal (1)
Trong hộp thoại Subtotal, chọn cột cần gom nhóm (At each change in) là
Salesperson, chọn hàm thống kê Use function là Sum. Chọn cột thống kê giá trị (Add
subtotal to) là Order Amount.
Hình 2-6. Ví dụ phương pháp tổng hợp nhóm với Subtotal (2)
Trang | 17
Ta được bảng kết quả như sau:
Hình 2-7. Ví dụ phương pháp tổng hợp nhóm với Subtotal (3)
a. Định nghĩa
Consolidate trong Excel hoặc các công cụ tương tự là quá trình kết hợp dữ liệu
từ nhiều vùng, bảng tính hoặc nguồn dữ liệu khác nhau vào một vị trí duy nhất, thông
thường là một bảng tổng hợp.
Tính linh hoạt: Cho phép người dùng chọn các vùng dữ liệu khác nhau để
kết hợp.
Tạo bảng tổng hợp: Tạo ra một bảng tổng hợp chứa thông tin từ các nguồn
dữ liệu khác nhau.
Cập nhật tự động: Có thể cấu hình để tự động cập nhật dữ liệu khi có thay
đổi trong các nguồn gốc.
c. Ưu và nhược điểm
Trang | 18
Bảng 2-3. Ưu và nhược điểm của phương pháp hợp nhất dữ liệu với Consolidate
Tổ chức dữ liệu: Giúp tổ chức dữ liệu Độ phức tạp: Quá trình cấu hình và thiết
từ nhiều nguồn thành một cấu trúc dễ lập ban đầu có thể phức tạp đối với người
quản lý và phân tích. mới sử dụng.
Tiết kiệm thời gian: Loại bỏ việc thủ Rủi ro sai sót: Có thể xảy ra sai sót khi
công sao chép và dán dữ liệu từng phần kết hợp dữ liệu từ nhiều nguồn khác nhau,
một. đặc biệt nếu không kiểm soát được định
Cập nhật dễ dàng: Có thể cập nhật dữ dạng hoặc cấu trúc dữ liệu.
liệu một cách nhanh chóng khi có thay
đổi trong các nguồn dữ liệu.
Trang | 19
Hình 2-10. Ví dụ hợp nhất dữ liệu - Cửa hàng 3
Ở mục Function chọn Sum. Reference là vùng sẽ hiện kết quả. Mục All
References thêm vào các vùng dữ liệu cần hợp nhất của 3 cửa hàng. Sau đó, ta được
kết quả.
Phân tích dự báo là một quá trình sử dụng dữ liệu trong quá khứ để dự đoán các giá trị
trong tương lai.
a Định nghĩa
Trang | 20
Phương pháp Trung bình trượt là một kỹ thuật thống kê được sử dụng trong
việc dự báo và phân tích chuỗi dữ liệu. Đây là cách tính trung bình của các giá trị liên
tiếp trong chuỗi dữ liệu, với một cửa sổ trượt di chuyển theo thời gian.
b. Đặc điểm
c. Ưu và nhược điểm
Bảng 2-4. Ưu và nhược điểm của phương pháp Trung bình trượt
Đơn giản và linh hoạt: Dễ dàng triển Làm mất thông tin chi tiết: Do tính chất
khai và có thể áp dụng cho nhiều loại làm mịn dữ liệu, phương pháp này có thể
chuỗi dữ liệu khác nhau. làm mất thông tin chi tiết trong dữ liệu
Dễ dàng thay đổi cỡ cửa sổ: Cho phép chính xác của dự đoán và phân tích.
tinh chỉnh mô hình để phù hợp với tính
chất của dữ liệu.
Hình 2-13. Cách thực hiện phương pháp Trung bình trượt
Input Range: Đây là phạm vi các ô chứa dữ liệu mà chúng ta muốn dùng để
dự báo giá trị trung bình trượt.
Labels in First Row: Nếu tiêu đề nằm ở dòng đầu tiên của Input Range có
chứa tiêu đề cột thì tick vào đây.
Interval: Số lượng giá trị được sử dụng để tính toán giá trị trung bình trượt
(w).
Output Range: Phạm vi ô nơi xuất kết quả. Những ô không đủ giá trị để tính
trung bình trượt sẽ hiện giá trị #N/A.
Trang | 22
Chart Output: Tạo biểu đồ cùng với kết quả.
Standard Errors: Tạo thêm một cột chứa sai số chuẩn.
a. Định nghĩa
Phương pháp San bằng mũ thực hiện dự đoán bằng cách gán trọng số khác nhau
cho các giá trị trong chuỗi dữ liệu, với trọng số giảm dần theo thời gian.
b. Đặc điểm
Cập nhật liên tục: Phương pháp này liên tục cập nhật dự đoán dựa trên các
giá trị mới nhất.
Trọng số biến đổi: Sử dụng trọng số để ước lượng giá trị mới, với trọng số
giảm theo thời gian.
Độ linh hoạt: Có thể áp dụng cho các loại chuỗi dữ liệu khác nhau và dễ
dàng thay đổi độ mịn của dự đoán.
c. Ưu và nhược điểm
Bảng 2-5. Ưu và nhược điểm của phương pháp San bằng mũ
Tính linh hoạt: Có thể điều chỉnh độ Đòi hỏi lựa chọn hằng số: Việc lựa chọn
mịn của dự đoán bằng cách thay đổi hằng số trọng số có thể ảnh hưởng đến độ
hằng số trọng số. chính xác của dự đoán.
Ưu tiên giá trị mới: Gán trọng số lớn Dễ bị ảnh hưởng bởi nhiễu: Dữ liệu
cho giá trị mới nhất, phản ánh xu nhiễu có thể làm giảm độ chính xác của dự
hướng gần đây của dữ liệu. đoán.
Ft = a.Dt-1 + (1-a).Ft-1
Trang | 23
Trong đó
Hình 2-14. Các bước thực hiện phương pháp San bằng mũ
Trang | 24
Standard Errors: Tạo một cột bổ sung chứa các sai số chuẩn.
a. Định nghĩa
Phương pháp Hồi quy xây dựng một mô hình toán học để mô tả mối quan hệ
giữa các biến độc lập và biến phụ thuộc. Nó sử dụng dữ liệu đã biết để dự đoán giá trị
của biến phụ thuộc khi có giá trị của các biến độc lập mới.
b. Đặc điểm
Mô hình toán học: Sử dụng một phương trình toán học để biểu diễn mối
quan hệ giữa các biến.
Phân tích đa biến: Có thể xử lý nhiều biến độc lập cùng lúc.
Định lượng mối quan hệ: Cho phép định lượng mức độ ảnh hưởng của các
biến độc lập đối với biến phụ thuộc.
c. Ưu và nhược điểm
Bảng 2-6. Ưu và nhược điểm phương pháp Hồi quy
Dự đoán và giải thích: Cho phép dự Dễ bị ảnh hưởng bởi dữ liệu nhiễu: Dữ liệu
đoán giá trị của biến phụ thuộc và nhiễu có thể làm giảm độ chính xác của mô
giải thích mối quan hệ giữa các biến. hình.
Linh hoạt: Có thể áp dụng cho nhiều Giả định về mô hình: Cần phải xác định
loại dữ liệu và mô hình hóa nhiều đúng mô hình phù hợp với dữ liệu, mô hình
loại mối quan hệ. không phản ánh đầy đủ mọi trường hợp thực
Trang | 25
Y = f(X1, X2, …, Xn)
(Hồi quy đơn biến: Y= aX+b)
Trong đó:
Trang | 26
Hình 2-15. Cách thực hiện phương pháp Hồi quy
Hộp thoại
Regression
Y Range Input: Phạm vi ô chứa giá trị của Y, biến phụ thuộc
X Range Input: Phạm vi ô chứa giá trị của X, biến độc lập (Có thể chọn
nhiều biến X trong trường hợp hồi quy đa biến)
Labels: Đánh dấu vào đây để xác nhận rằng ô (các ô) đầu tiên không chứa
dữ liệu hồi quy
Constant is Zero: Chọn mục này để xác nhận rằng hệ số tự do của hàm hồi
quy tuyến tính a = 0
Confidence Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1-a, với a
là mức ý nghĩa hoặc xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0
đúng
Output Range: Phạm vi ô mà bạn muốn chứa kết quả
New Worksheet Ply: In kết quả ra một sheet mới
New Workbook: In kết quả ra một tập tin Excel mới
Residuals: Sai số do ngẫu nhiên
Trang | 27
Standardized Residuals: Tạo biểu đồ chuẩn hóa sai số
Residuals Plots: Tạo biểu đồ cho sai số
Line Fit Plots: Tạo đồ thị cho hàm hồi quy tuyến tính
Normal Probability Plots: Tạo đồ thị xác suất theo phân phối chuẩn
Tối ưu hóa là quá trình tìm kiếm và xác định giá trị tối đa hoặc tối thiểu của
một hàm số hoặc một tập hợp các ràng buộc, dựa trên một số tiêu chí nhất định. Tối ưu
hóa được áp dụng trong nhiều lĩnh vực, bao gồm kinh tế học, kỹ thuật, khoa học máy
tính, toán học, vật lý, hóa học và các ngành khoa học khác.
Trong lĩnh vực kinh tế, việc tối ưu hóa thường được áp dụng để giải quyết các
vấn đề như tăng lợi nhuận tối đa hoặc giảm thiểu chi phí. Các phương pháp tối ưu hóa
thường được sử dụng để cải thiện các quyết định trong quản lý sản xuất, quản lý vốn,
tài chính, tiếp thị và phân tích dữ liệu.
2.1.3.2. Ứng dụng phương pháp phân tích vào bài toán thực tế
Một cơ sở hộ gia đình chuyên làm hai loại kẹo: A và B. Để làm được một thùng
kẹo A, cần phải dành 2 giờ công cho việc chuẩn bị nguyên liệu, 1 giờ công cho việc
chế biến và 1 giờ công cho việc hoàn tất. Để làm được một thùng kẹo B, cần phải dành
1 giờ công cho việc chuẩn bị nguyên liệu, 1 giờ công cho việc chế biến và 2 giờ công
cho việc hoàn tất. Cơ sở này có thể sử dụng tối đa 100 giờ công cho việc chuẩn bị, 70
giờ công cho việc chế biến và 120 giờ công cho việc hoàn tất trong mỗi tuần. Mỗi
thùng kẹo A và B mang lại lợi nhuận là 30$ và 40$. Cơ sở cần phải tìm ra cách làm
sao để có lợi nhuận cao nhất.
Mục tiêu bài toán là tối đa hóa lợi nhuận cho công ty, ta có được hàm mục tiêu P
( lợi nhuận ) như sau: P = P (kẹo A) + P (kẹo B) = 30x1 + 40x2 ⇒ max
Trang | 28
Bước 3: Xác định hệ ràng buộc
Hình 2-18. Thêm điều kiện ràng buộc vào ô Subject to the Constraints
Trong hộp thoại Solver Results, bạn có thể chọn các tùy chọn sau
Keep Solver Solution: Giữ nguyên kết quả và hiển thị trên bảng tính
Restore Original Values: Bỏ qua kết quả vừa tìm được và khôi phục các
biến về giá trị ban đầu.
Save Scenario: Lưu kết quả vừa tìm được dưới dạng một tình huống để có
thể xem lại khi cần.
Có thể xuất hiện thêm các dạng báo cáo trong kết quả: Answer, Sensitivity
và Limits ”
Trang | 30
Hình 2-19. Hộp thoại Solver Results
Trang | 31
Hình 2-21. Báo cáo kèm lời giải công cụ Solver
Orange là hệ điều hành nhân bản của Linux (Dòng Minimal X của OpenSUSE).
Đây là một phần mềm phân tích dữ liệu và học máy được phát triển bởi Viện Khoa học
Thông tin thuộc Đại học Ljubljana, Slovenia. Orange có thể được sử dụng để khám
phá, trực quan hóa và mô hình hóa dữ liệu bằng cách sử dụng các kỹ thuật học máy và
thống kê. Nhờ vào giao diện đồ họa trực quan, vì thế thao tác chỉ gói gọn ở việc kéo và
thả các thành phần xử lý dữ liệu để tạo ra các quy trình phân tích. Ngoài ra, đây cũng
có thể được sử dụng như một thư viện Python, cho phép người dùng viết các đoạn mã
để tùy biến các chức năng của phần mềm. Orange được viết bằng ngôn ngữ Python và
sử dụng các thư viện như NumPy, SciPy, Scikit-learn và PyQt. Đặc biệt, đây là một
phần mềm mã nguồn mở, có thể được tải về miễn phí và sử dụng cho các mục đích
giáo dục, nghiên cứu và thương mại.
Trang | 32
Hình 2-22. Logo phần mềm Orange Data Mining
Orange cung cấp cho người dùng bao gồm các tiện ích được tích hợp tối giản
nhất để người dùng thực hiện các thao tác phân tích dữ liệu dễ dàng, điển hình như các
nhóm:
Data cho phép người dùng nhập dữ liệu, loại bỏ hay biến đổi dữ liệu.
Trang | 33
Hình 2-24. Tiện ích Transform
Visualize tạo các biểu đồ để quan sát và phân tích dữ liệu tối ưu hơn.
Evaluate bao gồm các phương pháp đánh giá mô hình học máy.
Trang | 34
Hình 2-27. Tiện ích Evaluate
Educational bao gồm một số quy trình khai thác dữ liệu và học máy quan
trọng.
Phân cụm dữ liệu là quá trình gom nhóm các đối tượng dữ liệu có sự tương
đồng với nhau thành các cụm. Quá trình này được sử dụng để phát hiện các cấu trúc ẩn
trong dữ liệu và có nhiều ứng dụng trong thực tế, chẳng hạn như phân loại khách hàng,
phân tích thị trường.
Lưu ý: trong quá trình phân cụm ta không biết trước đặc điểm của các cụm mà
phải dựa vào mối liên hệ giữa các đối tượng để xác định sự tương đồng đặc trưng cho
mỗi cụm giữa các đối tượng theo một độ đo nào đó.
Trang | 36
Tìm được, đo lường được sự khác nhau của các đối tượng
Phương pháp học không có giám sát được sử dụng khi số cụm dữ liệu không
được biết trước.
Cái nào tạo ra được cụm chất lượng cao là phương pháp phân cụm tốt:
o
Độ giống nhau bên trong cụm nhiều
o
Độ giống nhau giữa các cụm ít (khác nhau nhiều hơn)
Được ứng dụng như một công cụ phân cụm dữ liệu độc lập
Là tiền đề cho các thuật toán khác
Phương pháp phân cụm dữ liệu đóng vai trò quan trọng trong lĩnh vực khai
phá dữ liệu, là một trong những thuật toán phổ biến nhất. Ứng dụng của nó rất đa
dạng, giúp hiệu quả trong việc giải quyết nhiều vấn đề liên quan đến dữ liệu. Sau khi
áp dụng phương pháp này, ta sẽ có khả năng hiểu rõ hơn về cấu trúc và mối quan hệ
trong dữ liệu, từ đó có thể chuyển giao thông tin đó cho các phương tiện xử lý dữ liệu
khác để tiếp tục khám phá và giải quyết các thách thức khác nhau.
a. Định nghĩa
Phân cụm dựa trên phân cấp (Hierarchical clustering) là một phương pháp
được thực hiện bằng cách coi tất cả các đối tượng dữ liệu là một cụm. Sau đó, các cụm
được hợp nhất hoặc chia nhỏ dựa trên độ tương đồng giữa các đối tượng dữ liệu. Quá
trình này được lặp lại cho đến khi đạt được số lượng cụm mong muốn.
Chiến lược hợp nhất (agglomerative) Chiến lược chia nhỏ (divisive)
Đối tượng là các cụm riêng biệt Đối tượng là một cụm chung
Liên kết các cụm để tạo thành cụm lớn Chia nhỏ dần dần cụm thành các cụm nhỏ
hơn hơn.
b. Đặc điểm
Việc phân cấp các đối tượng thường được thực hiện theo 2 tiêu chí:
Tạo ra được một ma trận khoảng cách giữa các phần tử (ma trận tương đồng
hoặc ma trận khác biệt).
Độ đo khoảng cách giữa các cụm (single link, complete link…)
Bảng 2-8. Ưu và nhược điểm của phân cụm dựa trên phân cấp
Không cần xác định trước số lượng cụm. Cần xác định điều kiện dừng
Có thể phát hiện các mối quan hệ phức tạp Có thể khó hiểu kết quả phân cụm.
giữa các đối tượng dữ liệu.
Có thể được sử dụng cho dữ liệu số, dữ Có thể bị ảnh hưởng bởi cách lựa chọn
liệu văn bản và dữ liệu hình ảnh. độ đo tương đồng.
c. Ứng dụng
Trang | 38
Hình 2-32. So sánh 2 phương pháp thường dùng Diana và Agnes
Single-linkage: Thuật toán này hợp nhất hai cụm có độ tương đồng giữa các
đối tượng dữ liệu của chúng là lớn nhất.
Complete-linkage: Thuật toán này hợp nhất hai cụm có độ tương đồng giữa
các đối tượng dữ liệu của chúng là nhỏ nhất.
Average-linkage: Thuật toán này hợp nhất hai cụm có độ tương đồng trung
bình giữa các đối tượng dữ liệu của chúng.
Ward's method: Thuật toán này hợp nhất hai cụm sao cho tổng phương sai
của các cụm mới được tạo ra là nhỏ nhất.
Có thể thấy, phân cụm dựa trên phân cấp cho ra kết quả trực quan, giải thuật dễ
hiểu, không cần tham số đầu vào. Tuy nhiên, tốc độ xử lý của phương pháp này còn
chậm và thường bị thiếu và nhiễu, nhất là đối với các dữ liệu lớn, phức tạp.
a. Định nghĩa
Là quá trình phân chia tập dữ liệu ban đầu có x phần tử thành y tập con (y<=x),
trong đó mỗi tập con đại diện cho một cụm.
b. Đặc điểm
Phương pháp này dựa trên khoảng cách cơ bản giữa các điểm để xác định
các điểm dữ liệu gần nhau và xa nhau.
Không thể xử lý các cụm có hình dạng phức tạp hoặc có mật độ điểm dày đặc.
c. Ứng dụng
Trang | 39
Thuật toán K-means là một trong những phương pháp phân cụm dựa trên phân
hoạch.
Với b là số thuộc tính, ta xem đối tượng trong tập dữ liệu là một điểm trong không
gian có b chiều.
Bước 1: Chọn x điểm ban đầu làm trung tâm của x cụm.
Bước 2: Gán từng điểm vào cụm có trung tâm gần nhất. Nếu kết quả sau vẫn
giống kết quả trước, thuật toán phân chia sẽ dừng.
Bước 3: Xác định trung tâm cho mỗi cụm bằng cách tính trung bình của các
điểm trong cụm.
Bước 4: Quay lại bước 2.
Phân lớp là một dạng của phân tích dữ liệu dùng để dự đoán giá trị của những
nhãn xác định hay những giá trị rời rạc.
Phân lớp dữ liệu là quá trình phân chia các đối tượng dữ liệu theo các lớp khác
biệt dựa trên một hoặc nhiều tiêu chí đã được định nghĩa sẵn bằng cách áp dụng một
mô hình phân lớp nhất định. Mô hình này được xây dựng trên cơ sở tập dữ liệu đã
được gắn nhãn từ trước. Quá trình gắn nhãn cho các đối tượng dữ liệu diễn ra trong
quá trình phân loại dữ liệu.
Trang | 40
Gồm 2 bước chính:
Trang | 41
Bước 1: Xây dựng mô hình
Bước này nhằm xây dựng mô hình mô tả một tập các lớp dữ liệu hay các khái
niệm định trước. Dữ liệu đầu vào là những dữ liệu mẫu đã được tiền xử lý và gán nhãn
để nó không bị lỗi. Sau đó sử dụng: hàm số toán học, cây quyết định,… để tạo ra mô
hình phân lớp đã được huấn luyện.
Hình 2-33. Quá trình phân lớp dữ liệu - Xây dựng mô hình
Input là tập dữ liệu mẫu khác có nhãn, đã qua xử lý cơ bản. Các mẫu này được
lựa chọn ngẫu nhiên và không liên quan đến các mẫu khác trong tập dữ liệu đào tạo.
Khi đưa chúng vào mô hình phân lớp, phải bỏ qua thuộc tính nào đã có nhãn. Độ chính
xác của mô hình này được đánh giá bằng cách so khớp thuộc tính có nhãn của kết quả
phân lớp của mô hình và dữ liệu đầu vào. Nếu mô hình có độ chính xác cao trên tập dữ
liệu đào tạo và có thể chấp nhận được, thì mô hình này được áp dụng để phân lớp các
dữ liệu sau này, hoặc các dữ liệu mà giá trị của thuộc tính phân lớp chưa rõ.
Trang | 42
Hình 2-34. Quá trình phân lớp dữ liệu - Ước lượng độ chính xác của mô hình
o
Bước 2.2: Xử lý dữ liệu
Input của bước này là các dữ liệu bị “khuyết” cần được dự đoán được lớp. Mô
hình này phân lớp cho dữ liệu nhờ cái đã biết ở bước 1.
Phương pháp này là một mô hình xác suất dùng để dự đoán được giá trị đầu ra
rời rạc được biểu diễn bằng vector. Điều này tương tự như phân loại các đầu vào x vào
các nhóm y phù hợp.
Trang | 43
Ví dụ, ta đưa một bức hình là một vườn hoa vào phương pháp này. Với đầu ra y
= 1 nếu bức ảnh có một bông hoa, y = 0 nếu bức ảnh không có bông hoa nào. Đầu vào
x sẽ là các pixel ảnh được đưa vào.
Cây quyết định là một mô hình các quyết định, nó được đánh giá là tiện ích hiệu
quả, mạnh mẽ, phổ biến, thích hợp cho phân lớp dữ liệu.
Về quản trị, đây chính là đồ thị chứa kết quả khả dĩ và những quyết định gắn
liền nhằm giúp cho việc đưa ra quyết định.
Về khai thác dữ liệu, đây là thứ dùng phân loại, mô tả, tổng quát tập dữ liệu
cho trước.
Trang | 44
Hình 2-37. Minh họa về phương pháp cây quyết định
Ưu điểm
Nhược điểm
SVM được dùng để phân loại, có sự giám sát. Nó nhận dữ liệu vào, xem là
vector trong không gian và sẽ đưa các vector này vào các lớp không giống nhau.
Trang | 45
Nhiều biến thể đa dạng và phù hợp với nhiều bài toán
Ưu điểm
Nhược điểm
Khi chiều dữ liệu nhiều hơn dòng dữ liệu thì SVM cho kết quả không ổn định.
Không bộc lộ được tính xác suất
Ngoài là phương pháp hiệu quả trong các bài toán phân lớp dữ liệu, đây còn
là một công cụ đắc lực dùng được cả trong các công việc như xử lý ảnh, văn bản, phân
tích quan điểm…
Dùng để xem xét khả năng làm việc của mô hình phân lớp từ các dữ liệu có
tính chất riêng, từ đó ra kết luận về việc sử dụng mô hình
Mô hình không quá đơn giản là mô hình lý tưởng, không nhạy cảm với nhiễu và
ít phức tạp. Khi tạo mô hình nên tránh 2 lỗi sau để tránh sai sót như Underfitting (chưa
khớp) và Overfitting (quá khớp).
Trang | 46
Hình 2-39. Các phương pháp đánh giá mô hình
a. Ma trận nhầm
lẫn
Xác định được số điểm dữ liệu thực sự thuộc vào một lớp cụ thể.
Dự đoán các điểm dữ liệu sẽ rơi vào lớp nào.
Ma trận có kích thước k x k với k là số lượng lớp của dữ liệu.
Accuracy (tính chính xác): Tỷ lệ dữ liệu phân loại đúng nhưng không nêu rõ
từng loại phân loại ra sao, lớp nào có độ chính xác cao nhất, dữ liệu nào bị lẫn vào lớp
sai.
Precision (độ chính xác): thể hiện trong số x mẫu được phân vào lớp y có tỷ lệ
bao nhiêu mẫu có đúng.
𝑇𝑃
precision =
𝑇𝑃+𝐹𝑃
Recall (độ phủ) hay sensitivity (độ nhạy): Dùng để đánh giá tỷ lệ dự đoán
đúng các trường hợp có kết quả dương tính trong số tất cả các mẫu thuộc nhóm dương
tính.
𝑇𝑃
recall =
𝑇𝑃+𝐹𝑁
F1-score: giá trị trung bình điều hòa của độ chính xác và độ phủ.
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙
F1 = 2𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
Trang | 47
ROC và AUC: AUC - ROC là phương pháp đo lường hiệu quả của một mô
hình phân loại theo các mức phân loại khác nhau
AUC (Area Under the Curve): Còn được gọi là phần bên dưới của đường
cong ROC. Giá trị AUC là số dượng nhỏ hơn hoặc bằng một. AUC càng cao thì mô
hình càng tốt và chính xác.
Trang | 48
b. Phương pháp phân chia dữ liệu Hold-out
Trang | 49
Dùng để phân chia tập dữ liệu ban đầu thành hai tập độc lập.
Thích hợp với tập dữ liệu nhỏ, các mẫu có thể không phản ánh đúng toàn bộ
dữ liệu.
Thu được kết quả hiệu quả hơn nếu áp dụng phương pháp lấy mẫu để mỗi
lớp được phân bố đồng đều trong cả hai tập dữ liệu huấn luyện và kiểm tra.
Dùng để phân chia dữ liệu thành x phần, 1 phần được dùng để làm tập dữ
liệu kiểm tra, số còn lại được dùng để làm tập huấn luyện.
Quá trình này được lặp lại cho đến khi tất cả các phần đều được dùng để làm
tập dữ liệu kiểm tra.
Ứng dụng vào đa dạng lĩnh vực: thương mại, nghiên cứu thị trường, nhà băng,
bảo hiểm, y tế,marketing, giáo dục.
VD: Quản lý, đánh giá rủi ro và quyết định việc cung cấp tín dụng cho khách
hàng…
Trang | 50
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN
THỰC TẾ
3.1. Phân tích dữ liệu Credit Risk Analysis
3.1.1 Mô tả dữ liệu
Thông tin dữ liệu Credit Risk Analysis: Bộ dữ liệu này cung cấp thông tin
cần thiết về người xin vay và đặc điểm của họ.Trong bối cảnh tài chính ngày
nay, việc đánh giá rủi ro tín dụng là rất quan trọng đối với người cho vay và
tổ chức tài chính. Bộ dữ liệu này cung cấp cái nhìn đơn giản về các yếu tố
góp phần gây ra rủi ro tín dụng, tạo cơ hội tuyệt vời cho các nhà khoa học
dữ liệu áp dụng các kỹ năng của họ trong học máy và mô hình dự đoán.
Bộ dữ liệu bao gồm 12 biến 32.780 bản ghi.
Bảng 3-1. Mô tả dữ liệu Credit Risk Analysis
10 Percent_Income Số tiền cho vay tính theo phần trăm thu nhập.
Trang | 51
Mục tiêu phân tích: Dựa trên các yếu tố ảnh hưởng trên bộ dữ liệu để dự
đoán về rủi ro tín dụng với biến mục tiêu là Target. Cung cấp một quy trình
phân tích và khai phá dữ liệu hợp lý, thành công, giúp đưa ra các chiến lược
phù hợp cho các ngân hàng để giảm thiểu rủi ro tín dụng.
Tiến hành xử lý dữ liệu bằng phần mềm Orange bao gồm các bước sau:
Bước 1: Nhập dữ liệu vào Orange và chọn Data Table để xem dữ liệu liệu có
bị thiếu hay không.
Trang | 52
Bước 2: Sau khi quan sát Data Info thì ta thấy rằng dữ liệu đang có 1.0% dữ
liệu bị khuyết thiếu. Do đó, ta sẽ xử lý các dữ liệu bị thiếu này bằng
Preprocess.
Bước 3: Tại hộp thoại Preprocess, ta tiến hành chọn Impute Missing Values
⇒ Average/Most Frequent để điền các dữ liệu còn thiếu bằng giá trị trung
bình / thường gặp của dữ liệu.
Trang | 53
Hình 3-5. Tiền xử lý dữ liệu (5)
Bước 4: Sau khi tiền xử lý dữ liệu có thể thấy rằng dữ liệu đã không còn bị
khuyết thiếu. Từ đây, ta có thể tiến hành lưu dữ liệu với tên
credit_risk_daxuly.xlsx để phân phân tích, phân lớp dữ liệu.
3.1.3. Thống kê mô tả dữ
liệu
3.1.3.1. Khảo sát số lượng người vay và thu nhập theo độ tuổi
Bảng 3-2. Số lượng người vay và thu nhập theo độ tuổi
Độ tuổi Số lượng người Thu nhập Độ tuổi Số lượng người Thu thập
20 15 $1,362,163 49 49 $3,597,549
Trang | 54
22 3633 $191,713,387 51 39 $3,791,219
Trang | 55
23 3889 $235,466,176 52 36 $2,939,723
Trang | 56
45 108 $7,362,162 84 1 $94,800
46 94 $7,562,458 94 1 $24,000
Có thể thấy, độ tuổi có số lượng người vay cao nhất là 22-29 tuổi, với hơn
20000 người vay. Tiếp theo là độ tuổi 30-34 tuổi, với khoảng 5000 người vay. Độ tuổi
có số lượng người vay thấp nhất là từ 60 tuổi trở lên.
Độ tuổi 22-29 tuổi là độ tuổi có nhu cầu vay vốn cao nhất, do đây là độ tuổi
đang trong giai đoạn học tập, lập nghiệp và cần vốn để đầu tư cho bản thân, cho kinh
doanh và mua tài sản. Độ tuổi 30-34 tuổi cũng là độ tuổi có nhu cầu vay vốn cao
nhưng ít hơn nhóm 22-19 tuổi, do đây là độ tuổi đang trong giai đoạn đi làm, họ có thể
tích lũy tài sản và cần ít vốn để mua nhà, mua xe,...Độ tuổi có số lượng người vay thấp
nhất là trên 60 tuổi, do đây là độ tuổi đã nghỉ hưu và không còn nhu cầu vay vốn.
Biểu đồ cho thấy rằng số lượng người vay có xu hướng tăng khi thu nhập của
họ tăng. Những người có thu nhập cao hơn thường có khả năng tiếp cận các nguồn tài
chính khác, chẳng hạn như các khoản vay từ ngân hàng hoặc các tổ chức tài chính
Trang | 57
khác. Họ
Trang | 58
thường có nhu cầu vay tiền để mua nhà, mua xe hoặc chi trả cho các nhu cầu giáo dục
của con cái.
Hình 3-8. Biểu đồ tình trạng sở hữu nhà của người vay
Tỷ lệ người thuê nhà chiếm đa số, khoảng 50,48%, cao hơn so với tỷ lệ người
mua nhà trả góp (41,26%) và sở hữu nhà (7,93%). Điều này cho thấy rằng nhiều người
vẫn chưa có nhà ở riêng, mà phải thuê nhà để ở.
Trang | 59
3.3.3.3. Khảo sát số năm làm việc của người đi vay
Bảng 3-4. Số năm đi làm của người vay
0 4105 18 104
1 2915 19 64
2 3849 20 42
3 3456 21 38
4 2874 22 19
4.79 895 23 10
5 2946 24 10
6 2666 25 8
7 2196 26 6
8 1687 27 5
9 1367 28 3
10 696 29 1
11 740 30 2
12 575 31 4
13 426 34 1
14 335 38 1
15 238 41 1
16 165 123 2
17 129
Trang | 60
Hình 3-9. Biểu đồ số năm đi làm của người vay
Số lượng người đi vay cao khi số năm đi làm của người vay thấp. Theo biểu đồ, số
lượng người đi vay đạt mức cao khi họ mới đi làm được từ 0-3 năm. Hầu hết những
người vừa đi làm là sinh viên đang học hoặc sinh viên mới tốt nghiệp, nhu cầu vay tiền
của sinh viên để chi trả cho học phí và sinh hoạt phí là rất cao. Hơn nữa, người trẻ cần
vay tiền để mua sắm, du lịch, chi tiêu… Người trẻ thường có nhu cầu tiêu dùng cao,
khiến họ dễ dàng vay tiền để mua sắm, du lịch hoặc các nhu cầu khác. Những người đã
đi làm lâu thường ít có nhu cầu vay vì họ có khoản tiền tiết kiệm từ việc đi làm, dành
dụm.
3.3.3.4. Khảo sát mục đích vay tiền của người đi vay
Bảng 3-5. Mục đích khoản vay của người đi vay
Trang | 61
Hình 3-10. Biểu đồ mục đích vay tiền của người vay
Vay để học tập là mục đích vay phổ biến nhất, với 6453 người vay, chiếm hơn
19% tổng số người vay. Điều này cho thấy rằng giáo dục vẫn là một ưu tiên hàng đầu
của mọi người.
Vay để khám chữa bệnh là mục đích vay phổ biến thứ hai, với 6071 người vay,
chiếm 18,63% tổng số người vay, cho thấy mọi người ngày càng quan tâm về vấn đề y
tế. Thứ ba là vay để đầu tư vào kinh doanh mạo hiểm, đây cũng là một lĩnh vực đòi hỏi
sự đầu tư lớn. Mọi người cũng có xu hướng vay để chi tiêu cho mục đích cá nhân,
chiếm 16,95% tổng số người, vay để trả nợ (16%) và cuối cùng là vay để cải thiện nhà
cửa (11,06%).
a. Khái niệm
Mô hình hồi quy logistic là một kỹ thuật phân tích dữ liệu sử dụng toán học để
tìm ra mối quan hệ giữa một biến phụ thuộc là biến nhị phân với một hoặc nhiều biến
độc lập. Biến phụ thuộc là biến có hai giá trị có thể có, chẳng hạn như "có" hoặc
"không", "chết" hoặc "sống", "khách hàng" hoặc "không phải khách hàng", v.v.
Trang | 62
b. Mô tả
Để dự đoán đối tượng x sở hữu các thuộc tính vào lớp y nào, ta dùng hàm logistic
P(y=1) = 11+ e-(w0+ w1x1+ w2x2+...+ wdxd)
Hình 3-12. Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy Logistic
Trang | 63
z = ∑𝑖=0
�
𝑤 𝑖 𝑥𝑖
1
P(y) = 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 (𝑧) =
1+𝑒−𝑧
a. Khái niệm
Cây quyết định là một kỹ thuật phân tích dữ liệu mạnh mẽ và linh hoạt có thể
được sử dụng trong nhiều lĩnh vực khác nhau. Nó được sử dụng để mô tả, phân loại và
dự đoán các kết quả có thể xảy ra. Cây quyết định có thể được sử dụng để giải quyết
nhiều loại vấn đề, bao gồm phân loại khách hàng, dự đoán thị trường, và tối ưu hóa
chuỗi cung ứng
b. Đặc điểm
Ưu điểm
o Dễ hiểu và dễ giải thích
o Không bắt buộc phải chuẩn hóa dữ liệu
o Có thể xử lý trên nhiều kiểu dữ liệu khác nhau
o Thời gian xử lý một lượng lớn dữ liệu được rút ngắn
Nhược điểm
Trang | 64
o Không phù hợp với bài toán dữ liệu phụ thuộc thời gian.
o Tốn thời gian và tài nguyên để xây dựng mô hình
a. Khái niệm
SVM là một thuật toán học máy có giám sát, sử dụng để phân loại dữ liệu.
SVM hoạt động bằng cách tìm một siêu phẳng trong không gian nhiều chiều để phân
tách các điểm dữ liệu của các lớp khác nhau.
Siêu phẳng là một mặt phẳng trong không gian nhiều chiều. Để tối ưu kết quả
phân loại, SVM tìm siêu phẳng có khoảng cách (margin) đến các điểm dữ liệu của các
lớp khác nhau càng lớn càng tốt. Margin là khoảng cách giữa siêu phẳng và điểm dữ
liệu gần nhất của mỗi lớp.
Một cách để hiểu SVM là tưởng tượng bạn đang đứng trên một sườn núi nhìn
xuống một thung lũng. Các điểm dữ liệu của mỗi lớp nằm ở hai bên thung lũng. Bạn
muốn tìm một đường thẳng chạy dọc theo sườn núi, cách xa các điểm dữ liệu của hai
lớp càng xa càng tốt. Đường thẳng này sẽ là siêu phẳng của SVM.
SVM có nhiều biến thể khác nhau, mỗi biến thể phù hợp với các bài toán phân
loại khác nhau. Ví dụ, một biến thể của SVM là SVM tuyến tính, sử dụng một siêu
phẳng tuyến tính để phân tách các điểm dữ liệu. Một biến thể khác là SVM phi tuyến,
sử dụng một siêu phẳng phi tuyến để phân tách các điểm dữ liệu. SVM là một thuật
toán học máy mạnh mẽ và hiệu quả có thể được sử dụng để giải quyết nhiều loại bài
toán phân loại.
Trang | 65
Hình 3-14. SVM
SVM cố gắng tối ưu bằng cách tìm siêu phẳng có khoảng cách lớn nhất đến các
điểm dữ liệu của hai lớp. Điều này giúp SVM giảm thiểu việc phân lớp sai đối với
điểm dữ liệu mới đưa vào
Support Vectors: Với bài toán của tìm 2 đường biên của 2 lớp dữ liệu có
khoảng cách lớn nhất là giữa chúng. Trong trường hợp này, siêu phẳng cần tìm chính
là siêu phẳng nằm giữa 2 biên đó. Các điểm xanh, đỏ trên 2 đường biên (màu xanh lá)
được gọi là các support vector, vì chúng giúp tìm ra siêu phẳng (màu cam).
Số chiều của không gian bài toán (còn gọi là không gian đặc trưng) tương ứng
với số lương thuộc tính (đặc trưng) của một đối tượng dữ liệu.
Trang | 66
Hình 3-15. Phương trình biểu diễn siêu phẳng trong không gian đa chiều
Mục tiêu của SVM là cần tìm giá trị margin cực đại đồng nghĩa với việc ||𝑤|| đạt
cực tiểu với điều kiện:
𝑦𝑛(𝑤𝑇𝑥𝑛 + 𝑏) ≥ 1, ∀𝑛 = 1, 2, 3, . . . , 𝑛
Hàm mục tiêu cần tối ưu là một norm nên là một hàm lồi => bài toán quy hoạch
toàn phương (Quadratic Programing)
Trang | 67
Hình 3-16. Các biến thể của SVM
Ưu điểm
Tiêu tốn ít dung lượng: SVM chỉ cần lưu trữ các support vector, số lượng
support vector thường nhỏ hơn đáng kể so với số lượng điểm dữ liệu trong
tập huấn luyện. Điều này giúp SVM tiết kiệm bộ nhớ khi triển khai trong
thực tế.
Linh hoạt: SVM có thể phân lớp tuyến tính và phi tuyến bằng cách sử dụng
đa dạng các loại kernel. Điều này giúp SVM có thể giải quyết nhiều loại bài
toán phân loại khác nhau.
Xử lý trong không gian đa chiều: SVM có thể xử lý dữ liệu trong không
gian nhiều chiều, giúp giải quyết các bài toán phân loại phức tạp hơn.
Nhược điểm
Trong trường hợp số chiều lớn hơn số dòng thì SVM cho kết quả không tốt.
SVM có thể gặp khó khăn trong việc tìm kiếm siêu phẳng phân tách các lớp
dữ liệu.
Trang | 68
Chưa thể hiện tính xác suất trong phân lớp. SVM chỉ có thể đưa ra kết quả
phân loại là lớp nào, mà không thể đưa ra xác suất cho kết quả đó.
Bước 1: Xây dựng mô hình. Đầu tiên chúng em sẽ thực hiện chia mẫu dữ
liệu thành hai file dữ liệu lần lượt là 80% và 20% bằng cách sử dụng Data
Sampler. Sau đó chọn Save Data để lưu trữ dữ liệu với tên
credit_risk_daxuly_80%.xlsx và credit_risk_daxuly_20%.xlsx
Tập dữ liệu 80% sau khi lấy mẫu sẽ có 26065 dữ liệu, 12 biến (11 feature và 1
target) và không có dữ liệu bị lỗi.
Trang | 69
Hình 3-19. Tập dữ liệu của mô hình
Tập dữ liệu 20% sau khi lấy mẫu sẽ có 6516 dữ liệu với 12 features. Tuy nhiên
do nhóm đã xóa dữ liệu của cột Status (phục vụ cho phần predictions) nên dữ liệu có
8,3% missing value.
Áp dụng công cụ Test and Score để so sánh và đánh giá các thuật toán, từ đó
chọn ra thuật toán tốt nhất phục vụ cho việc dự báo.
Sử dụng tập tin credit_risk_daxuly_80%.xlsx làm tập huấn luyện, chọn biến y
là biến phụ thuộc (target).
Trang | 71
Hình 3-23. Chọn tỷ lệ lấy mẫu Cross Validation (2)
Trang | 72
Hình 3-25. Chọn tỷ lệ lấy mẫu Random Sampling (2)
Nhận xét: Các kết quả đánh giá cho thấy giá trị định lượng của ba mô hình -
Hồi quy Logistic (Logistic Regression), Cây quyết định (Decision Tree), và SVM
(Support Vector Machines). Qua việc xem xét chỉ số từ việc lựa chọn mẫu ngẫu nhiên
Trang | 73
trong các trường hợp khác nhau, ta nhận thấy rằng mô hình Cây quyết định (Decision
Tree) với phân chia mẫu dữ liệu thành 10 phần đạt được kết quả tốt nhất trong số các
ví dụ đã được xem xét.
3.2.3.1. SVM
Trang | 74
3.2.3.2. Logistic Regression
Nhận xét: Tại Confusion Matrix, chúng ta cần chú ý đến tỷ lệ sai lầm loại 1
và loại 2 để đánh giá mô hình. Mô hình được đánh giá tốt nhất khi cả hai tỷ lệ này đều
thấp nhất. Kết quả quan sát cho thấy mô hình Tree đạt tỷ lệ sai lầm thấp nhất, với
17.5% cho sai lầm loại 1 và 7.6% cho sai lầm loại 2. Dựa trên điều này, kết luận rằng
phương pháp Decision Tree - Cây quyết định là phương pháp phù hợp nhất trong
trường hợp này.
Trang | 75
3.2.3.4. ROC Analysis
Với biến y là 0:
Với biến y là
1
Nhận xét: về hiệu suất của các mô hình dự báo được đánh giá dựa trên hai
yếu tố quan trọng: tỷ lệ dương tính giả cao (FPR) và tỷ lệ nhận diện đúng (TPR). Một
mô hình hiệu quả sẽ có FPR cao và TPR thấp, và khi đường cong ROC trong biểu đồ
tiệm cận với điểm (0;1), mô hình đó sẽ càng được xem là hiệu quả hơn. Dựa trên hai
Trang | 76
hình thể hiện đường cong ROC của biến y, có thể thấy mô hình Cây quyết định có
đường cong ROC tiệm cận với điểm (0;1) hơn cả, điều này chứng tỏ hiệu suất cao của
mô hình này.
Kết luận được đưa ra là phương pháp Cây quyết định là lựa chọn tốt nhất dựa
trên các tiêu chí sau:
Mô hình này có diện tích nằm dưới đường cong ROC (AUC) lớn nhất, minh
chứng cho việc nó là mô hình tốt nhất trong số các phương pháp được đánh
giá.
Độ chính xác (CA) của phương pháp này là cao nhất.
Tỉ lệ sai lầm loại 2 của phương pháp này là thấp nhất.
Đặc biệt, đường cong ROC của phương pháp này tiệm cận với điểm (0;1),
cho thấy mức độ hiệu quả cao nhất.
Sau quá trình đánh giá các phương pháp dự báo mô hình phân lớp, quyết định
chọn phương pháp Cây quyết định để dự báo file credit_risk_daxuly_20%.xlsx. Để
thực hiện dự báo, chúng ta sử dụng công cụ Prediction theo phương pháp này.
Trang | 77
Hình 3-33. Kết quả dự báo bằng công cụ Predictions
Trang | 78
CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ MÔ HÌNH
Dựa vào bảng Model Comparison by AUC, ta có thể nhận thấy mô hình khi
chia mẫu dữ liệu thành 10 phần sẽ tốt hơn là chia mẫu dữ liệu thành 5 phần. Bởi vì chỉ
số AUC của kết quả chia mẫu dữ liệu thành 10 phần lớn hơn chỉ số của việc chia mẫu
thành 5 phần. Và chỉ số AUC của mô hình nào lớn hơn thì mô hình đó sẽ tốt hơn.
Bảng 4-1.Model Comparison by AUC
Chọn mô hình chia tỷ lệ mẫu làm 10 phần vì mô hình này có chỉ số diện tích
đường cong (AUC) lớn nhất, sẽ hoạt động tốt nhất.
Đánh giá bằng ma trận nhầm lẫn thì thì mô hình Cây quyết định (Decision
Tree) cho ra kết quả sai lầm loại 1 và sai lầm loại 2 là thấp nhất, với tỷ lệ lần lượt là
15.7% của sai lầm loại và sai lầm loại 2 là 7.6%.
Kết luận: Chọn mô hình Cây quyết định là phù hợp nhất.
Trang | 79
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Sau khi đã trình bày những kiến thức cũng như mô hình đồ án đã thực hiện, ở
phần kết luận này sẽ đưa ra một cái nhìn tổng quan về đồ án, cũng như là cung cấp một
bản tóm tắt về đồ án (bao gồm quy trình nghiên cứu và kết quả mô hình), cùng với đó
là hướng phát triển, tính thực tế của đồ án và khuyến nghị để có thể hoàn thiện hơn.
Nhóm đã dự báo được trạng thái khoản vay và khả năng vỡ nợ của người đi vay
dựa trên việc phân tích cơ sở dữ liệu Credit Risk Analysis. Đồng thời xây dựng được
mô hình nghiên cứu tác động của các yếu tố như thu nhập, lãi suất cho vay, độ dài lịch
sử tín dụng của người vay… đến trạng thái khoản vay và khả năng vỡ nợ của người
vay. Sau khi tiến hành lấy mẫu dữ liệu từ bộ dữ liệu của phần mềm Orange, xử lý dữ
liệu, huấn luyện dữ liệu, phân lớp dữ liệu thì chọn ra được mô hình Cây quyết định
(Decision Tree) là mô hình tốt nhất để phân lớp dữ liệu, với độ chính xác lên đến
82,1% và sai lầm loại 2 là 7,6%.
Mục tiêu ban đầu của nhóm đã hoàn thành được là dự báo trạng thái khoản vay
và rủi ro tín dụng (khả năng vỡ nợ của người vay). Các lý thuyết ở chương 2 đã được
áp dụng để xây dựng mô hình dự báo và đảm bảo các ước tính từ phân tích có độ chính
xác cao.
Mô hình này có thể được dùng để dự báo trạng thái của khoản vay (Fully
Paid/Charged Off/Current) dựa trên những thông tin thu thập được từ người vay như
độ tuổi, thu nhập, tình trạng sở hữu nhà (Sở hữu, Thế chấp, Thuê), độ dài lịch sử tín
dụng… Thông qua mô hình này, người cho vay có thể chọn ra cho mình những hướng
phát triển trong tương lai, chẳng hạn như là:
Tối ưu hóa và mở rộng phạm vi thu thập dữ liệu: Việc thu thập thông tin từ
người vay không chỉ giới hạn ở các yếu tố cơ bản như độ tuổi, thu nhập hay
tình trạng sở hữu nhà. Nếu mở rộng việc thu thập thông tin đến các yếu tố
Trang | 80
như lối sống, sở thích, hoặc mức độ ổn định công việc, mô hình có thể trở
nên chính xác hơn và cung cấp thông tin chi tiết hơn về khả năng trả nợ.
Nghiên cứu và tích hợp các yếu tố mới: Các yếu tố mới như dữ liệu về hành
vi tiêu dùng, hoặc thông tin về việc sử dụng các loại dịch vụ tài chính khác
(ví dụ: sử dụng thẻ tín dụng, vay mượn từ các nguồn khác) có thể được xem
xét để cải thiện độ chính xác của mô hình.
Tạo ra các chiến lược tùy chỉnh: Dựa trên thông tin được thu thập từ mô
hình, người cho vay có thể phát triển các chiến lược tùy chỉnh cho từng
khách hàng tiềm năng. Điều này có thể bao gồm việc tinh chỉnh lãi suất,
mức độ vay hoặc thậm chí đề xuất các sản phẩm tài chính phù hợp với từng
đối tượng.
Liên kết với công nghệ tiên tiến: Áp dụng trí tuệ nhân tạo (AI) và học máy
(Machine Learning) để cải thiện mô hình dự báo và tự động hóa quy trình
đánh giá rủi ro tín dụng. Sử dụng các công cụ và thuật toán mới để đưa ra dự
báo chính xác hơn và nhanh chóng hơn.
Điều chỉnh và đánh giá liên tục: Mô hình cần được điều chỉnh và cải thiện
liên tục dựa trên dữ liệu mới và phản hồi từ thực tế. Việc đánh giá định kỳ
sẽ giúp cập nhật mô hình, đảm bảo tính chính xác và đáng tin cậy trong việc
dự đoán rủi ro tín dụng.
Phát triển công cụ hỗ trợ quyết định: Xây dựng các công cụ hoặc giao diện
dễ sử dụng giúp người cho vay hiểu rõ hơn về dữ liệu và kết quả từ mô hình,
từ đó hỗ trợ họ trong việc ra quyết định tốt nhất về việc cấp vay.
Trang | 81
TÀI LIỆU THAM KHẢO
[1]. Tài liệu tham khảo môn học Khoa học dữ liệu. Đại học UEH (2023)
[3]. Một số vấn đề về rủi ro tín dụng của ngân hàng thương mại. (n.d.). Tạp chí Tài chính.
Retrieved December 7, 2023, from https://tapchitaichinh.vn/mot-so-van-de-ve-rui-ro-tin-
dung-cua-ngan-hang-thuong-mai.html
[4]. Các Yếu Tố Ảnh Hưởng Đến Rủi Ro Tín Dụng Của Hệ Thống Ngân Hàng Thương Mại
Việt Nam. Quý. Tạp chí Khoa học đại học mở Thành phố Hồ Chí Minh - Kinh tế và Quản trị
kinh doanh.
[5]. Dự báo và Phân tích Cơ sở dữ liệu HDI. Tú, Na, Phượng, Trang, Ý. Đại học Kinh tế
Thành phố Hồ Chí Minh.
[6]. Tác động của rủi ro tín dụng đến hiệu quả hoạt động của các ngân hàng thương mại
Việt. Đạt, N. T., Duyên, T. T. M., & Nga, L. H. (2021).
Tạp Chí Nghiên cứu Tài chính - Marketing, 63(3), 66-75. Nam.
https://doi.org/10.52932/jfm.vi63.164
Trang | 82