You are on page 1of 2

THUYẾT TRÌNH

Sau khi nhóm chúng em tìm hiểu đề bài và thảo luận, chúng em đã lựa chọn đề tài “Loan Approval
Prediction” trên web Kaggle. Bộ dữ liệu này liên quan đến vấn đề quản lý khách hàng trong lính vực tín
dụng bao gồm 4.269 hàng dữ liệu thông tin khách hàng và 13 cột đặc tính, được sử dụng phân tích dữ liệu
và đánh giá tính hiệu quả và hợp lý của các điều kiện cho vay thông thông qua mô hình dự báo. Từ đó,
chúng em đề xuất một số kiến nghị nhằm nâng cao chất lượng thẩm định tín dụng, tăng hiệu quả hoạt
động cho vay, góp phần gia tăng lợi nhuận và giảm thiểu rủi ro cho ngân hàng.
Sau khi tìm hiểu sơ bộ bộ dữ liệu “Loan Approval Prediciton”, nhóm chúng em tiến hành sử dụng phần
mềm Orange và tiền xử ký dữ liệu. Sau khi nạp bộ dữ liệu vào, chúng em dùng Data Table để quan sát
và thấy bộ dữ liệu gồn 4.269 mẫu dữ liệu (instances), 13 đặc tính với 0% missing. Tiếp đến chúng em
chọn Select Comlumn nối vào file để tiến hành loại bỏ dữ liệu “loan_id” vì không cần thiết đối với đề tài,
do đó bộ dữ liệu chỉ còn 12 đặc tính thông qua quan sát trên Data Table “Loan Approval Prediciton sau
khi xử lý”. Sau đó, chúng em sử dụng Save data để lưu dữ liệu xử lý, xuất ra file Excel và đặt tên “Loan
Approval Prediction sau khi xử lý.xlsx”.
Tiếp đến, chúng em phân cụm dữ liệu, vì bộ dữ liệu này đã có nhãn, nên khi thực hiện phân cụm chúng
em skip thuộc tính “Loan_status”. Nhóm em sử dụng 2 phương pháp là K-Means và Hierarchical
clusting.
- Ở phương pháp K-Means, chúng em dựa vào giá trị Silhouette của từng cách phân cụm, so sánh giữa
các cách cho thấy phân 2 cụm cho dữ liệu có mức độ tin cậy cao nhất với chỉ số SI của cả 2 cụm C1 và
C2 đều đa phần lớn hơn 0.5.
- Ở phương pháp Hierarchical clusting, sau khi sử dụng các Linkage khác nhau để so sánh chúng em thấy
Linkage Weighted đưa ra kết quả sát với thực tế nhất vì đa phần dữ liệu có chỉ số SI lớn hơn 0.5 và thử
phân thành nhiều cụm hơn 3 – 4 cụm và so sánh thấy việc phân 2 cụm cũng đưa ra kết quả tốt nhất.
=> Và trong 2 phương pháp thì phương pháp K-Means là phương pháp tốt hơn.
So sánh nhãn
Sau khi tiến hành phân cụm, nhóm đã trích xuất ra file Excel để tiến hành so sánh với nhãn hiện có
“Approved (chấp nhận)” và “Rejected (không chấp nhận)”. Cột Q copy từ đặc tính Loan_status từ file
gốc; Cột R copy từ file excel từ phương pháp Kmeans. Để đếm số lượng kết quả phân cụm chính xác hay
không, chúng em sử dụng câu lệnh =COUNTIF và thu được kết quả có 2.160 mẫu phân cụm chính xác
trên 4.269 mẫu, chiếm khoảng 51%.
Ở bước phân lớp dữ liệu, đầu tiên nhóm em sử dụng Data Sampler để thực hiện việc lấy 90% mẫu dữ
liệu cho tập dữ liệu huấn luyện và 10% mẫu dữ liệu cho tập dữ liệu dự báo từ file “Loan Approval
Prediction sau khi xử lý” và Save data cho cả 2 file “Loan Approval Prediction_train” và “Loan Approval
Prediction_forecast”. Sau khi lấy mẫu, tập dữ liệu huấn luyện gồm 2.989 mẫu dữ liệu, 12 thuộc tính và
không có dữ liệu bị lỗi; tập dữ liệu dự báo gồm 426 mẫu dữ liệu, 12 thuộc tính và không có dữ liệu nào bị
lỗi. Sử dụng các mô hình như Decision Tree, SVM, hồi quy Logistic và Mạng Nơ ron nhân tạo để lựa
chọn phương pháp tốt và chính xác nhất phục vụ cho việc dự báo.
Nạp file “Loan Approval Prediciton_train” là tập dữ liệu huấn luyện và khai báo biến “loan_status” là
biến phụ thuộc (target). Tại bảng Test and Score, chọn tỷ lệ lấy mẫu tại Cross Validation hoặc Random
Sampling để có được chỉ số đẹp nhất.
- Đối với cách chọn tỷ lệ lấy mẫu Cross Validation tiến hành chia mẫu dữ liệu 5 phần, 10 phần
- Đối với cách chọn tỷ lệ lấy mẫu Random Sampling tiến hành chia mẫu dữ liệu từ khoảng 20 – 70%; 50
– 66%; 50 – 90%.
Kết quả cho thấy định lượng của 4 mô hình gồm Decision Tree, SVM, hồi quy Logistic và Mạng Nơ ron
nhân tạo. Trong đó, Mạng Nơ ron nhân tạo (Neutral Network) luôn có giá trị cao nhất. Sau khi xem xét
các chỉ số từ việc lấy mẫu ngẫu nhiên qua các trường hợp trên nhóm em thấy mô hình cây quyết định
(Decision Tree) ở trường hợp chia lấy mẫu dữ liệu theo kiểu Random Sampling 50-90% là đạt chỉ số cao
nhất.
Sử dụng phương pháp Confusion Matrix (Ma trận nhầm lẫn) và ROC Analysis để đánh giá mô hình tốt:
- Dựa vào Ma Trận nhầm lẫn (Confusion Matrix), loại mô hình tốt nhất là mô hình có tỷ lệ sai lầm loại 1
và tỷ lệ sai lầm loại 2 thấp nhất, trong đó tỷ lệ sai lầm loại 2 quan trọng hơn. Do đó, quan sát kết quả cho
thấy mô hình Cây quyết định (Decision Tree) là mô hình có tỷ lệ sai lầm loại 2 thấp nhất với 1.7%. Kết
luận, phương pháp Cây quyết định (Decision Tree) là phù hợp nhất.
- Dựa vào ROC Ananlysis để đánh giá, mô hình hiệu quả là khi có FPR cao và TPR thấp, hay khi đường
cong ROC càng gần với điểm (0;1) của đồ thị thì mô hình càng hiệu quả hơn. Do đó, quan sát vào 2 hình
biểu diễn đường cong ROC của biến phụ thuộc “loan_status” quan sát được mô hình Decision Tree (cây
quyết định) có đường cong ROC gần với điểm (0;1) nhất nên mô hình này hiệu quả.
Kết luận: Phương pháp Cây quyết định (Decision Tree) là phương pháp tốt nhất để phục vụ việc dự báo.
Sau khi đã sử dụng các phương pháp đánh giá mô hình phân lớp, nhóm em chọn phương pháp Decision
Tree để dự báo, nạp file “Loan Approval Prediction_forecast” với 10% mẫu dữ liệu để làm tập thử
nghiệm, khai báo biến “loan_status” là biến phụ thuộc (target), bộ dữ liệu gồm 426 intances và 11 đặc
tính, sau đó, sử dụng Prediction nối vào để tiến hành dự báo.
Kết luận: Qua kết quả dự báo của 426 mẫu dữ liệu khách hàng, cho thấy có 262 khách hàng đạt những
tiêu chí có khả năng phê duyệt khoản vay. Thông qua chỉ số Tree (Approved), những khách hàng có chỉ
số lớn hơn 0.5 thì sẽ được phân loại là có khả năng được phê duyệt khoản vay, ngược lại, với những
khách hàng có chỉ số Tree (Rejected) lớn hơn 0.5 sẽ phân loại là không có khả năng phê duyệt khoản vay.
Vì thế, phương pháp phân lớp bằng Decision Tree đánh giá tổng quan một cách chính xác mô hình của
bài nghiên cứu đang sử dụng.

You might also like