You are on page 1of 91

CHƯƠNG TRÌNH ĐÀO TẠO

NÂNG CAO KIẾN THỨC VỀ


CHUYỂN ĐỔI SỐ, CÔNG NGHỆ SỐ

Năm 2023
1
HỌC MÁY (ML) VÀ ỨNG DỤNG TRONG
NGÂN HÀNG
 Giới thiệu về học máy
 Các kỹ thuật học máy
 Các lợi ích của học máy
 Ứng dụng học máy trong việc dự báo vỡ nợ
 Ứng dụng học máy trong dự báo gian lận thẻ tín dụng

TS. Lê Hoàng Anh


anhlh_vnc@hub.edu.vn
2
PYTHON CƠ BẢN

• Chương trình là tập hợp các chỉ thị lệnh yêu cầu
máy tính thực thi một tác vụ cụ thể.
• Lập trình là quá trình xây dựng các chương trình
được viết bằng một hoặc nhiều ngôn ngữ lập trình.
• Ngôn ngữ lập trình (Programming Language): là tập
hợp các ký hiệu và cú pháp được chuẩn hóa để mô
tả những xử lý mà người và máy đều có thể hiểu
được.

3
PYTHON CƠ BẢN

4
PYTHON CƠ BẢN

5
PYTHON CƠ BẢN

https://insights.stackoverflow.com/survey/2021

6
PYTHON CƠ BẢN

• Python đã bắt đầu được thực hiện vào tháng


12/1989 bởi Guido van Rossum tại Centrum
Wiskunde & Informatica ở Hà Lan.
• Python version 1.0 tháng 01/1994.
• Python version 2.0 ngày 16/10/2000.
• Python version 3.0 ngày 3/12/2008.
• Python version 3.10.4 ngày 24/3/2022.
• Python version 3.11.3 ngày 5/4/2023.
• Mã nguồn mở, miễn phí, cộng đồng hỗ trợ rộng lớn
7
GIỚI THIỆU VỀ GOOGLE COLAB

• Google Colab là một dạng


Jupyter Notebook tùy biến
cho phép thực thi Python
trên nền tảng đám mây,
được cung cấp bởi Google.

8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
GIỚI THIỆU MACHINE LEARNING

 Dữ liệu - AI - Quyền lực

23
 AI - Học máy - Học sâu

Học máy là một tập


con của trí tuệ nhân
tạo.
24
• Việc thu nhận kiến thức một cách tự chủ thông qua
việc sử dụng các chương trình máy tính

25
26
Geoffrey Everest Hinton được gọi là "cha đẻ
của học máy"
27
28
 Các ứng dụng của học máy

29
 Các ứng dụng của học máy trong tài
chính – ngân hàng

30
 Học máy

31
 Dữ liệu cho mô hình học máy có giám sát

32
 Tạo dữ liệu khách hàng của Agribank

• Các biến trong dữ liệu phải có sự liên kết với vấn đề


cần xử lý.
• Để xác định có cho vay hay không cho vay với 1
khách hàng cần những dữ liệu gì? Lấy dữ liệu này từ
đâu?
• Xác minh độ tin cậy của dữ liệu.

33
 Xử lý dữ liệu thiếu

 Bỏ các hàng hoặc cột


bị thiếu
 Gán một danh mục
duy nhất cho các giá
trị bị thiếu
 Thay thế các giá trị bị
thiếu bằng giá trị
trung bình hay trung
vị

34
35
 Cấu trúc mô hình học máy có giám sát

36
37
Phân loại các vấn đề sau đây theo bài
toán Phân loại và bài toán hồi quy

• Phát hiện gian lận


• Phòng chống rửa tiền
• Dự đoán rủi ro vỡ nợ
• Dự báo giá nhà
• Dự báo số tiền cho vay
• Dự báo khả năng tiếp cận tín dụng
• Dự báo giá chứng khoán
• Dự báo tăng trưởng kinh tế

38
39
 Cấu trúc mô hình học không có giám sát

40
41
42
43
Quản lý Rủi ro Tín dụng/Ra quyết định cho vay
 Một mô hình học tăng cường có thể được đào tạo để giải quyết
vấn đề này. Mô hình này có thể nhận một bộ các thông tin về
khách hàng (như lịch sử tín dụng, thu nhập, tỷ lệ nợ/tổng thu
nhập, v.v.) như trạng thái, và nhiệm vụ của nó là quyết định xem
ngân hàng nên cấp cho khách hàng đó một khoản vay cụ thể hay
không, như là hành động.
 Phần thưởng trong môi trường này có thể được xác định như lợi
nhuận từ khoản vay (nếu khách hàng trả nợ đúng hạn) hoặc mất
mát (nếu khách hàng không trả nợ). Mục tiêu của mô hình học
tăng cường là học cách đưa ra quyết định vay mượn để tối đa
hóa phần thưởng tổng cộng trong tương lai. 44
Bước 1: Xác định Môi trường, Trạng thái, Hành động và Phần thưởng
 Môi trường: Trong trường hợp này, môi trường sẽ là ngân hàng cùng với tất
cả thông tin về khách hàng và hoạt động tín dụng.
 Trạng thái: Đây có thể bao gồm thông tin chi tiết về khách hàng như lịch sử
tín dụng, thu nhập, tỷ lệ nợ/tổng thu nhập, v.v.
 Hành động: Có hai hành động cơ bản mà mô hình có thể chọn: cấp khoản
vay hoặc từ chối khoản vay.
 Phần thưởng: Nếu khách hàng trả nợ đúng hạn, ngân hàng nhận được lợi
nhuận từ khoản vay, nên mô hình nhận được phần thưởng. Nếu khách hàng
không trả nợ, ngân hàng mất tiền, do đó mô hình nhận được hình phạt.
Bước 2: Huấn luyện Mô hình Học tăng cường
 Sử dụng dữ liệu lịch sử về hành vi vay mượn của khách hàng và kết quả
tương ứng, huấn luyện mô hình học tăng cường để hiểu cách tối ưu hóa
hành động dựa trên trạng thái.
 Mô hình sẽ cố gắng tìm hiểu các quy tắc chung từ dữ liệu lịch sử, ví dụ như:
"nếu lịch sử tín dụng của một khách hàng rất tốt, thì có khả năng cao hơn
rằng họ sẽ trả lại khoản vay".
Bước 3: Sử dụng Mô hình để đưa ra Quyết định
 Khi một khách hàng yêu cầu một khoản vay, đưa thông tin của họ vào mô
hình để xác định trạng thái. Tiếp theo, mô hình sẽ chọn hành động tối ưu
dựa trên những gì nó đã học.
45
Reinforcement Learning
• Thường được sử dụng để tinh chỉnh các mô hình
học máy unsupervised Learning thông qua các phần
thưởng từ kết quả dự báo.

Hai bài toán chính của


Reinforcement Learning
là Clustering và
Association

46
 Học máy

Học có giám sát Học không có giám sát Học có tăng cường
 Hồi qui  Gom gụm  Quá trình quyết định
 Phân lớp  Thu giảm chiều  Khuyến nghị
 Dịch tự động  Luật kết hợp  Reward systems
 Chú thích ảnh  Học đặc trưng

Chức năng của hệ thống học máy


Mô tả Dự đoán Đề xuất
(descriptive ) (predictive ) (prescriptive)

47
 Cấu trúc mô hình học máy có giám sát

48
 Cấu trúc mô hình học máy có giám sát

Thuật toán học máy được xây dựng dựa


trên bộ dữ liệu nào? 49
 Cấu trúc mô hình học máy có giám sát

50
 Các thuật toán học máy

Supervised Unsupervised
Hồi qui tuyến tính  Thu giảm chiều
Hồi qui khác
 LinearRegression  K-Means
 Perceptron
 Logistic  PCA
 KNN
 NaiveBayes  Association
 Decision Tree
Rule Mining
 Support vector tuyến tính  Random Forest
 ECLAT
 Mạng nơ-ron nhân tạo

51
 Linear Regression

52
 Linear Regression

53
 Logistic Regression

54
 Logistic Regression

55
 Logistic Regression

56
 Naïve Bayes

57
 Naïve Bayes

58
 Naïve Bayes

59
 Perceptron
• Perceptron là một thuật toán học máy có giám sát,
tiền thân của mạng neural nhân tạo, được đề xuất
bởi Frank Rosenblatt vào năm 1957.
• Perceptron là một trong những thuật toán máy học
đầu tiên và đóng vai trò quan trọng trong lịch sử
của lĩnh vực này.

60
 Perceptron

61
 KNN: K-Nearest Neighbor

62
 KNN

63
 KNN

64
 KNN

Được dùng trong:


 Phân loại (Classification):
 phân nhóm nợ,
 Dự đoán phá sản,
 Phân nhóm khách hàng
 Đo lường độ tương tự của tài liệu (document
similarity): tìm kiếm tài liệu tương tự về ngữ
nghĩa

65
 Decision Tree

66
 Decision Tree

67
 Decision Tree

68
 Random Forest

69
 Random Forest

70
 Random Forest

 Ý tưởng Bagging là một phương pháp trong thuật toán học máy
được sử dụng để cải thiện độ chính xác và ổn định của mô hình
dự đoán.
 Bagging hoạt động bằng cách xây dựng nhiều mô hình dự đoán
độc lập trên các tập dữ liệu con (bootstrap samples) được tạo ra
từ tập dữ liệu huấn luyện ban đầu bằng phương pháp tái chọn
mẫu với hoàn lại. Mỗi mô hình dự đoán này có thể sử dụng cùng
một thuật toán học hoặc các thuật toán khác nhau.
 Sau đó, khi cần dự đoán đầu ra cho một mẫu mới, các mô hình
con được đưa vào để đưa ra các dự đoán riêng lẻ. Kết quả dự
đoán cuối cùng được tính toán bằng cách áp dụng một quy tắc
kết hợp, chẳng hạn như đa số phiếu bầu (majority voting) cho bài
toán phân loại hoặc trung bình cho bài toán hồi quy.
 Đây là ý tưởng chính để xây dựng thuật toán Random
Forest.

71
 Random Forest

72
 Random Forest

73
 K-Means

74
 K-Means

75
 K-Means

76
 PCA

77
 PCA

78
 PCA

79
PHÂN TÍCH, DỰ BÁO KHẢ NĂNG VỠ NỢ
BẰNG MACHINE LEARNING
 Dữ liệu

 6599 mẫu không phá sản

 220 mẫu phá sản

 Dữ liệu mất cân bằng

 Tiền xử lý

 Thống kê mô tả

 Thu giảm chiều

 Bài toán

 Phân lớp nhị phân

 Gom cụm 80
PHÁT HIỆN GIAN LẬN THẺ TÍN DỤNG
Dữ liệu
Thu thập từ các chủ thẻ ở
Châu Âu trong hai ngày vào
tháng 09 năm 2013
492 giao dịch gian lận
284.807 giao dịch bình
thường
Rất mất cân bằng
Bài toán
Phân lớp nhị phân
Gom cụm
Tiền xử lý
Thống kê mô tả
Thu giảm chiều

81
Phát hiện gian lận Khuyến nghị
Sản phẩm, dịch vụ, tin tức, việc
Phát hiện tài khoản nguy hại,
làm, khoá học, đối tác hẹn hò, …
giao dịch gian lận, …

Collaborative knowledge graph


Financial transactions network

Tiếp thị
Ai sẽ được khuyến mãi? Ai là
người ảnh hưởng? Khách hàng
nào có khả năng rời bỏ dịch vụ
cao?
Social network

82
??

Kết nối user-user Tương tác item-item

Tương tác user-item

83
 Đánh giá mô hình

 Phân lớp
 Accuracy
 Precision, Recall, F-score
 AUC
 Hồi qui
 MSE
 RMSE
 R2
 MAPE 84
 Quá khớp

Cân bằng giữa Bias và Variance


Ảnh chụp từ sách của James, Witten, Hastie, Tibshirani (2021)

85
 Quá khớp

 Cân bằng bias và variance

 Chỉnh hoá: L1, L2, Lp

 Dừng sớm (Early stopping)


 Dropout (dành cho ANN)
 Chuẩn hoá (Normalization)
 Tăng cường dữ liệu
 Học đa tác vụ (Multitask)
 Học chuyển giao (transfer
learning) 86
 Học biểu diễn

87
 Học biểu diễn

88
 Học chuyển giao

Transfer Learning

89
 Học sâu dựa trên mạng nơ-ron nhân tạo

90
THẢO LUẬN

91

You might also like