Machine Learning Va Cac Ung Dung

CHƯƠNG TRÌNH ĐÀO TẠO
NÂNG CAO KIẾN THỨC VỀ

CHUYỂN ĐỔI SỐ, CÔNG NGHỆ SỐ
Năm 2023
1
HỌC MÁY (ML) VÀ ỨNG DỤNG TRONG
NGÂN HÀNG
 Giới thiệu về học máy
 Các kỹ thuật học máy
 Các lợi ích của học máy
 Ứng dụng học máy trong việc dự báo vỡ nợ
 Ứng dụng học máy trong dự báo gian lận thẻ tín dụng
TS. Lê Hoàng Anh

anhlh_vnc@hub.edu.vn
2
PYTHON CƠ BẢN
• Chương trình là tập hợp các chỉ thị lệnh yêu cầu
máy tính thực thi một tác vụ cụ thể.
• Lập trình là quá trình xây dựng các chương trình
được viết bằng một hoặc nhiều ngôn ngữ lập trình.
• Ngôn ngữ lập trình (Programming Language): là tập
hợp các ký hiệu và cú pháp được chuẩn hóa để mô
tả những xử lý mà người và máy đều có thể hiểu
được.
3
PYTHON CƠ BẢN
4
PYTHON CƠ BẢN
5
PYTHON CƠ BẢN
https://insights.stackoverflow.com/survey/2021
6
PYTHON CƠ BẢN
• Python đã bắt đầu được thực hiện vào tháng

12/1989 bởi Guido van Rossum tại Centrum
Wiskunde & Informatica ở Hà Lan.
• Python version 1.0 tháng 01/1994.
• Python version 2.0 ngày 16/10/2000.
• Python version 3.0 ngày 3/12/2008.
• Python version 3.10.4 ngày 24/3/2022.
• Python version 3.11.3 ngày 5/4/2023.
• Mã nguồn mở, miễn phí, cộng đồng hỗ trợ rộng lớn
7
GIỚI THIỆU VỀ GOOGLE COLAB
• Google Colab là một dạng

Jupyter Notebook tùy biến
cho phép thực thi Python
trên nền tảng đám mây,
được cung cấp bởi Google.
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
GIỚI THIỆU MACHINE LEARNING
 Dữ liệu - AI - Quyền lực
23
 AI - Học máy - Học sâu
Học máy là một tập

con của trí tuệ nhân
tạo.
24
• Việc thu nhận kiến thức một cách tự chủ thông qua
việc sử dụng các chương trình máy tính
25
26
Geoffrey Everest Hinton được gọi là "cha đẻ
của học máy"
27
28
 Các ứng dụng của học máy
29
 Các ứng dụng của học máy trong tài
chính – ngân hàng
30
 Học máy
31
 Dữ liệu cho mô hình học máy có giám sát
32
 Tạo dữ liệu khách hàng của Agribank
• Các biến trong dữ liệu phải có sự liên kết với vấn đề

cần xử lý.
• Để xác định có cho vay hay không cho vay với 1
khách hàng cần những dữ liệu gì? Lấy dữ liệu này từ
đâu?
• Xác minh độ tin cậy của dữ liệu.
33
 Xử lý dữ liệu thiếu
 Bỏ các hàng hoặc cột

bị thiếu
 Gán một danh mục
duy nhất cho các giá
trị bị thiếu
 Thay thế các giá trị bị
thiếu bằng giá trị
trung bình hay trung
vị
34
35
 Cấu trúc mô hình học máy có giám sát
36
37
Phân loại các vấn đề sau đây theo bài
toán Phân loại và bài toán hồi quy
• Phát hiện gian lận

• Phòng chống rửa tiền
• Dự đoán rủi ro vỡ nợ
• Dự báo giá nhà
• Dự báo số tiền cho vay
• Dự báo khả năng tiếp cận tín dụng
• Dự báo giá chứng khoán
• Dự báo tăng trưởng kinh tế
38
39
 Cấu trúc mô hình học không có giám sát
40
41
42
43
Quản lý Rủi ro Tín dụng/Ra quyết định cho vay
 Một mô hình học tăng cường có thể được đào tạo để giải quyết
vấn đề này. Mô hình này có thể nhận một bộ các thông tin về
khách hàng (như lịch sử tín dụng, thu nhập, tỷ lệ nợ/tổng thu
nhập, v.v.) như trạng thái, và nhiệm vụ của nó là quyết định xem
ngân hàng nên cấp cho khách hàng đó một khoản vay cụ thể hay
không, như là hành động.
 Phần thưởng trong môi trường này có thể được xác định như lợi
nhuận từ khoản vay (nếu khách hàng trả nợ đúng hạn) hoặc mất
mát (nếu khách hàng không trả nợ). Mục tiêu của mô hình học
tăng cường là học cách đưa ra quyết định vay mượn để tối đa
hóa phần thưởng tổng cộng trong tương lai. 44
Bước 1: Xác định Môi trường, Trạng thái, Hành động và Phần thưởng
 Môi trường: Trong trường hợp này, môi trường sẽ là ngân hàng cùng với tất
cả thông tin về khách hàng và hoạt động tín dụng.
 Trạng thái: Đây có thể bao gồm thông tin chi tiết về khách hàng như lịch sử
tín dụng, thu nhập, tỷ lệ nợ/tổng thu nhập, v.v.
 Hành động: Có hai hành động cơ bản mà mô hình có thể chọn: cấp khoản
vay hoặc từ chối khoản vay.
 Phần thưởng: Nếu khách hàng trả nợ đúng hạn, ngân hàng nhận được lợi
nhuận từ khoản vay, nên mô hình nhận được phần thưởng. Nếu khách hàng
không trả nợ, ngân hàng mất tiền, do đó mô hình nhận được hình phạt.
Bước 2: Huấn luyện Mô hình Học tăng cường
 Sử dụng dữ liệu lịch sử về hành vi vay mượn của khách hàng và kết quả
tương ứng, huấn luyện mô hình học tăng cường để hiểu cách tối ưu hóa
hành động dựa trên trạng thái.
 Mô hình sẽ cố gắng tìm hiểu các quy tắc chung từ dữ liệu lịch sử, ví dụ như:
"nếu lịch sử tín dụng của một khách hàng rất tốt, thì có khả năng cao hơn
rằng họ sẽ trả lại khoản vay".
Bước 3: Sử dụng Mô hình để đưa ra Quyết định
 Khi một khách hàng yêu cầu một khoản vay, đưa thông tin của họ vào mô
hình để xác định trạng thái. Tiếp theo, mô hình sẽ chọn hành động tối ưu
dựa trên những gì nó đã học.
45
Reinforcement Learning
• Thường được sử dụng để tinh chỉnh các mô hình
học máy unsupervised Learning thông qua các phần
thưởng từ kết quả dự báo.
Hai bài toán chính của

Reinforcement Learning
là Clustering và
Association
46
 Học máy
Học có giám sát Học không có giám sát Học có tăng cường
 Hồi qui  Gom gụm  Quá trình quyết định
 Phân lớp  Thu giảm chiều  Khuyến nghị
 Dịch tự động  Luật kết hợp  Reward systems
 Chú thích ảnh  Học đặc trưng
Chức năng của hệ thống học máy

Mô tả Dự đoán Đề xuất
(descriptive ) (predictive ) (prescriptive)
47
48
Thuật toán học máy được xây dựng dựa

trên bộ dữ liệu nào? 49
50
 Các thuật toán học máy
Supervised Unsupervised
Hồi qui tuyến tính  Thu giảm chiều
Hồi qui khác
 LinearRegression  K-Means
 Perceptron
 Logistic  PCA
 KNN
 NaiveBayes  Association
 Decision Tree
Rule Mining
 Support vector tuyến tính  Random Forest
 ECLAT
 Mạng nơ-ron nhân tạo
51
 Linear Regression
52
 Linear Regression
53
 Logistic Regression
54
55
56
 Naïve Bayes
57
 Naïve Bayes
58
 Naïve Bayes
59
 Perceptron
• Perceptron là một thuật toán học máy có giám sát,
tiền thân của mạng neural nhân tạo, được đề xuất
bởi Frank Rosenblatt vào năm 1957.
• Perceptron là một trong những thuật toán máy học
đầu tiên và đóng vai trò quan trọng trong lịch sử
của lĩnh vực này.
60
 Perceptron
61
 KNN: K-Nearest Neighbor
62
 KNN
63
 KNN
64
 KNN
Được dùng trong:

 Phân loại (Classification):
 phân nhóm nợ,
 Dự đoán phá sản,
 Phân nhóm khách hàng
 Đo lường độ tương tự của tài liệu (document
similarity): tìm kiếm tài liệu tương tự về ngữ
nghĩa
65
 Decision Tree
66
 Decision Tree
67
 Decision Tree
68
 Random Forest
69
 Random Forest
70
 Random Forest
 Ý tưởng Bagging là một phương pháp trong thuật toán học máy
được sử dụng để cải thiện độ chính xác và ổn định của mô hình
dự đoán.
 Bagging hoạt động bằng cách xây dựng nhiều mô hình dự đoán
độc lập trên các tập dữ liệu con (bootstrap samples) được tạo ra
từ tập dữ liệu huấn luyện ban đầu bằng phương pháp tái chọn
mẫu với hoàn lại. Mỗi mô hình dự đoán này có thể sử dụng cùng
một thuật toán học hoặc các thuật toán khác nhau.
 Sau đó, khi cần dự đoán đầu ra cho một mẫu mới, các mô hình
con được đưa vào để đưa ra các dự đoán riêng lẻ. Kết quả dự
đoán cuối cùng được tính toán bằng cách áp dụng một quy tắc
kết hợp, chẳng hạn như đa số phiếu bầu (majority voting) cho bài
toán phân loại hoặc trung bình cho bài toán hồi quy.
 Đây là ý tưởng chính để xây dựng thuật toán Random
Forest.
71
 Random Forest
72
 Random Forest
73
 K-Means
74
 K-Means
75
 K-Means
76
 PCA
77
 PCA
78
 PCA
79
PHÂN TÍCH, DỰ BÁO KHẢ NĂNG VỠ NỢ
BẰNG MACHINE LEARNING
 Dữ liệu
 6599 mẫu không phá sản
 220 mẫu phá sản
 Dữ liệu mất cân bằng
 Tiền xử lý
 Thống kê mô tả
 Thu giảm chiều
 Bài toán
 Phân lớp nhị phân
 Gom cụm 80
PHÁT HIỆN GIAN LẬN THẺ TÍN DỤNG
Dữ liệu
Thu thập từ các chủ thẻ ở
Châu Âu trong hai ngày vào
tháng 09 năm 2013
492 giao dịch gian lận
284.807 giao dịch bình
thường
Rất mất cân bằng
Bài toán
Phân lớp nhị phân
Gom cụm
Tiền xử lý
Thống kê mô tả
Thu giảm chiều
81
Phát hiện gian lận Khuyến nghị
Sản phẩm, dịch vụ, tin tức, việc
Phát hiện tài khoản nguy hại,
làm, khoá học, đối tác hẹn hò, …
giao dịch gian lận, …
Collaborative knowledge graph

Financial transactions network
Tiếp thị
Ai sẽ được khuyến mãi? Ai là
người ảnh hưởng? Khách hàng
nào có khả năng rời bỏ dịch vụ
cao?
Social network
82
??
Kết nối user-user Tương tác item-item
Tương tác user-item
83
 Đánh giá mô hình
 Phân lớp
 Accuracy
 Precision, Recall, F-score
 AUC
 Hồi qui
 MSE
 RMSE
 R2
 MAPE 84
 Quá khớp
Cân bằng giữa Bias và Variance

Ảnh chụp từ sách của James, Witten, Hastie, Tibshirani (2021)
85
 Quá khớp
 Cân bằng bias và variance
 Chỉnh hoá: L1, L2, Lp
 Dừng sớm (Early stopping)

 Dropout (dành cho ANN)
 Chuẩn hoá (Normalization)
 Tăng cường dữ liệu
 Học đa tác vụ (Multitask)
 Học chuyển giao (transfer
learning) 86
 Học biểu diễn
87
 Học biểu diễn
88
 Học chuyển giao
Transfer Learning
89
 Học sâu dựa trên mạng nơ-ron nhân tạo
90
THẢO LUẬN
91

Machine Learning Va Cac Ung Dung

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Machine Learning Va Cac Ung Dung

Uploaded by

Copyright:

Available Formats

CHƯƠNG TRÌNH ĐÀO TẠO

NÂNG CAO KIẾN THỨC VỀ

TS. Lê Hoàng Anh

• Python đã bắt đầu được thực hiện vào tháng

• Google Colab là một dạng

 Dữ liệu - AI - Quyền lực

Học máy là một tập

• Các biến trong dữ liệu phải có sự liên kết với vấn đề

 Bỏ các hàng hoặc cột

• Phát hiện gian lận

Hai bài toán chính của

Chức năng của hệ thống học máy

Thuật toán học máy được xây dựng dựa

Được dùng trong:

 6599 mẫu không phá sản

 220 mẫu phá sản

 Dữ liệu mất cân bằng

 Thu giảm chiều

 Phân lớp nhị phân

Collaborative knowledge graph

Kết nối user-user Tương tác item-item

Tương tác user-item

Cân bằng giữa Bias và Variance

 Cân bằng bias và variance

 Chỉnh hoá: L1, L2, Lp

 Dừng sớm (Early stopping)

You might also like