You are on page 1of 37

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT

ĐỒ ÁN CUỐI KỲ - HK2 (2022-2023)


MÔN HỌC PHÂN TÍCH DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ
LIỆU VÀ XÂY DỰNG MÔ HÌNH PHÁT HIỆN
GIAN LẬN GIAO DỊCH QUA THẺ TÍN DỤNG

Mã lớp học phần: 222MI2101

Nhóm thực hiện: Nhóm ACCTV


Giảng viên hướng dẫn: TS. Nguyễn Thôn Dã

Thành phố Hồ Chí Minh, tháng 5 năm 2023


DANH SÁCH THÀNH VIÊN

Mã số sinh viên Họ và tên Địa chỉ email
K214142056 Trần Tất Anh anhtt21414@st.uel.edu.vn
K214142057 Lê Phước Hồng Cẩm camlph21414@st.uel.edu.vn
K214142058 Nguyễn Đình Chương chuongnd21414@st.uel.edu.vn
K214142091 Trần Bảo Trân trantb21414@st.uel.edu.vn
K214142100 Trần Ý Vy vyty21414@st.uel.edu.vn
MỤC LỤC
DANH MỤC BẢNG..........................................................................................................1

DANH MỤC HÌNH ẢNH.................................................................................................2

TÓM TẮT...........................................................................................................................3

PHẦN 1: GIỚI THIỆU.....................................................................................................4

1.1. Lý do chọn đề tài.......................................................................................................4

1.2. Mục đích nghiên cứu.................................................................................................4

1.3. Phương pháp nghiên cứu...........................................................................................4

PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN.................................................................5

PHẦN 3: NỀN TẢNG LÝ THUYẾT...............................................................................8

3.1. Học máy (Machine Learning)...................................................................................8

3.2. Phương pháp cân bằng dữ liệu SMOTE....................................................................9

3.3. Mô hình K-Nearest Neighbors Classifier..................................................................9

3.4. Mô hình Decision Tree Classifier.............................................................................9

3.5. Mô hình Random Forest Classifier.........................................................................10

3.6. Mô hình XGBoost...................................................................................................10

PHẦN 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU........................................11

4.1. Hiểu dữ liệu.............................................................................................................11

4.2. Xử lý dữ liệu............................................................................................................12

4.3. Khai phá dữ liệu......................................................................................................12

4.3.1. Phần trăm điểm dữ liệu giao dịch gian lận......................................................12

4.3.2. Khám phá dữ liệu của “amt”...........................................................................13

4.3.3. Khám phá dữ liệu về thời gian giao dịch.........................................................15


4.3.4. Khám phá dữ liệu của “gender”......................................................................18

4.3.5. Khám phá dữ liệu của “age”...........................................................................19

4.3.6. Khám phá dữ liệu của “job”............................................................................20

4.3.7. Khám phá dữ liệu của “category”...................................................................21

PHẦN 5: XÂY DỰNG CÁC MÔ HÌNH PHÁT HIỆN GIAO DỊCH GIAN LẬN....22

5.1. Cân bằng dữ liệu......................................................................................................22

5.2. So sánh các mô hình................................................................................................22

5.2.1. Ưu điểm của mô hình XGBoost........................................................................25

5.2.2. Nhược điểm của mô hình XGBoost..................................................................26

5.2.3. Hướng phát triển..............................................................................................26

PHẦN 6: KẾT LUẬN......................................................................................................28

TÀI LIỆU THAM KHẢO...............................................................................................29


DANH MỤC BẢNG

Bảng 4.3.2: Bảng thống kê mô tả dữ liệu ‘amt’.................................................................13

Bảng 5.2: So sánh các mô hình 1.......................................................................................22

Bảng 5.2: So sánh các mô hình 2.......................................................................................23

1
DANH MỤC HÌNH ẢNH

Hình 4.1 Biểu đồ cột số lần giao dịch bình thường - gian lận...........................................13

Hình 4.2 Biểu đồ cột khai phá dữ liệu của “amt”..............................................................14

Hình 4.3 Biểu đồ cột thời gian giao dịch theo giờ trong ngày...........................................15

Hình 4.4 Biểu đồ cột thời gian giao dịch theo ngày trong tuần.........................................16

Hình 4.5 Biểu đồ cột thời gian giao dịch theo tháng trong năm........................................17

Hình 4.6 Biểu đồ cột khai phá dữ liệu của “gender”.........................................................18

Hình 4.7 Biểu đồ cột khai phá dữ liệu của “age”..............................................................19

Hình 4.8 Biểu đồ cột khai phá dữ liệu của “job”...............................................................20

Hình 4.9 Biểu đồ cột khai phá dữ liệu của “category”......................................................21

Hình 5.1 Biểu đồ cột cân bằng dữ liệu với SMOTE..........................................................22

2
TÓM TẮT

Trong thời đại công nghệ hóa – hiện đại hóa ngày càng phát triển, hoạt động thanh
toán qua thẻ tín dụng đã dần thay thế phương thức thanh toán truyền thống, trở thành tiện
ích tất yếu trong đời sống hằng ngày. Chỉ với một tấm thẻ nhỏ trong lòng bàn tay, khách
hàng có thể thực hiện giao dịch ở mọi lúc, mọi nơi cho toàn bộ hoạt động mua sắm của
mình. Tuy nhiên, đi kèm với những tiện lợi đó là rủi ro tiềm ẩn gây ra tổn thất tài chính
lớn bởi doanh nghiệp bán hàng không thể kiểm tra ở đầu thẻ bên kia có phải chủ thẻ hay
một ai khác. Hơn thế nữa, số lượng tội phạm công nghệ cao tăng nhanh chóng mặt với
nhiều thủ đoạn tinh vi, lợi dụng lỗ hổng của hàng rào bảo mật thẻ tín dụng non trẻ nhằm
chiếm đoạt tài sản. Trong bài nghiên cứu này, nhóm đã tập trung xây dựng mô hình phát
hiện giao dịch qua thẻ tín dụng bằng phương pháp SMOTE, các mô hình K-Nearest
Neighbors Classifier, Random Forest Classifier, Decision Tree Classifier, XGBoost nhằm
lựa chọn ra mô hình phù hợp dựa trên so sánh hiệu quả phát hiện gian lận. Kết quả cho
thấy mô hình XGBoost Classifier có chỉ số F1-Score cao nhất (tới 0.9946) và là mô hình
tối ưu nhất.

Từ khóa: Giao dịch gian lận, gian lận thẻ tín dụng, phân tích dữ liệu, trực quan hóa dữ
liệu, học máy, mô hình

3
PHẦN 1: GIỚI THIỆU

1.1. Lý do chọn đề tài

Với sự phát triển vượt bậc của hệ thống công nghệ thông tin, các hình thức thanh
toán của ngân hàng ngày càng trở nên đa dạng. Trong đó, thẻ tín dụng được coi là
phương thức thanh toán nhanh chóng, tiện lợi và phổ biến nhất với mọi người. Song, phát
triển cùng với hình thức thanh toán này là các hình thức lừa đảo, gian lận giao dịch tinh
vi. Hình thức gian lận giao dịch thường là lừa đảo để đánh cắp thông tin thẻ tín dụng của
khách hàng để mua sắm, rút tiền hoặc thực hiện các giao dịch chuyển tiền trực tuyến,...
Điều này không những gây ra rủi ro cho người dùng thẻ như mất tiền, để lộ thông tin cá
nhân và các thông tin quan trọng khác; mà còn gây ảnh hưởng to lớn đến tính an toàn và
khả năng bảo mật của hệ thống thanh toán ngân hàng. Vì những lý do trên, nhóm tác giả
đã chọn đề tài “Phân tích, trực quan hóa dữ liệu và xây dựng mô hình phát hiện gian lận
giao dịch qua thẻ tín dụng” để nghiên cứu và phát hiện ra những dấu hiệu đặc trưng
thường có của một giao dịch gian lận.

1.2. Mục đích nghiên cứu

Mục đích đề tài là xây dựng một hệ thống phát hiện gian lận giao dịch qua thẻ tín
dụng hiệu quả giảm thiểu tổn thất tài chính cũng như tiết kiệm thời gian và công sức
trong việc xử lý các vụ gian lận. Hệ thống này sẽ giúp cho các ngân hàng và tổ chức tài
chính có thể nhanh chóng phát hiện các giao dịch có nghi vấn gian lận và kịp thời ngăn
chặn các hành vi lừa đảo.

1.3. Phương pháp nghiên cứu

Nhóm tác giả áp dụng phương pháp nghiên cứu là phân tích dữ liệu và xây dựng
các mô hình học máy để phát hiện những đặc trưng điển hình của một giao dịch gian lận

4
qua thẻ tín dụng. Phương pháp này sử dụng các kỹ thuật phân tích, trực quan hóa dữ liệu
và học máy để xác định các điểm gian lận và phát hiện các giao dịch bất thường.

PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN

Gian lận trong giao dịch thẻ tín dụng đang là vấn đề nhức nhối, ảnh hưởng đến
tính bảo mật của hệ thống thanh toán. Do đó, rất nhiều nghiên cứu đã được thực hiện về
chủ đề này. Các nghiên cứu đáng chú ý bao gồm:

 “GBG sử dụng máy học và trí tuệ nhân tạo để phát hiện gian lận trong giao dịch
thẻ tín dụng và thanh toán kỹ thuật số” (Vietnam+, 2020): Trong bài viết này, GBG sử
dụng máy học và trí tuệ nhân tạo để phát hiện gian lận thẻ tín dụng Hệ thống máy học của
GBG đã được sử dụng thành công để cảnh báo khách hàng về gian lận và cải thiện khả
năng phát hiện gian lận bị bỏ sót.

 “Phương pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu
thực nghiệm” (Nguyễn Thị Liên et al., 2018): Nghiên cứu này tập trung vào cách sử dụng
máy học trong các giao dịch thẻ để phát hiện gian lận thẻ tín dụng. tôi ở đây. Bài viết này
trình bày các nghiên cứu thực nghiệm sử dụng các kỹ thuật máy học như Naive Bayes, K-
Nearest Neighbors (KNN) và Support Vector Machine (SVM). Kết quả nghiên cứu cho
thấy các kỹ thuật máy học có thể phát hiện gian lận một cách hiệu quả.

 “Làm thế nào Machine Learning có thể cải thiện phát hiện gian lận trong thời
gian thực” (Hồ Quang Thái, 2018): Bài viết tập trung vào lợi ích của máy học trong phát
hiện gian lận trong giao dịch thẻ tín dụng. Nó đề cập đến việc sử dụng máy học để chủ
động phát hiện gian lận và cải thiện độ chính xác của việc phát hiện gian lận.

 “Máy học trong ngân hàng” (akaBot, 2022): Bài viết tìm hiểu việc sử dụng máy
học trong ngành ngân hàng để cải thiện độ chính xác của việc phát hiện gian lận trong các
giao dịch thẻ tín dụng. Điều này nhấn mạnh cách học máy có thể giúp tiết kiệm thời gian
và cải thiện trải nghiệm của khách hàng.

5
 “Một số thuật toán ứng dụng trong phát hiện gian lận thanh toán thẻ tín dụng”
(Nguyễn Thị Hồng Loan, 2018): Khai phá dữ liệu là một trong những kỹ thuật được ứng
dụng trong các hệ thống ngân hàng. Bài báo trình bày 1 số thuật toán trong khai phá được
đánh giá là hiệu quả nhất trong các hệ thống phát hiện gian lận giao dịch thẻ tín dụng.

 “Phương pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu
thực nghiệm” (Nguyễn Thị Liên, Nguyễn Thị Thu Trang, Nguyễn Chiến Thắng, 2018):
Nghiên cứu giới thiệu các phương pháp thống kê và học máy để phát hiện gian lận thẻ tín
dụng tại ngân hàng thương mại. Nghiên cứu ứng dụng các mô hình như mô hình Logistic,
mạng Bayes (Bayesian Network), cây quyết định (Decision trees), phương pháp Stacking
(Stacked generalization). Ngoài ra, nghiên cứu cũng đưa ra một số cách xử lý trong
trường hợp dữ liệu mất cân bằng. Thông qua kết quả so sánh các mô hình và xử lý dữ liệu
mất cân bằng.

 “A supervised machine learning algorithm for detecting and predicting fraud in


credit card transactions. A supervised machine learning algorithm for detecting and
predicting fraud in credit card transactions” (Jonathan Kwaku Afriyie a et al., 2023): Bài
viết đề xuất một phương pháp học máy có giám sát để phát hiện gian lận trong giao dịch
thẻ tín dụng. Nghiên cứu tập trung vào việc áp dụng các thuật toán Random Forests để xử
lý gian lận và xác định độ chính xác của phương pháp.

 “Credit Card Fraud Detection using Machine Learning Algorithms.” (Vaishnavi


Nath Dornadula & S Geetha, 2019): Bài viết đề xuất một phương pháp học máy có giám
sát để phát hiện gian lận trong giao dịch thẻ tín dụng. Nghiên cứu tập trung vào việc áp
dụng các thuật toán Random Forests để xử lý gian lận và xác định độ chính xác của
phương pháp.

 “Review of Anomaly Detection Techniques and Recent Advances” (Waleed


Hilal et al., 2022): Bài viết tập trung vào việc áp dụng phương pháp học máy có giám sát
trong việc phát hiện gian lận trong giao dịch thẻ tín dụng. Nghiên cứu đề xuất một mô
hình kết hợp dựa trên Support Vector Machine (SVM) và Bayesian Optimization để tăng
cường hiệu suất phát hiện gian lận trong giao dịch thẻ tín dụng. Ngoài ra, bài viết cũng

6
tiếp cận vấn đề của bất cân xứng dữ liệu và đề xuất một phương pháp chuyển đổi dữ liệu
bất cân xứng để cải thiện hiệu suất phát hiện.

 “A Neural Network Ensemble With Feature Engineering for Improved Credit


Card Fraud Detection” (E. Esenogho, I. D. Mienye, T. G. Swart, K. Aruleba and G.
Obaido, 2022). Bài viết này đề xuất một cách tiếp cận hiệu quả để phát hiện gian lận bằng
cách sử dụng thuật toán neural network ensemble classifier và phương pháp lấy mẫu lại
dữ liệu lại. Hiệu quả của nghiên cứu được chứng thực khi đem so sánh với các thuật toán
khác: support vector machine (SVM), multilayer perceptron (MLP), decision tree,
traditional AdaBoost, và LSTM. Kết quả thử nghiệm cho thấy rằng kết quả gian lận giao
dịch chính xác hơn khi được huấn luyện với dữ liệu lấy mẫu lại và nhóm LSTM hoạt
động tốt hơn các thuật toán khác thông qua độ nhạy 0,996.

Tất cả các nghiên cứu này đều tập trung vào việc phát hiện và ngăn chặn các giao
dịch thẻ tín dụng gian lận. Để đạt được điều này, nghiên cứu đã sử dụng các kỹ thuật
phân tích dữ liệu, học máy và khai thác dữ liệu. Tuy nhiên, những nghiên cứu này cũng
chỉ ra một số thách thức và hạn chế trong việc phát hiện các giao dịch gian lận như độ
phức tạp của dữ liệu, khó khăn trong việc xác định các điểm giao dịch bất thường và độ
chính xác của các mô hình.

7
PHẦN 3: NỀN TẢNG LÝ THUYẾT
3.1. Học máy (Machine Learning)
Học máy (Machine Learning) là một công nghệ phát triển từ trí tuệ nhân tạo, sử
dụng các thuật toán do con người lập trình để giải quyết các vấn đề cụ thể như tính toán,
mô phỏng, xử lý lượng thông tin lớn. Do nhiều tiện ích, học máy đã được ứng dụng phổ
biến như lọc thư điện tử, nhận diện khuôn mặt, khuyến cáo sản phẩm và đặc biệt nhất
phải kể đến phát hiện giao dịch gian lận qua thẻ tín dụng. Tuy nhiên, học máy vẫn cần
đòi hỏi sự khéo léo của con người trong tìm hiểu và lựa chọn kĩ thuật phù hợp để phân
tích dữ liệu. Đồng thời, trước khi sử dụng, dữ liệu phải sạch, không có sai lệch và không
có dữ liệu giả. Do đó trong nghiên cứu, nhóm đã tiến hành kiểm tra dữ liệu thiếu hoặc
trùng nhau, kiểm tra số lượng giá trị duy nhất trong bộ dữ liệu và bóc tách chuyên sâu
trong việc khám phá nhằm giảm thiểu sai sót.
Học máy có 2 loại bao gồm học có giám sát (supervised learning) và học không
giám sát (unsupervised learning). Trong học có giám sát, máy tính học cách mô hình hóa
các mối quan hệ dựa trên dữ liệu được gán nhãn (labeled data). Ngược lại với học không
giám sát máy tính không được cung cấp dữ liệu được dán nhãn mà thay vào đó chỉ được
cung cấp dữ liệu mà thuật toán tìm cách mô tả dữ liệu và cấu trúc của chúng và trả lại
biến đầu ra. Tùy thuộc vào biến đầu ra là rời rạc hay liên tục mà chúng ta có thể phân biệt
hai nhiệm vụ được giám sát: phân loại (classification) hay hồi quy (regression). Phát hiện
gian lận giao dịch qua thẻ tín dụng thuộc nhóm đầu tiên vì các đầu ra được phân thành
hai loại là có gian lận (fraud) hoặc không gian lận (non-fraud). Dữ liệu trong các thuật
toán thuộc nhánh "không giám sát" chỉ có đầu vào mà không cần đầu ra vì ứng dụng chủ
yếu của nó chỉ để khám phá cấu trúc và mối quan hệ dữ liệu với nhau.
Một số thuật toán sử dụng phổ biển để phát hiện các gian lận giao dịch ngày nay bao
gồm:
 Artificial neutron network  Fuzzy Logic
 Random Forest  Decision Tree
 K-Nearest Neighbors  XGBoost

8
 Support vector machine

Trong bài báo cáo này, nhóm chủ yếu tập trung so sánh và phân tích 4 mô hình
chính là mô hình K-Nearest Neighbors, mô hình Random Forest, mô hình Decision Tree
và mô hình XGBoost.
3.2. Phương pháp cân bằng dữ liệu SMOTE

Mất cân bằng dữ liệu là một trong những hiện tượng phổ biến của bài toán phát
hiện gian lận, phát hiện rủi ro tiềm ẩn... Khi xảy ra hiện tượng mất cân bằng nghiêm
trọng, tức tỷ lệ lớn hơn 90:10 sẽ ảnh hưởng đến kết quả dự báo, giảm chất lượng của mô
hình phân loại vì kết quả sẽ tương ứng với lớp đa số và lớp thiểu số lúc này đóng vai trò
như "nhiễu" tạo nên sai lệch đáng kể. Do đó vấn đề đặt ra là phải cân bằng dữ liệu. Ở bài
toán phát hiện gian lận giao dịch này, nhóm tập trung vào phương pháp SMOTE
(Synthetic Minority Oversampling Technique). Thuật toán này giúp khắc phục vấn đề
overfitting do lấy mẫu quá mức ngẫu nhiên. SMOTE hoạt động bằng các tạo ra các mẫu
tổng hợp từ các lớp thiểu số thay cho việc tạo ra các bản sao. Thuật toán chọn 2 hay nhiều
trường hợp giống nhau (sử dụng thước đo khoảng cách để so sánh) và xáo trộn một cá thể
một thuộc tính tại một thời điểm bằng một lượng ngẫu nhiên trong khoảng chênh lệch với
các trường hợp lân cận.
3.3. Mô hình K-Nearest Neighbors Classifier

Đúng như tên gọi thuật toán K-láng giềng gần nhất là một kĩ thuật phân loại học
có giám sát (supervised learning) dùng để phân loại quan sát mới bằng cách tìm điểm
tương đồng giữa quan sát mới này với dữ liệu sẵn có. Ý tưởng bắt nguồn từ việc K-
Nearest Neighbors Classifier cho rằng các dữ liệu tương tự nhau sẽ tồn tại gần nhau trong
cùng một không gian, việc của người phân tích chỉ tìm k điểm gần với dữ liệu cần kiểm
tra thông qua tính toán khoảng cách.

9
3.4. Mô hình Decision Tree Classifier

Trong thực tế có nhiều mô hình học máy được thiết kế dưới dạng câu hỏi nhằm
đưa ra quyết định cuối cùng. Các câu hỏi sẽ được hệ thống như một cái cây nhị phân bao
gồm các nhánh nhỏ và dựa vào đặc tính của dữ liệu để đưa ra dự báo True (đúng) hoặc
False (Sai). Ở bài toán phát hiện gian lận, mô hình sẽ tính điểm tương tác giữa các dữ liệu
như tuổi tác, giới tính, ngành nghề, ngày giờ giao dịch nhằm phát hiện ra sự bất thường
và đưa ra dự đoán có gian lận hay không. Mô hình này đưa ra dự báo nhanh và tiện lợi
tuy nhiên lại dễ xảy ra overfitting (tạo ra những cây quá khớp với dữ liệu huấn luyện hay
quá phức tạp) và không xử lý được nhiều dữ liệu bùng nổ như hình ảnh, video, âm
thanh,...
3.5. Mô hình Random Forest Classifier

Dựa trên mô hình Decision Tree. Dù có độ chính xác khá cao nhưng mô hình này
luôn tồn tại những sai lệch không đáng có vì thế mô hình random forest đã được thay thế
nhằm loại bỏ sai lệch này thông qua việc tích hợp nhiều cây quyết định trên các mẫu dữ
liệu được chọn ngẫu nhiên. Thuật toán của Random Forest hoạt động dựa trên việc bỏ
phiếu các kết quả dự đoán và chọn ra kết quả được dự đoán nhiều nhất sau cùng. Nhờ đó
đây được coi là phương pháp chính xác và không bị overfitting. Random forests cũng có
thể xử lý các dữ liệu thiếu sót (null) bằng cách tính toán giá trị trung bình để thay thế biến
liên tục hoặc tính toán khoảng cách trung bình gần nhất của các giá trị bị thiếu
3.6. Mô hình XGBoost

XGBoost (Extreme Gradient Boosting) là một giải thuật được base trên gradient
boosting, tuy nhiên kèm theo đó là những cải tiến to lớn về mặt tối ưu thuật toán khi kết
hợp mô hình giữa các cây quyết định, làm giảm các sai số khi huấn luyện (Training
Loss), chuẩn hóa các sai số, hệ số biến (Regularization) và xử lý nhanh gọn dữ liệu ở mọi
kích thước, định dạng bao gồm cả categorical thường tìm thấy nhiều trong business
model. Mô hình này được ứng dụng để giải quyết mọi vấn đề từ hồi quy đến phân loại.

10
Có thể nói trong trường hợp nghiên cứu gian lận giao dịch qua thẻ tín dụng, mô hình
XGBoost là phù hợp và tối ưu nhất.

11
PHẦN 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU

Trong thực tế, việc thu thập dữ liệu mô tả hành vi giao dịch của khách hàng qua
thẻ tín dụng là rất khó khăn do đây là những thông tin cá nhân của người dùng mà ngân
hàng phải có trách nhiệm bảo mật chặt chẽ, an toàn. Vì vậy, bộ dữ liệu được nhóm tác giả
sử dụng trong đề tài này được lấy từ website Kaggle do tác giả Brandon Harris sử dụng
công cụ Sparkov Data Generation | Github để tiến hành xây dựng mô phỏng các giao dịch
(gồm giao dịch bình thường và gian lận) trong khoảng thời gian từ 01/01/2019-
31/12/2020 của hơn 1000 khách hàng thực hiện giao dịch với nhóm 800 người nhận tiền
ở Mỹ. Song, do bộ dữ liệu khá lớn nên ở đây tác giả chỉ trích xuất những loại giao dịch
trong biến “category” có kết thúc bằng “net” hoặc “pos” để thực hiện việc nghiên cứu đề
tài.

4.1. Hiểu dữ liệu


Bộ dữ liệu bao gồm 13 biến như sau:

 trans_date_trans_time: Thời gian giao dịch

 cc_num: Mã số thẻ tín dụng

 merchant: Tên người nhận

 category: Lĩnh vực giao dịch

 amt: Số tiền giao dịch

 first: Tên của chủ thẻ tín dụng

 last: Họ của chủ thẻ tín dụng

 gender: Giới tính

 street: Địa chỉ giao dịch

 city: Thành phố giao dịch

12
 job: Công việc

 dob: Ngày sinh

 is_fraud: Loại giao dịch (1 là gian lận, 0 là bình thường)

Ở đây, biến "is_fraud" là biến mục tiêu của nhóm tác giả.

4.2. Xử lý dữ liệu
Nhóm tác giả đã tiến hành quá trình xử lý và làm sạch dữ liệu theo các bước sau:

- Bước 1: Đếm số dòng dữ liệu.

- Bước 2: Kiểm tra xem có cột nào bị thiếu dữ liệu.

- Bước 3: Kiểm tra xem có dòng dữ liệu nào trùng nhau.

- Bước 4: Kiểm tra số lượng giá trị duy nhất trong bộ dữ liệu.

- Bước 5: Chuyển đổi cột “trans_date_trans_time” thành định dạng datetime.

- Bước 6: Tách cột “trans_date_trans_time” thành các cột “trans_hour”,

“trans_day_of_week”, “trans_year_month”.

- Bước 7: Tìm tuổi của khách hàng tại thời điểm giao dịch.

- Bước 8: Xóa bỏ các cột “trans_date_trans_time”, “dob”, “first”, “last” ra khỏi bộ dữ


liệu.

- Bước 9: Chỉ lấy các dòng dữ liệu có đuôi "net" hoặc "pos" trong cột “category”.

- Bước 10: Xem lại bộ dữ liệu sau khi đã xử lý.

4.3. Khai phá dữ liệu


4.3.1. Phần trăm điểm dữ liệu giao dịch gian lận

13
Hình 4.1 Biểu đồ cột số lần giao dịch bình thường - gian lận

Nguồn: Nhóm tác giả thực hiện

Ta thấy rằng, tỷ lệ phần trăm của giao dịch gian lận chỉ chiếm khoảng 0,96%
nhưng tỷ lệ phần trăm của các giao dịch bình thường lên tới 99,04%. Do đó, đây là một
bộ dữ liệu mất cân bằng nghiêm trọng nên nhóm tác giả sẽ tiến hành cân bằng dữ liệu ở
phần 5 của bài nghiên cứu này để phục vụ việc xây dựng các mô hình không bị thiên vị.

4.3.2. Khám phá dữ liệu của “amt”

Overall Amt Non-Fraud Amt Fraud Amt


Row Type
Distribution Distribution Distribution

1 count 751737.000000 744555.000000 7182.000000

2 mean 84.750868 79.050045 675.752904

14
3 std 173.579039 161.005005 337.101827

4 min 1.000000 1.000000 5.600000

5 25% 6.470000 6.410000 318.725000

6 50% 39.970000 38.970000 794.945000

7 75% 104.520000 102.950000 954.205000

8 max 9754.720000 9754.720000 1376.040000

Bảng thống kê mô tả dữ liệu “amt”

Nguồn: Nhóm tác giả thực hiện

Qua bảng trên thống kê trên, ta thấy số tiền trung bình của giao dịch được cho là
bình thường ít hơn rất nhiều so với tiền trung bình của giao dịch được cho là gian lận.
Không chỉ vậy, độ dao động của các giao dịch bình thường chỉ tầm khoảng 161 USD,
trong khi đó các giao dịch gian lận phải chênh lệch tới gấp đôi.

Hình 4.2 Biểu đồ cột khai phá dữ liệu của “amt”

Nguồn: Nhóm tác giả thực hiện

15
Quan sát trực quan, tác giả thấy rằng tổng số tiền giao dịch và số tiền của giao dịch
không có gian lận có phân phối tương tự nhau. Tuy nhiên, phân phối số tiền bị nghi ngờ
gian lận có xu hướng lớn hơn so với các phân phối khác. Về định lượng, tác giả thấy
trong khi số tiền của các giao dịch được cho là không gian lận trung chủ yếu quanh giá trị
250 USD đổ lại, thì số lượng tiền của giao dịch bị nghi ngờ gian lận lại đạt đỉnh cao vào
khoảng 300 USD, sau đó tập trung mạnh vào khoảng từ 700 đến 1.100 USD. Điều này
cho thấy rằng các giao dịch gian lận thường có giá trị cao hơn các giao dịch không gian
lận cũng như lượng tiền giao dịch cũng trải dài ở một phạm vi rộng hơn.

4.3.3. Khám phá dữ liệu về thời gian giao dịch


 Thời gian trong 1 ngày:

Hình 4.3 Biểu đồ cột thời gian giao dịch theo giờ trong ngày

Nguồn: Nhóm tác giả thực hiện

Các giao dịch bình thường được phân bổ tương đối đều trong ngày. Tuy nhiên, khi
xem xét các giao dịch được cho là gian lận, chúng có xu hướng tập trung vào những giờ

16
khuya từ khoảng 10 giờ tối đến 3 giờ sáng - khoảng thời gian hầu hết mọi người đang
ngủ. Điều này cho thấy những kẻ lừa đảo thường tận dụng thời điểm đêm khuya, lúc mà
những người khác ít quan tâm và theo dõi chặt chẽ đến các giao dịch của họ. Việc hành
động vào ban đêm thường làm giảm sự chú ý và giám sát của chủ thẻ nên các giao dịch
gian lận có thể thực hiện một cách trơn tru, khó có thể bị phát hiện một cách nhanh
chóng.

 Thời gian trong 1 tuần:

Hình 4.4 Biểu đồ cột thời gian giao dịch theo ngày trong tuần

Nguồn: Nhóm tác giả thực hiện

Nhìn vào sự phân bố các giao dịch, tác giả thấy rằng các giao dịch được coi là
bình thường có xu hướng tập trung vào thứ hai và chủ nhật, trong khi các giao dịch gian
lận có xu hướng phân bổ đều trong tuần. Điều này thể hiện sự khác biệt trong hành vi
giữa các giao dịch bình thường và gian lận. Các giao dịch bình thường thường tập trung

17
vào đầu hoặc cuối tuần khi mọi người có nhiều hoạt động hơn như là mua sắm, đi chơi,
cafe với gia đình, bạn bè,... nên thường có nhu cầu sử dụng thẻ tín dụng cao hơn so với
các ngày trong tuần. Mặt khác, các giao dịch gian lận thường không ưu tiên bất kỳ ngày
cụ thể nào, vì vậy chúng có thể được thực hiện vào bất kỳ ngày nào trong tuần.

 Thời gian trong 1 năm:

Hình 4.5 Biểu đồ cột thời gian giao dịch theo tháng trong năm

Nguồn: Nhóm tác giả thực hiện

Khi phân tích về các giao dịch, tác giả quan sát thấy các giao dịch được coi là bình
thường có xu hướng tăng đáng kể vào tháng 12 và tập trung cao vào cuối mùa xuân và
đầu mùa hè. Mặt khác, các giao dịch gian lận lại tuân theo các xu hướng riêng biệt theo
mùa. Sự gia tăng của các giao dịch bình thường trong tháng 12 có thể được giải thích
bằng sự gia tăng hoạt động mua sắm trong dịp lễ Giáng sinh. Vào thời điểm này, mọi
người thường chi nhiều tiền hơn cho quà tặng, du lịch và các hoạt động giải trí. Sự gia

18
tăng này có thể tiếp tục vào đầu mùa hè khi mọi người chuẩn bị cho kỳ nghỉ hè và các
hoạt động ngoài trời. Mặt khác, sự phân phối các giao dịch gian lận được phát hiện là
không đồng đều giữa các mùa, có sự tăng lên vào những thời điểm như kỳ nghỉ lễ, mùa
mua sắm hoặc các sự kiện đặc biệt khác. Điều này có thể là do những kẻ lừa đảo đang cố
gắng che giấu hoạt động gian lận của chúng bằng cách lợi dụng mật độ người dùng và
lưu lượng giao dịch cao trong những khoảng thời gian này.

4.3.4. Khám phá dữ liệu của “gender”


Hình 4.6 Biểu đồ cột khai phá dữ liệu của “gender”

Nguồn: Nhóm tác giả thực hiện

Dữ liệu dường như cho thấy rằng nữ và nam có xu hướng bị tội phạm gian lận
giao dịch tấn công như nhau. Do đó, giới tính không phải là một yếu tố để phát hiện một
giao dịch có phải là gian lận hay không.

19
4.3.5. Khám phá dữ liệu của “age”
Hình 4.7 Biểu đồ cột khai phá dữ liệu của “age”

Nguồn: Nhóm tác giả thực hiện

Trong các giao dịch được cho là bình thường, ta quan sát được hai đỉnh phân phối
độ tuổi. Đỉnh đầu tiên là ở nhóm tuổi 30-35, phản ánh nhóm người trẻ tuổi đang tham gia
vào các hoạt động tài chính như vay mượn, mua sắm và đầu tư. Đỉnh cao thứ hai là trong
độ tuổi từ 45-50, phản ánh nhóm người trưởng thành có thu nhập ổn định và quan tâm
đến việc quản lý tài chính cá nhân. Mặt khác, trong phân bố độ tuổi của các giao dịch bị
nghi ngờ gian lận thì đỉnh đầu tiên vẫn là khoảng 30-35 tuổi (như giao dịch bình thường),
nhưng đỉnh thứ hai đã dịch chuyển vào khoảng 50-60 tuổi. Điều này cho thấy rằng những
người lớn tuổi, đặc biệt là những người gần 60 tuổi, có khả năng dễ bị lừa đảo hơn. Một
số giải thích có thể cho hiện tượng này là những người lớn tuổi được cho là dễ bị lừa đảo
hơn do họ thiếu kinh nghiệm về công nghệ, quá dễ tin tưởng vào người khác và ít được
trang bị những kiến thức về các hình thức lừa đảo mới nhất. Những kẻ lừa đảo có thể cố

20
gắng lợi dụng nhóm người này bằng cách sử dụng thủ đoạn gian lận tinh vi như gọi điện
thoại, gửi email không có thật hoặc đưa ra những đề nghị không trung thực để chiếm đoạt
tài sản, mã số thẻ tín dụng của họ.

4.3.6. Khám phá dữ liệu của “job”


Hình 4.8 Biểu đồ cột khai phá dữ liệu của “job”

Nguồn: Nhóm tác giả thực hiện

Dựa vào biểu đồ, top 20 các nghề nghiệp như Broadcast journalist, Industrial
buyer, Personnel officer,... có tỷ lệ phần trăm giao dịch được coi là gian lận đạt 100%.
Điều này cho thấy những ngành nghề này thường ít sử dụng giao dịch bằng thẻ tín dụng
và thường không đề phòng đối với việc xâm nhập thông tin thẻ tín dụng. Do đó, họ dễ
dàng trở thành đối tượng chính mà tội phạm gian lận giao dịch nhắm đến.

21
4.3.7. Khám phá dữ liệu của “category”
Hình 4.9 Biểu đồ cột khai phá dữ liệu của “category”

Nguồn: Nhóm tác giả thực hiện

Một vài lĩnh vực cho thấy xảy ra nhiều gian lận hơn những lĩnh vực khác. Giao
dịch được cho là gian lận có xu hướng xảy ra thường xuyên hơn trong các lĩnh vực như
Shopping_net, Grocery_pos và Misc_net; trong khi Grocery_net, Shopping_pos,
Misc_pos hầu hết có xu hướng là các giao dịch bình thường.

22
PHẦN 5: XÂY DỰNG CÁC MÔ HÌNH PHÁT HIỆN
GIAO DỊCH GIAN LẬN
5.1. Cân bằng dữ liệu
Hình 5.1 Biểu đồ cột cân bằng dữ liệu với SMOTE

Nguồn: Nhóm tác giả thực hiện

5.2. So sánh các mô hình

Cohen's
Model Accuracy F1 Score Precision Recall
Kappa

1.K-Nearest
0.985622 0.985620 0.985877 0.985622 0.971245
Neighbors

2. Random 0.968355 0.968354 0.968369 0.968355 0.936709

23
Forest

3. Decision
0.979310 0.979309 0.979359 0.979310 0.958620
Tree

4. XGBoost 0.994643 0.994643 0.994644 0.994643 0.989287

Bảng so sánh các mô hình 1

Nguồn: Nhóm tác giả thực hiện

Nhóm tác giả đưa ra 3 tiêu chí tiêu biểu để so sánh, đánh giá và lựa chọn mô hình tốt nhất
cho bài nghiên cứu như sau:

Accuracy F1 score Cohen's Kappa

Accuracy giúp đo F1 score là một số đo Cohen's Kappa giúp đo


lường tỷ lệ dự đoán kết hợp giữa precision lường độ tin cậy của
chính xác của mô hình và recall và thường mô hình trong việc
trên toàn bộ dữ liệu, được sử dụng trong các phân loại các giao dịch
bao gồm cả các giao bài toán mất cân bằng thành gian lận và bình
dịch gian lận và bình dữ liệu. Nó đo lường sự thường. Nó tính toán sự
Ý nghĩa
thường. cân bằng giữa độ chính khác biệt giữa độ chính
xác của dự đoán xác quan sát được và
positive và khả năng độ chính xác ngẫu
tìm ra tất cả các nhiên dự đoán.
positive instances.

Lý do Accuracy là tiêu chí F1 Score là một tiêu chí Cohen's Kappa là một

24
đơn giản và dễ hiểu, quan trọng trong các tiêu chí đo lường sự
đo lường tỷ lệ dự đoán bài toán mất cân bằng đồng nhất giữa dự đoán
chính xác trên tổng số dữ liệu như phát hiện của mô hình và thực tế,
mẫu. gian lận. Nó cân nhắc điều chỉnh cho sự khớp
cả precision và recall, ngẫu nhiên. Đây là một
chọn
giúp đo lường sự cân tiêu chí phù hợp trong
bằng giữa việc dự đoán trường hợp dữ liệu mất
đúng gian lận và khả cân bằng.
năng tìm ra tất cả các
giao dịch gian lận.

TP+TN 2xPxR ' OA − EA


Accuracy= F 1 score= Coℎe n sKappa=
TPre P+ R 1− EA

Trong đó: Trong đó: Trong đó


TP:True Positives P: Precision OA: Observed
TN: True Negatives R: Recall Accuracy là tỷ lệ các
Công
TPre: Total Prediction dự đoán chính xác
thức
EA: Expected
Accuracy là tỷ lệ dự
đoán chính xác trong
trường hợp các dự đoán
ngẫu nhiên.

25
Accuracy là một chỉ số Đối với bài toán phát Cohen's Kappa đánh
quan trọng để đánh giá hiện gian lận, việc cân giá sự khớp giữa dự
tổng thể hiệu suất của nhắc cả precision và đoán của mô hình và
mô hình. Nó cho thấy recall là rất quan trọng. thực tế, loại trừ sự ảnh
mức độ chính xác tổng F1 Score giúp bạn đánh hưởng của việc phân
quan của mô hình giá khả năng của mô loại ngẫu nhiên. Điều
trong việc phân loại cả hình trong việc phát này giúp bạn đánh giá
Lợi ích hai lớp giao dịch (gian hiện gian lận và đồng hiệu suất của mô hình
lận và bình thường). thời giảm thiểu khả một cách chính xác
Tuy nhiên, nếu dữ liệu năng có những giao hơn, đặc biệt trong
mất cân bằng, dịch gian lận bị bỏ sót trường hợp dữ liệu mất
Accuracy có thể không hoặc có những giao cân bằng.
phản ánh chính xác dịch bình thường bị
hiệu suất của mô hình. phân loại nhầm là gian
lận.

Mô hình
được XGBoost (0.994643) XGBoost (0.994643) XGBoost (0.989287)
chọn

Bảng so sánh các mô hình 2

Bằng cách kết hợp cả 3 loại chỉ số Accuracy, F1 Score và Cohen's Kappa, tác giả
có cái nhìn toàn diện hơn về hiệu suất của mô hình trong việc phát hiện gian lận và đánh
giá khả năng cân bằng giữa precision, recall và độ chính xác tổng thể. Qua đó nhóm tác
giả kết luận mô hình XGBoost có kết quả tốt nhất và nên được chọn cho bài toán phát
hiện gian lận trong giao dịch thẻ tín dụng.

26
5.2.1. Ưu điểm của mô hình XGBoost
 Đạt kết quả tốt nhất trên tất cả các tiêu chí: accuracy, F1 score, precision, recall và
Cohen's Kappa.

 Hiệu suất cao: XGBoost được xây dựng trên cơ sở Gradient Boosting Framework, có
khả năng xử lý hiệu quả các bài toán phức tạp và dữ liệu lớn. Nó thường có hiệu suất cao
hơn so với các mô hình truyền thống khác như Decision Tree hay Random Forest.

 Khả năng xử lý dữ liệu mất cân bằng: XGBoost có thể xử lý tốt các vấn đề liên quan
đến mất cân bằng dữ liệu, như trong trường hợp của bạn khi sử dụng phương pháp
SMOTE để cân bằng dữ liệu. Nó có thể điều chỉnh trọng số cho các lớp thiểu số và lớp đa
số để tăng cường khả năng phát hiện gian lận.

 Xử lý các loại biến đặc trưng: XGBoost có khả năng xử lý tốt các biến đặc trưng có
dạng số, nhị phân và hạng mục. Bạn không cần tiền xử lý nhiều để chuyển đổi các biến
đặc trưng này.

5.2.2. Nhược điểm của mô hình XGBoost


 Đòi hỏi tài nguyên tính toán cao: XGBoost có thể yêu cầu tài nguyên tính toán lớn, đặc
biệt là khi dữ liệu lớn và số lượng cây quyết định và các tham số được tinh chỉnh cao.
Điều này có thể làm tăng thời gian huấn luyện và đòi hỏi hệ thống có khả năng xử lý cao.

 Điều chỉnh tham số phức tạp: XGBoost có nhiều tham số cần được tinh chỉnh để đạt
hiệu suất tốt nhất. Việc điều chỉnh tham số có thể đòi hỏi sự hiểu biết sâu về mô hình và
thử nghiệm nhiều cấu hình khác nhau. Điều này có thể làm tăng thời gian và công sức để
điều chỉnh mô hình.

 Khả năng diễn giải thấp: XGBoost là một mô hình phức tạp với nhiều cây quyết định và
kết hợp các cây quyết định này. Điều này làm giảm tính khả diễn giải của mô hình, tức là
khó để hiểu cách mô hình ra quyết định và giải thích kết quả dự đoán.

27
5.2.3. Hướng phát triển
Để phát triển mô hình XGBoost trở nên tốt hơn, nhóm tác giả đề xuất một số ý
kiến như sau:

 Tiếp tục tinh chỉnh các siêu tham số của mô hình XGBoost để tối ưu hóa hiệu suất.

 Xem xét sử dụng các phương pháp kết hợp mô hình (ensemble) để cải thiện kết quả và
giảm thiểu overfitting.

 Nâng cấp dữ liệu bằng cách thu thập thêm thông tin hoặc nâng cấp tính năng mới hữu
ích cho việc phát hiện gian lận.

 Kiểm tra kết quả trên bộ dữ liệu kiểm tra độc lập để đảm bảo tính tổng quát của mô
hình.

 Sử dụng thư viện vaex với các chức năng bao gồm đọc và xử lý dữ liệu lớn, thực hiện
các thao tác trên cột mà không cần tải toàn bộ dữ liệu vào bộ nhớ, cung cấp các tính năng
đa luồng để tăng tốc độ xử lý.

28
PHẦN 6: KẾT LUẬN

Chủ đề phát hiện gian lận trong các giao dịch thẻ tín dụng đã trở thành một lĩnh
vực nghiên cứu quan trọng và thú vị trong lĩnh vực tài chính và bảo mật thông tin. Điều
này càng cấp bách hơn do các hình thức gian lận thẻ tín dụng ngày càng phức tạp, gây ra
mối đe dọa ngày càng tăng đối với tính toàn vẹn và bảo mật của các hệ thống thanh toán.
Các phương pháp và công nghệ phát hiện gian lận trong giao dịch thẻ tín dụng liên tục
được phát triển và cải tiến để đảm bảo hiệu quả và độ chính xác cao hơn trong việc phát
hiện gian lận. Việc sử dụng công nghệ mới và cải tiến trong lĩnh vực này không chỉ giúp
phát hiện và ngăn chặn gian lận một cách hiệu quả mà còn giúp giảm rủi ro tài chính và
bảo vệ thông tin tài khoản của khách hàng. Tương lai sẽ đòi hỏi sự hợp tác chặt chẽ giữa
các tổ chức tài chính và các nhà nghiên cứu để nghiên cứu và phát triển các phương pháp
và kỹ thuật phát hiện gian lận mới nhằm giảm thiểu rủi ro và bảo vệ thông tin. Điều này
bao gồm tăng cường khả năng chống gian lận thẻ tín dụng và hệ thống thanh toán an toàn
của các ngân hàng. Trên cơ sở nghiên cứu và phát triển công nghệ phát hiện gian lận giao
dịch thẻ tín dụng, đề tài này được kỳ vọng sẽ góp phần bảo vệ thông tin tài khoản, giảm
thiểu thiệt hại kinh tế và đảm bảo an toàn, tin cậy cho các giao dịch tài chính.

29
TÀI LIỆU THAM KHẢO

[1] Kartik Shenoy. (2020, August 5). Credit Card Transactions Fraud Detection Dataset.
Kaggle. Retrieved May 14, 2023, from

https://www.kaggle.com/datasets/kartik2112/fraud-detection

[2] Binny Mathews, & Omair Aasim. (2023, April 23). Credit Card Fraud Detection
Project using Machine Learning. ProjectPro. Retrieved May 14, 2023, from

https://www.projectpro.io/article/credit-card-fraud-detection-project-with-source-code-in-
python/568?fbclid=IwAR0j-
vxirgJvT3DZLUtGM2eGdbkG1XN73pP7xAPuOlEbUwUm3xC2qUbBkvE

[3] Hoàng Thị Thúy, & Lê Thị Xuân Thu. (2021, March 5). Phát Hiện Gian Lận Thẻ Tín
Dụng Bằng Học Máy. Cơ sở dữ liệu quốc gia về Khoa học và Công nghệ. Retrieved May
14, 2023, from

https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/315353/
CTv60S2852021076.pdf

[4] Le James. (2016, August 18). The 10 Algorithms Machine Learning Engineers Need
to Know. KDnuggets. Retrieved May 14, 2023, from

http://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html

[5] Đức Trung. (2021, August 28). Đánh giá các mô hình học máy. Viblo. Retrieved May
14, 2023, from

https://viblo.asia/p/danh-gia-cac-mo-hinh-hoc-may-RnB5pp4D5PG

[6] Vietnam+. (2020, May 28). GBG sử dụng học máy và AI để phát hiện gian lận trong
giao dịch thẻ tín dụng, thanh toán số… | Thông cáo báo chí | Vietnam+. VietnamPlus.
Retrieved May 29, 2023, from

30
https://www.vietnamplus.vn/gbg-su-dung-hoc-may-va-ai-de-phat-hien-gian-lan-trong-
giao-dich-the-tin-dung-thanh-toan-so/642600.vnp

[7] Nguyễn Thị Liên, Nguyễn Thị Trang, & Nguyễn Chiến Thắng. (2018, 10). Phương
pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu thực nghiệm.
Retrieved May 16, 2023, from

https://ktpt.neu.edu.vn/tap-chi/so-256ii/muc-luc-661/phuong-phap-hoc-may-trong-phat-
hien-gian-lan-the-tin-dung-mot-nghien-cuu-thuc-nghiem.378964.aspx

[8] Hồ Quang Thái. (2018, June 1). Làm thế nào Machine Learning có thể cải thiện phát
hiện gian lận trong thời gian thực. HelpEx. Retrieved May 16, 2023, from

https://helpex.vn/article/lam-the-nao-machine-learning-co-the-cai-thien-phat-hien-gian-
lan-trong-thoi-gian-thuc-5c6643afae03f60128765725

[9] akaBot. (2022, January 5). 7 Trường Hợp Sử Dụng Machine Learning Trong Ngân
Hàng. akaBot. Retrieved May 17, 2023, from

https://akabot.com/vi/tai-nguyen/blog/machine-learning-trong-ngan-hang/

[10] Hoàng Thị Thúy, & Lê Thị Xuân Thu. (2021, March 5). Phát hiện gian lận thẻ tín
dụng bằng học máy. Cơ sở dữ liệu quốc gia về Khoa học và Công nghệ. Retrieved May
17, 2023, from

https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/315353/
CTv60S2852021076.pdf

[11] Nguyễn Thị Loan Hồng. (2018). Một số thuật toán ứng dụng trong phát hiện gian
lận thanh toán thẻ tín dụng. Tạp chí Khoa học Tài nguyên và Môi trường - Số 22.
Retrieved May 18, 2023, from

https://vjol.info.vn/index.php/hunre/article/view/40424/32473

[12] Jonathan Kwaku Afriyie a, Kassim Tawiah, Wilhemina Adoma Pels a, Sandra
Addai-Henne, Harriet Achiaa Dwamena, Emmanuel Odame Owiredu, Samuel Amening

31
Ayeh, & John Eshun. (2023, January 14). A supervised machine learning algorithm for
detecting and predicting fraud in credit card transactions. Retrieved May 20, 2023, from

https://www.sciencedirect.com/science/article/pii/S2772662223000036

[13] Vaishnavi Nath Dornadula, & S Geetha. (2019). Credit Card Fraud Detection using
Machine Learning Algorithms. Retrieved May 20, 2023, from

https://www.sciencedirect.com/science/article/pii/S187705092030065X?via%3Dihub

[14] Waleed Hilal, S. Andrew Gadsden, & John Yawney. (2022, May 1). Financial
Fraud: A Review of Anomaly Detection Techniques and Recent Advances. Retrieved May
22, 2023, from

https://www.sciencedirect.com/science/article/pii/S0957417421017164?via%3Dihub

[15] Sumit Misra, Soumyadeep Thakur, Manosij Ghosh, & Sanjoy Kumar Saha. (2020).
An Autoencoder Based Model for Detecting Fraudulent Credit Card Transaction.
Retrieved May 22, 2023, from

https://www.sciencedirect.com/science/article/pii/S1877050920306840

[16] Xuan, S., Liu, G., Li, Z., Zheng, L., Wang, S., & Jiang, C. (2018, March). Random
forest for credit card fraud detection. In 2018 IEEE 15th international conference on
networking, sensing and control (ICNSC) (pp. 1-6). IEEE. Retrieved May 22, 2023, from

https://scholar.google.com/scholar_lookup?title=Random%20forest%20for%20credit
%20card%20fraud%20detection&publication_year=2018&author=S.
%20Xuan&author=S.%20Wang

[17] Tyagi, R., Ranjan, R., & Priya, S. (2021, November). Credit Card Fraud Detection
Using Machine Learning Algorithms. In 2021 Fifth International Conference on I-SMAC
(IoT in Social, Mobile, Analytics and Cloud)(I-SMAC) (pp. 334-341). IEEE. Retrieved
May 23, 2023, from

32
https://scholar.google.com/scholar?q=R.%20Tyagi,%20R.%20Ranjan,%20S.%20Priya,
%20Credit%20card%20fraud%20detection%20using%20machine%20learning
%20algorithms.%20%20334341.

[18] Tran, T. C., & Dang, T. K. (2021, January). Machine learning for prediction of
imbalanced data: Credit fraud detection. In 2021 15th International Conference on
Ubiquitous Information Management and Communication (IMCOM) (pp. 1-7). IEEE.
Retrieved May 23, 2023, from

https://scholar.google.com/scholar_lookup?title=Machine%20learning%20for
%20prediction%20of%20imbalanced%20data%20%3A%20Credit%20fraud
%20detection.%20Ml&publication_year=2021&author=T.C.%20Tran&author=B.T.
%20District&author=H.%20Chi&author=M.%20City&author=T.K.
%20Dang&author=H.%20Chi&author=M.%20City&author=L.T.
%20Ward&author=T.D.%20District&author=H.%20Chi&author=M.%20City

[19] Awoyemi, J. O., Adetunmbi, A. O., & Oluwadare, S. A. (2017, October). Credit card
fraud detection using machine learning techniques: A comparative analysis. In 2017
international conference on computing networking and informatics (ICCNI) (pp. 1-9).
IEEE. Retrieved May 23, 2023, from

https://scholar.google.com/scholar?q=Awoyemi,%20John%20O.,%20et%20al.%20Credit
%20Card%20Fraud%20Detection%20Using%20Machine%20Learning%20Techniques:
%20A%20Comparative%20Analysis.%202017%20International%20Conference%20on
%20Computing%20Networking%20and%20Informatics
%20,%202017,%20doi:10.1109iccni.2017.8123782.

[20] Zou, J., Zhang, J., & Jiang, P. (2019). Credit card fraud detection using autoencoder
neural network. arXiv preprint arXiv:1908.11553. Retrieved May 25, 2023, from

https://scholar.google.com/scholar?q=Jiang,%20P.,%20Zhang,%20J.,%20%20Zou,%20J.
%20.%20Credit%20Card%20Fraud%20Detection%20Using%20Autoencoder%20Neural
%20Network.%20Retrieved%20from%20arXiv:1908.11553.
33

You might also like