You are on page 1of 39

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT

ĐỒ ÁN CUỐI KỲ - HK2 (2022-2023)


MÔN HỌC PHÂN TÍCH DỮ LIỆU

ĐỀ TÀI: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ


LIỆU VÀ XÂY DỰNG MÔ HÌNH PHÁT HIỆN
GIAN LẬN GIAO DỊCH QUA THẺ TÍN DỤNG

Mã lớp học phần: 222MI2101

Nhóm thực hiện: Nhóm ACCTV

Giảng viên hướng dẫn: TS. Nguyễn Thôn Dã

Thành phố Hồ Chí Minh, tháng 5 năm 2023


DANH SÁCH THÀNH VIÊN

Mã số sinh viên Họ và tên Địa chỉ email
K214142056 Trần Tất Anh anhtt21414@st.uel.edu.vn
K214142057 Lê Phước Hồng Cẩm camlph21414@st.uel.edu.vn
K214142058 Nguyễn Đình Chương chuongnd21414@st.uel.edu.vn
K214142091 Trần Bảo Trân trantb21414@st.uel.edu.vn
K214142100 Trần Ý Vy vyty21414@st.uel.edu.vn
MỤC LỤC
DANH MỤC BẢNG..................................................................................................1

DANH MỤC HÌNH ẢNH.........................................................................................2

TÓM TẮT..................................................................................................................3

PHẦN 1: GIỚI THIỆU.............................................................................................4

1.1. Lý do chọn đề tài..................................................................................................4

1.2. Mục đích nghiên cứu............................................................................................4

1.3. Phương pháp nghiên cứu......................................................................................4

PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN.........................................................5

PHẦN 3: NỀN TẢNG LÝ THUYẾT.......................................................................8

3.1. Học máy (Machine Learning)..............................................................................8

3.2. Phương pháp cân bằng dữ liệu SMOTE..............................................................9

3.3. Mô hình K-Nearest Neighbors Classifier.............................................................9

3.4. Mô hình Decision Tree Classifier......................................................................10

3.5. Mô hình Random Forest Classifier....................................................................10

3.6. Mô hình XGBoost..............................................................................................10

PHẦN 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU...............................12

4.1. Hiểu dữ liệu........................................................................................................12

4.2. Xử lý dữ liệu......................................................................................................13

4.3. Khai phá dữ liệu.................................................................................................13

4.3.1. Phần trăm điểm dữ liệu giao dịch gian lận....................................................13

4.3.2. Khám phá dữ liệu của “amt”.........................................................................14

4.3.3. Khám phá dữ liệu về thời gian giao dịch........................................................16
4.3.4. Khám phá dữ liệu của “gender”...................................................................19

4.3.5. Khám phá dữ liệu của ‘age’...........................................................................20

4.3.6. Khám phá dữ liệu của ‘job’............................................................................22

4.3.7. Khám phá dữ liệu của ‘category’...................................................................22

PHẦN 5: XÂY DỰNG CÁC MÔ HÌNH PHÁT HIỆN CÁC GIAO DỊCH GIAN
LẬN...............................................................................................................................24

5.1. Cân bằng dữ liệu................................................................................................24

5.2. So sánh các mô hình...........................................................................................24

5.2.1. Ưu điểm của mô hình XGBoost......................................................................27

5.2.2. Nhược điểm của mô hình XGBoost.................................................................28

5.2.3. Hướng phát triển............................................................................................28

PHẦN 6: KẾT LUẬN.............................................................................................30

TÀI LIỆU THAM KHẢO......................................................................................31


DANH MỤC BẢNG

Bảng 4.3.2: Bảng thống kê mô tả dữ liệu ‘amt’........................................................15

Bảng 5.2: So sánh các mô hình 1..............................................................................24

Bảng 5.2: So sánh các mô hình 2..............................................................................25

1
DANH MỤC HÌNH ẢNH

Hình 4.1 Biểu đồ cột số lần giao dịch bình thường - gian lận..................................14

Hình 4.2 Biểu đồ cột khai phá dữ liệu của “amt”.....................................................16

Hình 4.3 Biểu đồ cột thời gian giao dịch theo giờ trong ngày..................................17

Hình 4.4 Biểu đồ cột thời gian giao dịch theo ngày trong tuần................................18

Hình 4.5 Biểu đồ cột thời gian giao dịch theo tháng trong năm...............................19

Hình 4.6 Biểu đồ cột khai phá dữ liệu của “gender”................................................20

Hình 4.7 Biểu đồ cột khai phá dữ liệu của “age”......................................................21

Hình 4.8 Biểu đồ cột khai phá dữ liệu của “job”......................................................22

Hình 4.9 Biểu đồ cột khai phá dữ liệu của “category”..............................................23

Hình 5.1 Biểu đồ cột cân bằng dữ liệu với SMOTE.................................................24

2
TÓM TẮT

Trong thời đại công nghệ hóa – hiện đại hóa ngày càng phát triển, hoạt động thanh
toán qua thẻ tín dụng đã dần thay thế phương thức thanh toán truyền thống, trở thành
tiện ích tất yếu trong đời sống hằng ngày. Chỉ với một tấm thẻ nhỏ trong lòng bàn tay,
khách hàng có thể thực hiện giao dịch ở mọi lúc, mọi nơi cho toàn bộ hoạt động mua
sắm của mình. Tuy nhiên, đi kèm với những tiện lợi đó là rủi ro tiềm ẩn gây ra tổn thất
tài chính lớn bởi doanh nghiệp bán hàng không thể kiểm tra ở đầu thẻ bên kia có phải -
chủ thẻ hay một ai khác. Hơn thế nữa, số lượng tội phạm công nghệ cao tăng nhanh
chóng mặt với nhiều thủ đoạn tinh vi, lợi dụng lỗ hổng của hàng rào bảo mật thẻ tín
dụng non trẻ nhằm chiếm đoạt tài sản.

Trong bài nghiên cứu này, nhóm đã tập trung xây dựng mô hình phát hiện giao dịch
qua thẻ tín dụng bằng phương pháp SMOTE, các mô hình K-Nearest Neighbors
Classifier, Random Forest Classifier, Decision Tree Classifier, XGBoost nhằm lựa
chọn ra mô hình phù hợp dựa trên so sánh hiệu quả phát hiện gian lận. Kết quả cho
thấy mô hình XGBoost Classifier có chỉ số F1-Score cao nhất (tới 0.9946) và là mô
hình tối ưu nhất.

TỪ KHÓA: Giao dịch gian lận, gian lận thẻ tín dụng, phân tích dữ liệu,
trực quan hóa dữ liệu, học máy, mô hình

3
PHẦN 1: GIỚI THIỆU

1.1. Lý do chọn đề tài

Với sự phát triển vượt bậc của hệ thống công nghệ thông tin, các hình thức thanh
toán của ngân hàng ngày càng trở nên đa dạng. Trong đó, thẻ tín dụng được coi là
phương thức thanh toán nhanh chóng, tiện lợi và phổ biến nhất với mọi người. Song,
phát triển cùng với hình thức thanh toán này là các hình thức lừa đảo, gian lận giao
dịch tinh vi. Hình thức gian lận giao dịch thường là lừa đảo để đánh cắp thông tin thẻ
tín dụng của khách hàng để mua sắm, rút tiền hoặc thực hiện các giao dịch chuyển tiền
trực tuyến,... Điều này không những gây ra rủi ro cho người dùng thẻ như mất tiền, để
lộ thông tin cá nhân và các thông tin quan trọng khác; mà còn gây ảnh hưởng to lớn
đến tính an toàn và khả năng bảo mật của hệ thống thanh toán ngân hàng. Vì những lý
do trên, nhóm tác giả đã chọn đề tài “Phân tích, trực quan hóa dữ liệu và xây dựng mô
hình phát hiện gian lận giao dịch qua thẻ tín dụng” để nghiên cứu và phát hiện ra
những dấu hiệu đặc trưng thường có của một giao dịch gian lận.

1.2. Mục đích nghiên cứu

Mục đích đề tài là xây dựng một hệ thống phát hiện gian lận giao dịch qua thẻ tín
dụng hiệu quả giảm thiểu tổn thất tài chính cũng như tiết kiệm thời gian và công sức
trong việc xử lý các vụ gian lận. Hệ thống này sẽ giúp cho các ngân hàng và tổ chức
tài chính có thể nhanh chóng phát hiện các giao dịch có nghi vấn gian lận và kịp thời
ngăn chặn các hành vi lừa đảo.

1.3. Phương pháp nghiên cứu

Nhóm tác giả áp dụng phương pháp nghiên cứu là phân tích dữ liệu và xây dựng các
mô hình học máy để phát hiện những đặc trưng điển hình của một giao dịch gian lận

4
qua thẻ tín dụng. Phương pháp này sử dụng các kỹ thuật phân tích, trực quan hóa dữ
liệu và học máy để xác định các điểm gian lận và phát hiện các giao dịch bất thường.

PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN

Gian lận trong giao dịch thẻ tín dụng đang là vấn đề nhức nhối, ảnh hưởng đến tính
bảo mật của hệ thống thanh toán. Do đó, rất nhiều nghiên cứu đã được thực hiện về
chủ đề này. Các nghiên cứu đáng chú ý bao gồm:

 “GBG sử dụng máy học và trí tuệ nhân tạo để phát hiện gian lận trong giao dịch
thẻ tín dụng và thanh toán kỹ thuật số” (Vietnam+, 2020): Trong bài viết này, GBG sử
dụng máy học và trí tuệ nhân tạo để phát hiện gian lận thẻ tín dụng Hệ thống máy học
của GBG đã được sử dụng thành công để cảnh báo khách hàng về gian lận và cải thiện
khả năng phát hiện gian lận bị bỏ sót .

 “Phương pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu
thực nghiệm” (Nguyễn Thị Liên et al., 2018): Nghiên cứu này tập trung vào cách sử
dụng máy học trong các giao dịch thẻ để phát hiện gian lận thẻ tín dụng. tôi ở đây. Bài
viết này trình bày các nghiên cứu thực nghiệm sử dụng các kỹ thuật máy học như
Naive Bayes, K-Nearest Neighbors (KNN) và Support Vector Machine (SVM). Kết
quả nghiên cứu cho thấy các kỹ thuật máy học có thể phát hiện gian lận một cách hiệu
quả.

 “Làm thế nào Machine Learning có thể cải thiện phát hiện gian lận trong thời gian
thực” (Hồ Quang Thái, 2018): Bài viết tập trung vào lợi ích của máy học trong phát
hiện gian lận trong giao dịch thẻ tín dụng. Nó đề cập đến việc sử dụng máy học để chủ
động phát hiện gian lận và cải thiện độ chính xác của việc phát hiện gian lận.

 “Máy học trong ngân hàng” (akaBot, 2022): Bài viết tìm hiểu việc sử dụng máy
học trong ngành ngân hàng để cải thiện độ chính xác của việc phát hiện gian lận trong
các giao dịch thẻ tín dụng. Điều này nhấn mạnh cách học máy có thể giúp tiết kiệm
thời gian và cải thiện trải nghiệm của khách hàng.

5
 “Một số thuật toán ứng dụng trong phát hiện gian lận thanh toán thẻ tín dụng”
(Nguyễn Thị Hồng Loan, 2018): Khai phá dữ liệu là một trong những kỹ thuật được
ứng dụng trong các hệ thống ngân hàng. Bài báo trình bày 1 số thuật toán trong khai
phá được đánh giá là hiệu quả nhất trong các hệ thống phát hiện gian lận giao dịch thẻ
tín dụng.

 “Phương pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu
thực nghiệm” (Nguyễn Thị Liên, Nguyễn Thị Thu Trang, Nguyễn Chiến Thắng,
2018): Nghiên cứu giới thiệu các phương pháp thống kê và học máy để phát hiện gian
lận thẻ tín dụng tại ngân hàng thương mại. Nghiên cứu ứng dụng các mô hình như mô
hình Logistic, mạng Bayes (Bayesian Network), cây quyết định (Decision trees),
phương pháp Stacking (Stacked generalization). Ngoài ra, nghiên cứu cũng đưa ra một
số cách xử lý trong trường hợp dữ liệu mất cân bằng. Thông qua kết quả so sánh các
mô hình và xử lý dữ liệu mất cân bằng.

 “A supervised machine learning algorithm for detecting and predicting fraud in


credit card transactions. A supervised machine learning algorithm for detecting and
predicting fraud in credit card transactions” (Jonathan Kwaku Afriyie a et al., 2023):
Bài viết đề xuất một phương pháp học máy có giám sát để phát hiện gian lận trong
giao dịch thẻ tín dụng. Nghiên cứu tập trung vào việc áp dụng các thuật toán Random
Forests để xử lý gian lận và xác định độ chính xác của phương pháp.

 “Credit Card Fraud Detection using Machine Learning Algorithms.” (Vaishnavi


Nath Dornadula & S Geetha, 2019): Bài viết đề xuất một phương pháp học máy có
giám sát để phát hiện gian lận trong giao dịch thẻ tín dụng. Nghiên cứu tập trung vào
việc áp dụng các thuật toán Random Forests để xử lý gian lận và xác định độ chính xác
của phương pháp.

 “Review of Anomaly Detection Techniques and Recent Advances” (Waleed Hilal


et al., 2022): Bài viết tập trung vào việc áp dụng phương pháp học máy có giám sát
trong việc phát hiện gian lận trong giao dịch thẻ tín dụng. Nghiên cứu đề xuất một mô
hình kết hợp dựa trên Support Vector Machine (SVM) và Bayesian Optimization để

6
tăng cường hiệu suất phát hiện gian lận trong giao dịch thẻ tín dụng. Ngoài ra, bài viết
cũng tiếp cận vấn đề của bất cân xứng dữ liệu và đề xuất một phương pháp chuyển đổi
dữ liệu bất cân xứng để cải thiện hiệu suất phát hiện.

 “A Neural Network Ensemble With Feature Engineering for Improved Credit Card
Fraud Detection” (E. Esenogho, I. D. Mienye, T. G. Swart, K. Aruleba and G. Obaido,
2022). Bài viết này đề xuất một cách tiếp cận hiệu quả để phát hiện gian lận bằng cách
sử dụng thuật toán neural network ensemble classifier và phương pháp lấy mẫu lại dữ
liệu lại. Hiệu quả của nghiên cứu được chứng thực khi đem so sánh với các thuật toán
khác: support vector machine (SVM), multilayer perceptron (MLP), decision tree,
traditional AdaBoost, và LSTM. Kết quả thử nghiệm cho thấy rằng kết quả gian lận
giao dịch chính xác hơn khi được huấn luyện với dữ liệu lấy mẫu lại và nhóm LSTM
hoạt động tốt hơn các thuật toán khác thông qua độ nhạy 0,996.

Tất cả các nghiên cứu này đều tập trung vào việc phát hiện và ngăn chặn các giao
dịch thẻ tín dụng gian lận. Để đạt được điều này, nghiên cứu đã sử dụng các kỹ thuật
phân tích dữ liệu, học máy và khai thác dữ liệu. Tuy nhiên, những nghiên cứu này
cũng chỉ ra một số thách thức và hạn chế trong việc phát hiện các giao dịch gian lận
như độ phức tạp của dữ liệu, khó khăn trong việc xác định các điểm giao dịch bất
thường và độ chính xác của các mô hình.

7
PHẦN 3: NỀN TẢNG LÝ THUYẾT
3.1. Học máy (Machine Learning)
Học máy (Machine Learning) là một công nghệ phát triển từ trí tuệ nhân tạo, sử
dụng các thuật toán do con người lập trình để giải quyết các vấn đề cụ thể như tính
toán, mô phỏng, xử lý lượng thông tin lớn. Do nhiều tiện ích, học máy đã được ứng
dụng phổ biến như lọc thư điện tử, nhận diện khuôn mặt, khuyến cáo sản phẩm và đặc
biệt nhất phải kể đến phát hiện giao dịch gian lận qua thẻ tín dụng. Tuy nhiên, học máy
vẫn cần đòi hỏi sự khéo léo của con người trong tìm hiểu và lựa chọn kĩ thuật phù hợp
để phân tích dữ liệu. Đồng thời, trước khi sử dụng, dữ liệu phải sạch, không có sai lệch
và không có dữ liệu giả. Do đó trong nghiên cứu, nhóm đã tiến hành kiểm tra dữ liệu
thiếu hoặc trùng nhau, kiểm tra số lượng giá trị duy nhất trong bộ dữ liệu và bóc tách
chuyên sâu trong việc khám phá nhằm giảm thiểu sai sót.
Học máy có 2 loại bao gồm học có giám sát (supervised learning) và học không
giám sát (unsupervised learning). Trong học có giám sát, máy tính học cách mô hình
hóa các mối quan hệ dựa trên dữ liệu được gán nhãn (labeled data). Ngược lại với học
không giám sát máy tính không được cung cấp dữ liệu được dán nhãn mà thay vào đó
chỉ được cung cấp dữ liệu mà thuật toán tìm cách mô tả dữ liệu và cấu trúc của chúng
và trả lại biến đầu ra. Tùy thuộc vào biến đầu ra là rời rạc hay liên tục mà chúng ta có
thể phân biệt hai nhiệm vụ được giám sát: phân loại (classification) hay hồi quy
(regression). Phát hiện gian lận giao dịch qua thẻ tín dụng thuộc nhóm đầu tiên vì các
đầu ra được phân thành hai loại là có gian lận (fraud) hoặc không gian lận (non-fraud).
Dữ liệu trong các thuật toán thuộc nhánh "không giám sát" chỉ có đầu vào mà không
cần đầu ra vì ứng dụng chủ yếu của nó chỉ để khám phá cấu trúc và mối quan hệ dữ
liệu với nhau
Một số thuật toán sử dụng phổ biển để phát hiện các gian lận giao dịch ngày nay
bao gồm:
 Artificial neutron network
 Random Forest

8
 K-Nearest Neighbors
 Fuzzy Logic
 Decision Tree
 XGBoost
 Support vector machine

Trong bài báo cáo này, nhóm chủ yếu tập trung so sánh và phân tích 4 mô hình
chính là mô hình K-Nearest Neighbors, mô hình Random Forest, mô hình Decision
Tree và mô hình XGBoost.

3.2. Phương pháp cân bằng dữ liệu SMOTE

Mất cân bằng dữ liệu là một trong những hiện tượng phổ biến của bài toán phát hiện
gian lận, phát hiện rủi ro tiềm ẩn,...Khi xảy ra hiện tượng mất cân bằng nghiêm trọng,
tức tỷ lệ lớn hơn 90:10 sẽ ảnh hưởng đến kết quả dự báo, giảm chất lượng của mô hình
phân loại vì kết quả sẽ tương ứng với lớp đa số và lớp thiểu số lúc này đóng vai trò
như "nhiễu" tạo nên sai lệch đáng kể. Do đó vấn đề đặt ra là phải cân bằng dữ liệu. Ở
bài toán phát hiện gian lận giao dịch này, nhóm tập trung vào phương pháp SMOTE
(Synthetic Minority Oversampling Technique). Thuật toán này giúp khắc phục vấn đề
overfitting do lấy mẫu quá mức ngẫu nhiên. SMOTE hoạt động bằng các tạo ra các
mẫu tổng hợp từ các lớp thiểu số thay cho việc tạo ra các bản sao. Thuật toán chọn 2
hay nhiều trường hợp giống nhau (sử dụng thước đo khoảng cách để so sánh) và xáo
trộn một cá thể một thuộc tính tại một thời điểm bằng một lượng ngẫu nhiên trong
khoảng chênh lệch với các trường hợp lân cận.

3.3. Mô hình K-Nearest Neighbors Classifier

Đúng như tên gọi thuật toán K-láng giềng gần nhất là một kĩ thuật phân loại học có
giám sát (supervised learning) dùng để phân loại quan sát mới bằng cách tìm điểm
tương đồng giữa quan sát mới này với dữ liệu sẵn có. Ý tưởng bắt nguồn từ việc K-
Nearest Neighbors Classifier cho rằng các dữ liệu tương tự nhau sẽ tồn tại gần nhau

9
trong cùng một không gian, việc của người phân tích chỉ tìm k điểm gần với dữ liệu
cần kiểm tra thông qua tính toán khoảng cách.

3.4. Mô hình Decision Tree Classifier

Trong thực tế có nhiều mô hình học máy được thiết kế dưới dạng câu hỏi nhằm đưa
ra quyết định cuối cùng. Các câu hỏi sẽ được hệ thống như một cái cây nhị phân bao
gồm các nhánh nhỏ và dựa vào đặc tính của dữ liệu để đưa ra dự báo True (đúng) hoặc
False (Sai). Ở bài toán phát hiện gian lận, mô hình sẽ tính điểm tương tác giữa các dữ
liệu như tuổi tác, giới tính, ngành nghề, ngày giờ giao dịch nhằm phát hiện ra sự bất
thường và đưa ra dự đoán có gian lận hay không. Mô hình này đưa ra dự báo nhanh và
tiện lợi tuy nhiên lại dễ xảy ra overfitting (tạo ra những cây quá khớp với dữ liệu huấn
luyện hay quá phức tạp) và không xử lý được nhiều dữ liệu bùng nổ như hình ảnh,
video, âm thanh,...

3.5. Mô hình Random Forest Classifier

Dựa trên mô hình Decision Tree. Dù có độ chính xác khá cao nhưng mô hình này
luôn tồn tại những sai lệch không đáng có vì thế mô hình random forest đã được thay
thế nhằm loại bỏ sai lệch này thông qua việc tích hợp nhiều cây quyết định trên các
mẫu dữ liệu được chọn ngẫu nhiên. Thuật toán của Random Forest hoạt động dựa trên
việc bỏ phiếu các kết quả dự đoán và chọn ra kết quả được dự đoán nhiều nhất sau
cùng. Nhờ đó đây được coi là phương pháp chính xác và không bị overfitting. Random
forests cũng có thể xử lý các dữ liệu thiếu sót (null) bằng cách tính toán giá trị trung
bình để thay thế biến liên tục hoặc tính toán khoảng cách trung bình gần nhất của các
giá trị bị thiếu

3.6. Mô hình XGBoost

XGBoost (Extreme Gradient Boosting) là một giải thuật được base trên gradient
boosting, tuy nhiên kèm theo đó là những cải tiến to lớn về mặt tối ưu thuật toán khi

10
kết hợp mô hình giữa các cây quyết định, làm giảm các sai số khi huấn luyện (Training
Loss), chuẩn hóa các sai số, hệ số biến (Regularization) và xử lý nhanh gọn dữ liệu ở
mọi kích thước, định dạng bao gồm cả categorical thường tìm thấy nhiều trong
business model. Mô hình này được ứng dụng để giải quyết mọi vấn đề từ hồi quy đến
phân loại. Có thể nói trong trường hợp nghiên cứu gian lận giao dịch qua thẻ tín dụng,
mô hình XGBoost là phù hợp và tối ưu nhất.

11
PHẦN 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU

Trong thực tế, việc thu thập dữ liệu mô tả hành vi giao dịch của khách hàng qua thẻ
tín dụng là rất khó khăn do đây là những thông tin cá nhân của người dùng mà ngân
hàng phải có trách nhiệm bảo mật chặt chẽ, an toàn. Vì vậy, bộ dữ liệu được nhóm tác
giả sử dụng trong đề tài này được lấy từ website Kaggle do tác giả Brandon Harris sử
dụng công cụ Sparkov Data Generation | Github để tiến hành xây dựng mô phỏng các
giao dịch (gồm giao dịch bình thường và gian lận) trong khoảng thời gian từ
01/01/2019-31/12/2020 của hơn 1000 khách hàng thực hiện giao dịch với nhóm 800
người nhận tiền ở Mỹ. Song, do bộ dữ liệu khá lớn nên ở đây tác giả chỉ trích xuất
những loại giao dịch trong biến “category” có kết thúc bằng “net” hoặc “pos” để thực
hiện việc nghiên cứu đề tài.

4.1. Hiểu dữ liệu

Bộ dữ liệu bao gồm 13 biến như sau:

 trans_date_trans_time: Thời gian giao dịch

 cc_num: Mã số thẻ tín dụng

 merchant: Tên người nhận

 category: Lĩnh vực giao dịch

 amt: Số tiền giao dịch

 first: Tên của chủ thẻ tín dụng

 last: Họ của chủ thẻ tín dụng

 gender: Giới tính

 street: Địa chỉ giao dịch

 city: Thành phố giao dịch

12
 job: Công việc

 dob: Ngày sinh

 is_fraud: Loại giao dịch (1 là gian lận, 0 là bình thường)

Ở đây, biến "is_fraud" là biến mục tiêu của nhóm tác giả.

4.2. Xử lý dữ liệu

Nhóm tác giả đã tiến hành quá trình xử lý và làm sạch dữ liệu theo các bước sau:

- Bước 1: Đếm số dòng dữ liệu.

- Bước 2: Kiểm tra xem có cột nào bị thiếu dữ liệu.

- Bước 3: Kiểm tra xem có dòng dữ liệu nào trùng nhau.

- Bước 4: Kiểm tra số lượng giá trị duy nhất trong bộ dữ liệu.

- Bước 5: Chuyển đổi cột “trans_date_trans_time” thành định dạng datetime.

- Bước 6: Tách cột “trans_date_trans_time” thành các cột “trans_hour”,


“trans_day_of_week”, “trans_year_month”.

- Bước 7: Tìm tuổi của khách hàng tại thời điểm giao dịch.

- Bước 8: Xóa bỏ các cột “trans_date_trans_time”, “dob”, “first”, “last” ra khỏi bộ


dữ liệu.

- Bước 9: Chỉ lấy các dòng dữ liệu có đuôi "net" hoặc "pos" trong cột “category”.

- Bước 10: Xem lại bộ dữ liệu sau khi đã xử lý.

4.3. Khai phá dữ liệu

4.3.1. Phần trăm điểm dữ liệu giao dịch gian lận

13
Hình 4.1 Biểu đồ cột số lần giao dịch bình thường - gian lận

Nguồn: Nhóm tác giả thực hiện

Ta thấy rằng, tỷ lệ phần trăm của giao dịch gian lận chỉ chiếm khoảng 0,96% nhưng
tỷ lệ phần trăm của các giao dịch bình thường lên tới 99,04%. Do đó, đây là một bộ dữ
liệu mất cân bằng nghiêm trọng nên nhóm tác giả sẽ tiến hành cân bằng dữ liệu ở phần
5 của bài nghiên cứu này để phục vụ việc xây dựng các mô hình không bị thiên vị.

4.3.2. Khám phá dữ liệu của “amt”

14
Row Overall Amt Non-Fraud Amt Fraud Amt
Type Distribution Distribution Distribution

1 count 751737.000000 744555.000000 7182.000000

2 mean 84.750868 79.050045 675.752904

3 std 173.579039 161.005005 337.101827

4 min 1.000000 1.000000 5.600000

5 25% 6.470000 6.410000 318.725000

6 50% 39.970000 38.970000 794.945000

7 75% 104.520000 102.950000 954.205000

8 max 9754.720000 9754.720000 1376.040000

Bảng thống kê mô tả dữ liệu “amt”

Nguồn: Nhóm tác giả thực hiện

Qua bảng trên thống kê trên, ta thấy số tiền trung bình của giao dịch được cho là
bình thường ít hơn rất nhiều so với tiền trung bình của giao dịch được cho là gian lận.
Không chỉ vậy, độ dao động của các giao dịch bình thường chỉ tầm khoảng 161 USD,
trong khi đó các giao dịch gian lận phải chênh lệch tới gấp đôi.

15
Hình 4.2 Biểu đồ cột khai phá dữ liệu của “amt”

Nguồn: Nhóm tác giả thực hiện

Quan sát trực quan, tác giả thấy rằng tổng số tiền giao dịch và số tiền của giao dịch
không có gian lận có phân phối tương tự nhau. Tuy nhiên, phân phối số tiền bị nghi
ngờ gian lận có xu hướng lớn hơn so với các phân phối khác. Về định lượng, tác giả
thấy trong khi số tiền của các giao dịch được cho là không gian lận trung chủ yếu
quanh giá trị 250 USD đổ lại, thì số lượng tiền của giao dịch bị nghi ngờ gian lận lại
đạt đỉnh cao vào khoảng 300 USD, sau đó tập trung mạnh vào khoảng từ 700 đến
1.100 USD. Điều này cho thấy rằng các giao dịch gian lận thường có giá trị cao hơn
các giao dịch không gian lận cũng như lượng tiền giao dịch cũng trải dài ở một phạm
vi rộng hơn.

4.3.3. Khám phá dữ liệu về thời gian giao dịch

 Thời gian trong 1 ngày:

16
Hình 4.3 Biểu đồ cột thời gian giao dịch theo giờ trong ngày

Nguồn: Nhóm tác giả thực hiện

Các giao dịch bình thường được phân bổ tương đối đều trong ngày. Tuy nhiên, khi
xem xét các giao dịch được cho là gian lận, chúng có xu hướng tập trung vào những
giờ khuya từ khoảng 10 giờ tối đến 3 giờ sáng - khoảng thời gian hầu hết mọi người
đang ngủ. Điều này cho thấy những kẻ lừa đảo thường tận dụng thời điểm đêm khuya,
lúc mà những người khác ít quan tâm và theo dõi chặt chẽ đến các giao dịch của họ.
Việc hành động vào ban đêm thường làm giảm sự chú ý và giám sát của chủ thẻ nên
các giao dịch gian lận có thể thực hiện một cách trơn tru, khó có thể bị phát hiện một
cách nhanh chóng.

 Thời gian trong 1 tuần:

17
Hình 4.4 Biểu đồ cột thời gian giao dịch theo ngày trong tuần

Nguồn: Nhóm tác giả thực hiện

Nhìn vào sự phân bố các giao dịch, tác giả thấy rằng các giao dịch được coi là bình
thường có xu hướng tập trung vào thứ hai và chủ nhật, trong khi các giao dịch gian lận
có xu hướng phân bổ đều trong tuần. Điều này thể hiện sự khác biệt trong hành vi giữa
các giao dịch bình thường và gian lận. Các giao dịch bình thường thường tập trung vào
đầu hoặc cuối tuần khi mọi người có nhiều hoạt động hơn như là mua sắm, đi chơi,
cafe với gia đình, bạn bè,... nên thường có nhu cầu sử dụng thẻ tín dụng cao hơn so với
các ngày trong tuần. Mặt khác, các giao dịch gian lận thường không ưu tiên bất kỳ
ngày cụ thể nào, vì vậy chúng có thể được thực hiện vào bất kỳ ngày nào trong tuần.

 Thời gian trong 1 năm:

18
Hình 4.5 Biểu đồ cột thời gian giao dịch theo tháng trong năm

Nguồn: Nhóm tác giả thực hiện

Khi phân tích về các giao dịch, tác giả quan sát thấy các giao dịch được coi là bình
thường có xu hướng tăng đáng kể vào tháng 12 và tập trung cao vào cuối mùa xuân và
đầu mùa hè. Mặt khác, các giao dịch gian lận lại tuân theo các xu hướng riêng biệt
theo mùa. Sự gia tăng của các giao dịch bình thường trong tháng 12 có thể được giải
thích bằng sự gia tăng hoạt động mua sắm trong dịp lễ Giáng sinh. Vào thời điểm này,
mọi người thường chi nhiều tiền hơn cho quà tặng, du lịch và các hoạt động giải trí. Sự
gia tăng này có thể tiếp tục vào đầu mùa hè khi mọi người chuẩn bị cho kỳ nghỉ hè và
các hoạt động ngoài trời. Mặt khác, sự phân phối các giao dịch gian lận được phát hiện
là không đồng đều giữa các mùa, có sự tăng lên vào những thời điểm như kỳ nghỉ lễ,
mùa mua sắm hoặc các sự kiện đặc biệt khác. Điều này có thể là do những kẻ lừa đảo
đang cố gắng che giấu hoạt động gian lận của chúng bằng cách lợi dụng mật độ người
dùng và lưu lượng giao dịch cao trong những khoảng thời gian này.

19
4.3.4. Khám phá dữ liệu của “gender”

Hình 4.6 Biểu đồ cột khai phá dữ liệu của “gender”

Nguồn: Nhóm tác giả thực hiện

Dữ liệu dường như cho thấy rằng nữ và nam có xu hướng bị tội phạm gian lận giao
dịch tấn công như nhau. Do đó, giới tính không phải là một yếu tố để phát hiện một
giao dịch có phải là gian lận hay không.

4.3.5. Khám phá dữ liệu của “age”

20
Hình 4.7 Biểu đồ cột khai phá dữ liệu của “age”

Nguồn: Nhóm tác giả thực hiện

Trong các giao dịch được cho là bình thường, ta quan sát được hai đỉnh phân phối
độ tuổi. Đỉnh đầu tiên là ở nhóm tuổi 30-35, phản ánh nhóm người trẻ tuổi đang tham
gia vào các hoạt động tài chính như vay mượn, mua sắm và đầu tư. Đỉnh cao thứ hai là
trong độ tuổi từ 45-50, phản ánh nhóm người trưởng thành có thu nhập ổn định và
quan tâm đến việc quản lý tài chính cá nhân. Mặt khác, trong phân bố độ tuổi của các
giao dịch bị nghi ngờ gian lận thì đỉnh đầu tiên vẫn là khoảng 30-35 tuổi (như giao
dịch bình thường), nhưng đỉnh thứ hai đã dịch chuyển vào khoảng 50-60 tuổi. Điều
này cho thấy rằng những người lớn tuổi, đặc biệt là những người gần 60 tuổi, có khả
năng dễ bị lừa đảo hơn. Một số giải thích có thể cho hiện tượng này là những người
lớn tuổi được cho là dễ bị lừa đảo hơn do họ thiếu kinh nghiệm về công nghệ, quá dễ
tin tưởng vào người khác và ít được trang bị những kiến thức về các hình thức lừa đảo

21
mới nhất. Những kẻ lừa đảo có thể cố gắng lợi dụng nhóm người này bằng cách sử
dụng thủ đoạn gian lận tinh vi như gọi điện thoại, gửi email không có thật hoặc đưa ra
những đề nghị không trung thực để chiếm đoạt tài sản, mã số thẻ tín dụng của họ.

4.3.6. Khám phá dữ liệu của “job”

Hình 4.8 Biểu đồ cột khai phá dữ liệu của “job”

Nguồn: Nhóm tác giả thực hiện

Dựa vào biểu đồ, top 20 các nghề nghiệp như Broadcast journalist, Industrial buyer,
Personnel officer,... có tỷ lệ phần trăm giao dịch được coi là gian lận đạt 100%. Điều
này cho thấy những ngành nghề này thường ít sử dụng giao dịch bằng thẻ tín dụng và
thường không đề phòng đối với việc xâm nhập thông tin thẻ tín dụng. Do đó, họ dễ
dàng trở thành đối tượng chính mà tội phạm gian lận giao dịch nhắm đến.

4.3.7. Khám phá dữ liệu của “category”

22
Hình 4.9 Biểu đồ cột khai phá dữ liệu của “category”

Nguồn: Nhóm tác giả thực hiện

Một vài lĩnh vực cho thấy xảy ra nhiều gian lận hơn những lĩnh vực khác. Giao dịch
được cho là gian lận có xu hướng xảy ra thường xuyên hơn trong các lĩnh vực như
Shopping_net, Grocery_pos và Misc_net; trong khi Grocery_net, Shopping_pos,
Misc_pos hầu hết có xu hướng là các giao dịch bình thường.

23
PHẦN 5: XÂY DỰNG CÁC MÔ HÌNH PHÁT HIỆN CÁC
GIAO DỊCH GIAN LẬN
5.1. Cân bằng dữ liệu

Hình 5.1 Biểu đồ cột cân bằng dữ liệu với SMOTE

Nguồn: Nhóm tác giả thực hiện

5.2. So sánh các mô hình

Cohen's
Model Accuracy F1 Score Precision Recall
Kappa

1.K-Nearest
0.985622 0.985620 0.985877 0.985622 0.971245
Neighbors

24
2. Random Forest 0.968355 0.968354 0.968369 0.968355 0.936709

3. Decision Tree 0.979310 0.979309 0.979359 0.979310 0.958620

4. XGBoost 0.994643 0.994643 0.994644 0.994643 0.989287

Bảng so sánh các mô hình 1

Nguồn: Nhóm tác giả thực hiện

Nhóm tác giả đưa ra 3 tiêu chí tiêu biểu để so sánh, đánh giá và lựa chọn mô hình
tốt nhất cho bài nghiên cứu như sau:

Accuracy F1 score Cohen's Kappa

Accuracy giúp đo F1 score là một số đo Cohen's Kappa giúp đo


lường tỷ lệ dự đoán kết hợp giữa precision lường độ tin cậy của mô
chính xác của mô hình và recall và thường hình trong việc phân loại
trên toàn bộ dữ liệu, được sử dụng trong các các giao dịch thành gian
bao gồm cả các giao bài toán mất cân bằng lận và bình thường. Nó

Ý dịch gian lận và bình dữ liệu. Nó đo lường sự tính toán sự khác biệt giữa

nghĩa thường. cân bằng giữa độ chính độ chính xác quan sát
xác của dự đoán được và độ chính xác
positive và khả năng ngẫu nhiên dự đoán.
tìm ra tất cả các positive
instances.

Lý do Accuracy là tiêu chí F1 Score là một tiêu chí Cohen's Kappa là một tiêu
chọn đơn giản và dễ hiểu, đo quan trọng trong các bài chí đo lường sự đồng nhất
lường tỷ lệ dự đoán toán mất cân bằng dữ giữa dự đoán của mô hình

25
chính xác trên tổng số liệu như phát hiện gian và thực tế, điều chỉnh cho
mẫu. lận. Nó cân nhắc cả sự khớp ngẫu nhiên. Đây
precision và recall, giúp là một tiêu chí phù hợp
đo lường sự cân bằng trong trường hợp dữ liệu
giữa việc dự đoán đúng mất cân bằng.
gian lận và khả năng
tìm ra tất cả các giao
dịch gian lận.

T P+TN 2xPxR ' O A−E A


Accuracy= F 1 score= Cohe n sKappa=
TPre P+ R 1−E A

Trong đó: Trong đó: Trong đó


TP:True Positives P: Precision OA: Observed Accuracy
TN: True Negatives R: Recall là tỷ lệ các dự đoán chính
Công TPre: Total Prediction xác
thức EA: Expected Accuracy
là tỷ lệ dự đoán chính xác
trong trường hợp các dự
đoán ngẫu nhiên.

Lợi Accuracy là một chỉ số Đối với bài toán phát Cohen's Kappa đánh giá
ích quan trọng để đánh giá hiện gian lận, việc cân sự khớp giữa dự đoán của
tổng thể hiệu suất của nhắc cả precision và mô hình và thực tế, loại
mô hình. Nó cho thấy recall là rất quan trọng. trừ sự ảnh hưởng của việc
mức độ chính xác tổng F1 Score giúp bạn đánh phân loại ngẫu nhiên.
quan của mô hình giá khả năng của mô Điều này giúp bạn đánh
trong việc phân loại cả hình trong việc phát giá hiệu suất của mô hình

26
hai lớp giao dịch (gian hiện gian lận và đồng một cách chính xác hơn,
lận và bình thường). thời giảm thiểu khả đặc biệt trong trường hợp
Tuy nhiên, nếu dữ liệu năng có những giao dữ liệu mất cân bằng.
mất cân bằng, dịch gian lận bị bỏ sót
Accuracy có thể không hoặc có những giao
phản ánh chính xác dịch bình thường bị
hiệu suất của mô hình. phân loại nhầm là gian
lận.


hình
XGBoost (0.994643) XGBoost (0.994643) XGBoost (0.989287)
được
chọn

Bảng so sánh các mô hình 2

Bằng cách kết hợp cả 3 loại chỉ số Accuracy, F1 Score và Cohen's Kappa, tác giả có
cái nhìn toàn diện hơn về hiệu suất của mô hình trong việc phát hiện gian lận và đánh
giá khả năng cân bằng giữa precision, recall và độ chính xác tổng thể. Qua đó nhóm
tác giả kết luận mô hình XGBoost có kết quả tốt nhất và nên được chọn cho bài toán
phát hiện gian lận trong giao dịch thẻ tín dụng.

5.2.1. Ưu điểm của mô hình XGBoost

 Đạt kết quả tốt nhất trên tất cả các tiêu chí: accuracy, F1 score, precision, recall và
Cohen's Kappa.

 Hiệu suất cao: XGBoost được xây dựng trên cơ sở Gradient Boosting Framework,
có khả năng xử lý hiệu quả các bài toán phức tạp và dữ liệu lớn. Nó thường có

27
hiệu suất cao hơn so với các mô hình truyền thống khác như Decision Tree hay
Random Forest.

 Khả năng xử lý dữ liệu mất cân bằng: XGBoost có thể xử lý tốt các vấn đề liên
quan đến mất cân bằng dữ liệu, như trong trường hợp của bạn khi sử dụng phương
pháp SMOTE để cân bằng dữ liệu. Nó có thể điều chỉnh trọng số cho các lớp thiểu
số và lớp đa số để tăng cường khả năng phát hiện gian lận.

 Xử lý các loại biến đặc trưng: XGBoost có khả năng xử lý tốt các biến đặc trưng
có dạng số, nhị phân và hạng mục. Bạn không cần tiền xử lý nhiều để chuyển đổi
các biến đặc trưng này.

5.2.2. Nhược điểm của mô hình XGBoost

 Đòi hỏi tài nguyên tính toán cao: XGBoost có thể yêu cầu tài nguyên tính toán lớn,
đặc biệt là khi dữ liệu lớn và số lượng cây quyết định và các tham số được tinh
chỉnh cao. Điều này có thể làm tăng thời gian huấn luyện và đòi hỏi hệ thống có
khả năng xử lý cao.

 Điều chỉnh tham số phức tạp: XGBoost có nhiều tham số cần được tinh chỉnh để
đạt hiệu suất tốt nhất. Việc điều chỉnh tham số có thể đòi hỏi sự hiểu biết sâu về
mô hình và thử nghiệm nhiều cấu hình khác nhau. Điều này có thể làm tăng thời
gian và công sức để điều chỉnh mô hình.

 Khả năng diễn giải thấp: XGBoost là một mô hình phức tạp với nhiều cây quyết
định và kết hợp các cây quyết định này. Điều này làm giảm tính khả diễn giải của
mô hình, tức là khó để hiểu cách mô hình ra quyết định và giải thích kết quả dự
đoán.

5.2.3. Hướng phát triển

Để phát triển mô hình XGBoost trở nên tốt hơn, nhóm tác giả đề xuất một số ý kiến
như sau:

 Tiếp tục tinh chỉnh các siêu tham số của mô hình XGBoost để tối ưu hóa hiệu suất.
28
 Xem xét sử dụng các phương pháp kết hợp mô hình (ensemble) để cải thiện kết
quả và giảm thiểu overfitting.

 Nâng cấp dữ liệu bằng cách thu thập thêm thông tin hoặc nâng cấp tính năng mới
hữu ích cho việc phát hiện gian lận.

 Kiểm tra kết quả trên bộ dữ liệu kiểm tra độc lập để đảm bảo tính tổng quát của
mô hình.

 Sử dụng thư viện vaex với các chức năng bao gồm đọc và xử lý dữ liệu lớn, thực
hiện các thao tác trên cột mà không cần tải toàn bộ dữ liệu vào bộ nhớ, cung cấp
các tính năng đa luồng để tăng tốc độ xử lý.

29
PHẦN 6: KẾT LUẬN
Chủ đề phát hiện gian lận trong các giao dịch thẻ tín dụng đã trở thành một lĩnh vực
nghiên cứu quan trọng và thú vị trong lĩnh vực tài chính và bảo mật thông tin. Điều
này càng cấp bách hơn do các hình thức gian lận thẻ tín dụng ngày càng phức tạp, gây
ra mối đe dọa ngày càng tăng đối với tính toàn vẹn và bảo mật của các hệ thống thanh
toán. Các phương pháp và công nghệ phát hiện gian lận trong giao dịch thẻ tín dụng
liên tục được phát triển và cải tiến để đảm bảo hiệu quả và độ chính xác cao hơn trong
việc phát hiện gian lận. Việc sử dụng công nghệ mới và cải tiến trong lĩnh vực này
không chỉ giúp phát hiện và ngăn chặn gian lận một cách hiệu quả mà còn giúp giảm
rủi ro tài chính và bảo vệ thông tin tài khoản của khách hàng. Tương lai sẽ đòi hỏi sự
hợp tác chặt chẽ giữa các tổ chức tài chính và các nhà nghiên cứu để nghiên cứu và
phát triển các phương pháp và kỹ thuật phát hiện gian lận mới nhằm giảm thiểu rủi ro
và bảo vệ thông tin. Điều này bao gồm tăng cường khả năng chống gian lận thẻ tín
dụng và hệ thống thanh toán an toàn của các ngân hàng. Trên cơ sở nghiên cứu và phát
triển công nghệ phát hiện gian lận giao dịch thẻ tín dụng, đề tài này được kỳ vọng sẽ
góp phần bảo vệ thông tin tài khoản, giảm thiểu thiệt hại kinh tế và đảm bảo an toàn,
tin cậy cho các giao dịch tài chính.

30
TÀI LIỆU THAM KHẢO
[1] Kartik Shenoy. (2020, August 5). Credit Card Transactions Fraud Detection
Dataset. Kaggle. Retrieved May 14, 2023, from

https://www.kaggle.com/datasets/kartik2112/fraud-detection

[2] Binny Mathews, & Omair Aasim. (2023, April 23). Credit Card Fraud
Detection Project using Machine Learning. ProjectPro. Retrieved May 14, 2023, from

https://www.projectpro.io/article/credit-card-fraud-detection-project-with-source-
code-in-python/568?fbclid=IwAR0j-
vxirgJvT3DZLUtGM2eGdbkG1XN73pP7xAPuOlEbUwUm3xC2qUbBkvE

[3] Hoàng Thị Thúy, & Lê Thị Xuân Thu. (2021, March 5). Phát Hiện Gian Lận
Thẻ Tín Dụng Bằng Học Máy. Cơ sở dữ liệu quốc gia về Khoa học và Công nghệ.
Retrieved May 14, 2023, from

https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/315353/
CTv60S2852021076.pdf

[4] Le James. (2016, August 18). The 10 Algorithms Machine Learning Engineers
Need to Know. KDnuggets. Retrieved May 14, 2023, from

http://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-
engineers.html

[5] Đức Trung. (2021, August 28). Đánh giá các mô hình học máy. Viblo. Retrieved
May 14, 2023, from

https://viblo.asia/p/danh-gia-cac-mo-hinh-hoc-may-RnB5pp4D5PG

31
[6] Vietnam+. (2020, May 28). GBG sử dụng học máy và AI để phát hiện gian lận
trong giao dịch thẻ tín dụng, thanh toán số… | Thông cáo báo chí | Vietnam+.
VietnamPlus. Retrieved May 29, 2023, from

https://www.vietnamplus.vn/gbg-su-dung-hoc-may-va-ai-de-phat-hien-gian-lan-
trong-giao-dich-the-tin-dung-thanh-toan-so/642600.vnp

[7] Nguyễn Thị Liên, Nguyễn Thị Trang, & Nguyễn Chiến Thắng. (2018, 10).
Phương pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu thực
nghiệm. Retrieved May 16, 2023, from

https://ktpt.neu.edu.vn/tap-chi/so-256ii/muc-luc-661/phuong-phap-hoc-may-trong-
phat-hien-gian-lan-the-tin-dung-mot-nghien-cuu-thuc-nghiem.378964.aspx

[8] Hồ Quang Thái. (2018, June 1). Làm thế nào Machine Learning có thể cải thiện
phát hiện gian lận trong thời gian thực. HelpEx. Retrieved May 16, 2023, from

https://helpex.vn/article/lam-the-nao-machine-learning-co-the-cai-thien-phat-hien-
gian-lan-trong-thoi-gian-thuc-5c6643afae03f60128765725

[9] akaBot. (2022, January 5). 7 Trường Hợp Sử Dụng Machine Learning Trong
Ngân Hàng. akaBot. Retrieved May 17, 2023, from

https://akabot.com/vi/tai-nguyen/blog/machine-learning-trong-ngan-hang/

[10] Hoàng Thị Thúy, & Lê Thị Xuân Thu. (2021, March 5). Phát hiện gian lận thẻ
tín dụng bằng học máy. Cơ sở dữ liệu quốc gia về Khoa học và Công nghệ. Retrieved
May 17, 2023, from

https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/315353/
CTv60S2852021076.pdf

[11] Nguyễn Thị Loan Hồng. (2018). Một số thuật toán ứng dụng trong phát hiện
gian lận thanh toán thẻ tín dụng. Tạp chí Khoa học Tài nguyên và Môi trường - Số 22.
Retrieved May 18, 2023, from

32
https://vjol.info.vn/index.php/hunre/article/view/40424/32473

[12] Jonathan Kwaku Afriyie a, Kassim Tawiah, Wilhemina Adoma Pels a, Sandra
Addai-Henne, Harriet Achiaa Dwamena, , Emmanuel Odame Owiredu, Samuel
Amening Ayeh, & John Eshun. (2023, January 14). A supervised machine learning
algorithm for detecting and predicting fraud in credit card transactions. Retrieved
May 20, 2023, from

https://www.sciencedirect.com/science/article/pii/S2772662223000036

[13] Vaishnavi Nath Dornadula, & S Geetha. (2019). Credit Card Fraud Detection
using Machine Learning Algorithms. Retrieved May 20, 2023, from
https://www.sciencedirect.com/science/article/pii/S187705092030065X?via%3Dihub

[14] Waleed Hilal, S. Andrew Gadsden, & John Yawney. (2022, May 1). Financial
Fraud: A Review of Anomaly Detection Techniques and Recent Advances. Retrieved
May 22, 2023, from

https://www.sciencedirect.com/science/article/pii/S0957417421017164?via
%3Dihub

[15] Sumit Misra, Soumyadeep Thakur, Manosij Ghosh, & Sanjoy Kumar Saha.
(2020). An Autoencoder Based Model for Detecting Fraudulent Credit Card
Transaction. An Autoencoder Based Model for Detecting Fraudulent Credit Card
Transaction. Retrieved May 22, 2023, from

https://www.sciencedirect.com/science/article/pii/S1877050920306840

[16] Xuan, S., Liu, G., Li, Z., Zheng, L., Wang, S., & Jiang, C. (2018, March).
Random forest for credit card fraud detection. In 2018 IEEE 15th international
conference on networking, sensing and control (ICNSC) (pp. 1-6). IEEE. Retrieved
May 22, 2023, from

33
https://scholar.google.com/scholar_lookup?title=Random%20forest%20for
%20credit%20card%20fraud%20detection&publication_year=2018&author=S.
%20Xuan&author=S.%20Wang

[17] Tyagi, R., Ranjan, R., & Priya, S. (2021, November). Credit Card Fraud
Detection Using Machine Learning Algorithms. In 2021 Fifth International
Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud)(I-SMAC) (pp.
334-341). IEEE. Retrieved May 23, 2023, from

https://scholar.google.com/scholar?q=R.%20Tyagi,%20R.%20Ranjan,%20S.
%20Priya,%20Credit%20card%20fraud%20detection%20using%20machine
%20learning%20algorithms.%20%20334341.

[18] Tran, T. C., & Dang, T. K. (2021, January). Machine learning for prediction of
imbalanced data: Credit fraud detection. In 2021 15th International Conference on
Ubiquitous Information Management and Communication (IMCOM) (pp. 1-7). IEEE.
Retrieved May 23, 2023, from

https://scholar.google.com/scholar_lookup?title=Machine%20learning%20for
%20prediction%20of%20imbalanced%20data%20%3A%20Credit%20fraud
%20detection.%20Ml&publication_year=2021&author=T.C.%20Tran&author=B.T.
%20District&author=H.%20Chi&author=M.%20City&author=T.K.
%20Dang&author=H.%20Chi&author=M.%20City&author=L.T.
%20Ward&author=T.D.%20District&author=H.%20Chi&author=M.%20City

[19] Awoyemi, J. O., Adetunmbi, A. O., & Oluwadare, S. A. (2017, October).


Credit card fraud detection using machine learning techniques: A comparative
analysis. In 2017 international conference on computing networking and informatics
(ICCNI) (pp. 1-9). IEEE. Retrieved May 23, 2023, from

https://scholar.google.com/scholar?q=Awoyemi,%20John%20O.,%20et%20al.
%20Credit%20Card%20Fraud%20Detection%20Using%20Machine%20Learning
%20Techniques:%20A%20Comparative%20Analysis.%202017%20International
34
%20Conference%20on%20Computing%20Networking%20and%20Informatics
%20,%202017,%20doi:10.1109iccni.2017.8123782.

[20] Zou, J., Zhang, J., & Jiang, P. (2019). Credit card fraud detection using
autoencoder neural network. arXiv preprint arXiv:1908.11553. Retrieved May 25,
2023, from

https://scholar.google.com/scholar?q=Jiang,%20P.,%20Zhang,%20J.,%20%20Zou,
%20J.%20.%20Credit%20Card%20Fraud%20Detection%20Using%20Autoencoder
%20Neural%20Network.%20Retrieved%20from%20arXiv:1908.11553.

35

You might also like