Tiểu Luận Cuối Kì Phân Tích Dữ Liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT
ĐỒ ÁN CUỐI KỲ - HK2 (2022-2023)

MÔN HỌC PHÂN TÍCH DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ
LIỆU VÀ XÂY DỰNG MÔ HÌNH PHÁT HIỆN
GIAN LẬN GIAO DỊCH QUA THẺ TÍN DỤNG
Mã lớp học phần: 222MI2101
Nhóm thực hiện: Nhóm ACCTV

Giảng viên hướng dẫn: TS. Nguyễn Thôn Dã
Thành phố Hồ Chí Minh, tháng 5 năm 2023

DANH SÁCH THÀNH VIÊN
Mã số sinh viên Họ và tên Địa chỉ email
K214142056 Trần Tất Anh anhtt21414@st.uel.edu.vn
K214142057 Lê Phước Hồng Cẩm camlph21414@st.uel.edu.vn
K214142058 Nguyễn Đình Chương chuongnd21414@st.uel.edu.vn
K214142091 Trần Bảo Trân trantb21414@st.uel.edu.vn
K214142100 Trần Ý Vy vyty21414@st.uel.edu.vn
MỤC LỤC
DANH MỤC BẢNG..........................................................................................................1
DANH MỤC HÌNH ẢNH.................................................................................................2
TÓM TẮT...........................................................................................................................3
PHẦN 1: GIỚI THIỆU.....................................................................................................4
1.1. Lý do chọn đề tài.......................................................................................................4
1.2. Mục đích nghiên cứu.................................................................................................4
1.3. Phương pháp nghiên cứu...........................................................................................4
PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN.................................................................5
PHẦN 3: NỀN TẢNG LÝ THUYẾT...............................................................................8
3.1. Học máy (Machine Learning)...................................................................................8
3.2. Phương pháp cân bằng dữ liệu SMOTE....................................................................9
3.3. Mô hình K-Nearest Neighbors Classifier..................................................................9
3.4. Mô hình Decision Tree Classifier.............................................................................9
3.5. Mô hình Random Forest Classifier.........................................................................10
3.6. Mô hình XGBoost...................................................................................................10
PHẦN 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU........................................11
4.1. Hiểu dữ liệu.............................................................................................................11
4.2. Xử lý dữ liệu............................................................................................................12
4.3. Khai phá dữ liệu......................................................................................................12
4.3.1. Phần trăm điểm dữ liệu giao dịch gian lận......................................................12
4.3.2. Khám phá dữ liệu của “amt”...........................................................................13
4.3.3. Khám phá dữ liệu về thời gian giao dịch.........................................................15

4.3.4. Khám phá dữ liệu của “gender”......................................................................18
4.3.5. Khám phá dữ liệu của “age”...........................................................................19
4.3.6. Khám phá dữ liệu của “job”............................................................................20
4.3.7. Khám phá dữ liệu của “category”...................................................................21
PHẦN 5: XÂY DỰNG CÁC MÔ HÌNH PHÁT HIỆN GIAO DỊCH GIAN LẬN....22
5.1. Cân bằng dữ liệu......................................................................................................22
5.2. So sánh các mô hình................................................................................................22
5.2.1. Ưu điểm của mô hình XGBoost........................................................................25
5.2.2. Nhược điểm của mô hình XGBoost..................................................................26
5.2.3. Hướng phát triển..............................................................................................26
PHẦN 6: KẾT LUẬN......................................................................................................28
TÀI LIỆU THAM KHẢO...............................................................................................29

DANH MỤC BẢNG
Bảng 4.3.2: Bảng thống kê mô tả dữ liệu ‘amt’.................................................................13
Bảng 5.2: So sánh các mô hình 1.......................................................................................22
Bảng 5.2: So sánh các mô hình 2.......................................................................................23
1
DANH MỤC HÌNH ẢNH
Hình 4.1 Biểu đồ cột số lần giao dịch bình thường - gian lận...........................................13
Hình 4.2 Biểu đồ cột khai phá dữ liệu của “amt”..............................................................14
Hình 4.3 Biểu đồ cột thời gian giao dịch theo giờ trong ngày...........................................15
Hình 4.4 Biểu đồ cột thời gian giao dịch theo ngày trong tuần.........................................16
Hình 4.5 Biểu đồ cột thời gian giao dịch theo tháng trong năm........................................17
Hình 4.6 Biểu đồ cột khai phá dữ liệu của “gender”.........................................................18
Hình 4.7 Biểu đồ cột khai phá dữ liệu của “age”..............................................................19
Hình 4.8 Biểu đồ cột khai phá dữ liệu của “job”...............................................................20
Hình 4.9 Biểu đồ cột khai phá dữ liệu của “category”......................................................21
Hình 5.1 Biểu đồ cột cân bằng dữ liệu với SMOTE..........................................................22
2
TÓM TẮT
Trong thời đại công nghệ hóa – hiện đại hóa ngày càng phát triển, hoạt động thanh
toán qua thẻ tín dụng đã dần thay thế phương thức thanh toán truyền thống, trở thành tiện
ích tất yếu trong đời sống hằng ngày. Chỉ với một tấm thẻ nhỏ trong lòng bàn tay, khách
hàng có thể thực hiện giao dịch ở mọi lúc, mọi nơi cho toàn bộ hoạt động mua sắm của
mình. Tuy nhiên, đi kèm với những tiện lợi đó là rủi ro tiềm ẩn gây ra tổn thất tài chính
lớn bởi doanh nghiệp bán hàng không thể kiểm tra ở đầu thẻ bên kia có phải chủ thẻ hay
một ai khác. Hơn thế nữa, số lượng tội phạm công nghệ cao tăng nhanh chóng mặt với
nhiều thủ đoạn tinh vi, lợi dụng lỗ hổng của hàng rào bảo mật thẻ tín dụng non trẻ nhằm
chiếm đoạt tài sản. Trong bài nghiên cứu này, nhóm đã tập trung xây dựng mô hình phát
hiện giao dịch qua thẻ tín dụng bằng phương pháp SMOTE, các mô hình K-Nearest
Neighbors Classifier, Random Forest Classifier, Decision Tree Classifier, XGBoost nhằm
lựa chọn ra mô hình phù hợp dựa trên so sánh hiệu quả phát hiện gian lận. Kết quả cho
thấy mô hình XGBoost Classifier có chỉ số F1-Score cao nhất (tới 0.9946) và là mô hình
tối ưu nhất.
Từ khóa: Giao dịch gian lận, gian lận thẻ tín dụng, phân tích dữ liệu, trực quan hóa dữ
liệu, học máy, mô hình
3
PHẦN 1: GIỚI THIỆU
1.1. Lý do chọn đề tài
Với sự phát triển vượt bậc của hệ thống công nghệ thông tin, các hình thức thanh
toán của ngân hàng ngày càng trở nên đa dạng. Trong đó, thẻ tín dụng được coi là
phương thức thanh toán nhanh chóng, tiện lợi và phổ biến nhất với mọi người. Song, phát
triển cùng với hình thức thanh toán này là các hình thức lừa đảo, gian lận giao dịch tinh
vi. Hình thức gian lận giao dịch thường là lừa đảo để đánh cắp thông tin thẻ tín dụng của
khách hàng để mua sắm, rút tiền hoặc thực hiện các giao dịch chuyển tiền trực tuyến,...
Điều này không những gây ra rủi ro cho người dùng thẻ như mất tiền, để lộ thông tin cá
nhân và các thông tin quan trọng khác; mà còn gây ảnh hưởng to lớn đến tính an toàn và
khả năng bảo mật của hệ thống thanh toán ngân hàng. Vì những lý do trên, nhóm tác giả
đã chọn đề tài “Phân tích, trực quan hóa dữ liệu và xây dựng mô hình phát hiện gian lận
giao dịch qua thẻ tín dụng” để nghiên cứu và phát hiện ra những dấu hiệu đặc trưng
thường có của một giao dịch gian lận.
1.2. Mục đích nghiên cứu
Mục đích đề tài là xây dựng một hệ thống phát hiện gian lận giao dịch qua thẻ tín
dụng hiệu quả giảm thiểu tổn thất tài chính cũng như tiết kiệm thời gian và công sức
trong việc xử lý các vụ gian lận. Hệ thống này sẽ giúp cho các ngân hàng và tổ chức tài
chính có thể nhanh chóng phát hiện các giao dịch có nghi vấn gian lận và kịp thời ngăn
chặn các hành vi lừa đảo.
1.3. Phương pháp nghiên cứu
Nhóm tác giả áp dụng phương pháp nghiên cứu là phân tích dữ liệu và xây dựng
các mô hình học máy để phát hiện những đặc trưng điển hình của một giao dịch gian lận
4
qua thẻ tín dụng. Phương pháp này sử dụng các kỹ thuật phân tích, trực quan hóa dữ liệu
và học máy để xác định các điểm gian lận và phát hiện các giao dịch bất thường.
PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN
Gian lận trong giao dịch thẻ tín dụng đang là vấn đề nhức nhối, ảnh hưởng đến
tính bảo mật của hệ thống thanh toán. Do đó, rất nhiều nghiên cứu đã được thực hiện về
chủ đề này. Các nghiên cứu đáng chú ý bao gồm:
 “GBG sử dụng máy học và trí tuệ nhân tạo để phát hiện gian lận trong giao dịch
thẻ tín dụng và thanh toán kỹ thuật số” (Vietnam+, 2020): Trong bài viết này, GBG sử
dụng máy học và trí tuệ nhân tạo để phát hiện gian lận thẻ tín dụng Hệ thống máy học của
GBG đã được sử dụng thành công để cảnh báo khách hàng về gian lận và cải thiện khả
năng phát hiện gian lận bị bỏ sót.
 “Phương pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu
thực nghiệm” (Nguyễn Thị Liên et al., 2018): Nghiên cứu này tập trung vào cách sử dụng
máy học trong các giao dịch thẻ để phát hiện gian lận thẻ tín dụng. tôi ở đây. Bài viết này
trình bày các nghiên cứu thực nghiệm sử dụng các kỹ thuật máy học như Naive Bayes, K-
Nearest Neighbors (KNN) và Support Vector Machine (SVM). Kết quả nghiên cứu cho
thấy các kỹ thuật máy học có thể phát hiện gian lận một cách hiệu quả.
 “Làm thế nào Machine Learning có thể cải thiện phát hiện gian lận trong thời
gian thực” (Hồ Quang Thái, 2018): Bài viết tập trung vào lợi ích của máy học trong phát
hiện gian lận trong giao dịch thẻ tín dụng. Nó đề cập đến việc sử dụng máy học để chủ
động phát hiện gian lận và cải thiện độ chính xác của việc phát hiện gian lận.
 “Máy học trong ngân hàng” (akaBot, 2022): Bài viết tìm hiểu việc sử dụng máy
học trong ngành ngân hàng để cải thiện độ chính xác của việc phát hiện gian lận trong các
giao dịch thẻ tín dụng. Điều này nhấn mạnh cách học máy có thể giúp tiết kiệm thời gian
và cải thiện trải nghiệm của khách hàng.
5
 “Một số thuật toán ứng dụng trong phát hiện gian lận thanh toán thẻ tín dụng”
(Nguyễn Thị Hồng Loan, 2018): Khai phá dữ liệu là một trong những kỹ thuật được ứng
dụng trong các hệ thống ngân hàng. Bài báo trình bày 1 số thuật toán trong khai phá được
đánh giá là hiệu quả nhất trong các hệ thống phát hiện gian lận giao dịch thẻ tín dụng.
 “Phương pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu
thực nghiệm” (Nguyễn Thị Liên, Nguyễn Thị Thu Trang, Nguyễn Chiến Thắng, 2018):
Nghiên cứu giới thiệu các phương pháp thống kê và học máy để phát hiện gian lận thẻ tín
dụng tại ngân hàng thương mại. Nghiên cứu ứng dụng các mô hình như mô hình Logistic,
mạng Bayes (Bayesian Network), cây quyết định (Decision trees), phương pháp Stacking
(Stacked generalization). Ngoài ra, nghiên cứu cũng đưa ra một số cách xử lý trong
trường hợp dữ liệu mất cân bằng. Thông qua kết quả so sánh các mô hình và xử lý dữ liệu
mất cân bằng.
 “A supervised machine learning algorithm for detecting and predicting fraud in

credit card transactions. A supervised machine learning algorithm for detecting and
predicting fraud in credit card transactions” (Jonathan Kwaku Afriyie a et al., 2023): Bài
viết đề xuất một phương pháp học máy có giám sát để phát hiện gian lận trong giao dịch
thẻ tín dụng. Nghiên cứu tập trung vào việc áp dụng các thuật toán Random Forests để xử
lý gian lận và xác định độ chính xác của phương pháp.
 “Credit Card Fraud Detection using Machine Learning Algorithms.” (Vaishnavi

Nath Dornadula & S Geetha, 2019): Bài viết đề xuất một phương pháp học máy có giám
sát để phát hiện gian lận trong giao dịch thẻ tín dụng. Nghiên cứu tập trung vào việc áp
dụng các thuật toán Random Forests để xử lý gian lận và xác định độ chính xác của
phương pháp.
 “Review of Anomaly Detection Techniques and Recent Advances” (Waleed

Hilal et al., 2022): Bài viết tập trung vào việc áp dụng phương pháp học máy có giám sát
trong việc phát hiện gian lận trong giao dịch thẻ tín dụng. Nghiên cứu đề xuất một mô
hình kết hợp dựa trên Support Vector Machine (SVM) và Bayesian Optimization để tăng
cường hiệu suất phát hiện gian lận trong giao dịch thẻ tín dụng. Ngoài ra, bài viết cũng
6
tiếp cận vấn đề của bất cân xứng dữ liệu và đề xuất một phương pháp chuyển đổi dữ liệu
bất cân xứng để cải thiện hiệu suất phát hiện.
 “A Neural Network Ensemble With Feature Engineering for Improved Credit

Card Fraud Detection” (E. Esenogho, I. D. Mienye, T. G. Swart, K. Aruleba and G.
Obaido, 2022). Bài viết này đề xuất một cách tiếp cận hiệu quả để phát hiện gian lận bằng
cách sử dụng thuật toán neural network ensemble classifier và phương pháp lấy mẫu lại
dữ liệu lại. Hiệu quả của nghiên cứu được chứng thực khi đem so sánh với các thuật toán
khác: support vector machine (SVM), multilayer perceptron (MLP), decision tree,
traditional AdaBoost, và LSTM. Kết quả thử nghiệm cho thấy rằng kết quả gian lận giao
dịch chính xác hơn khi được huấn luyện với dữ liệu lấy mẫu lại và nhóm LSTM hoạt
động tốt hơn các thuật toán khác thông qua độ nhạy 0,996.
Tất cả các nghiên cứu này đều tập trung vào việc phát hiện và ngăn chặn các giao
dịch thẻ tín dụng gian lận. Để đạt được điều này, nghiên cứu đã sử dụng các kỹ thuật
phân tích dữ liệu, học máy và khai thác dữ liệu. Tuy nhiên, những nghiên cứu này cũng
chỉ ra một số thách thức và hạn chế trong việc phát hiện các giao dịch gian lận như độ
phức tạp của dữ liệu, khó khăn trong việc xác định các điểm giao dịch bất thường và độ
chính xác của các mô hình.
7
PHẦN 3: NỀN TẢNG LÝ THUYẾT
3.1. Học máy (Machine Learning)
Học máy (Machine Learning) là một công nghệ phát triển từ trí tuệ nhân tạo, sử
dụng các thuật toán do con người lập trình để giải quyết các vấn đề cụ thể như tính toán,
mô phỏng, xử lý lượng thông tin lớn. Do nhiều tiện ích, học máy đã được ứng dụng phổ
biến như lọc thư điện tử, nhận diện khuôn mặt, khuyến cáo sản phẩm và đặc biệt nhất
phải kể đến phát hiện giao dịch gian lận qua thẻ tín dụng. Tuy nhiên, học máy vẫn cần
đòi hỏi sự khéo léo của con người trong tìm hiểu và lựa chọn kĩ thuật phù hợp để phân
tích dữ liệu. Đồng thời, trước khi sử dụng, dữ liệu phải sạch, không có sai lệch và không
có dữ liệu giả. Do đó trong nghiên cứu, nhóm đã tiến hành kiểm tra dữ liệu thiếu hoặc
trùng nhau, kiểm tra số lượng giá trị duy nhất trong bộ dữ liệu và bóc tách chuyên sâu
trong việc khám phá nhằm giảm thiểu sai sót.
Học máy có 2 loại bao gồm học có giám sát (supervised learning) và học không
giám sát (unsupervised learning). Trong học có giám sát, máy tính học cách mô hình hóa
các mối quan hệ dựa trên dữ liệu được gán nhãn (labeled data). Ngược lại với học không
giám sát máy tính không được cung cấp dữ liệu được dán nhãn mà thay vào đó chỉ được
cung cấp dữ liệu mà thuật toán tìm cách mô tả dữ liệu và cấu trúc của chúng và trả lại
biến đầu ra. Tùy thuộc vào biến đầu ra là rời rạc hay liên tục mà chúng ta có thể phân biệt
hai nhiệm vụ được giám sát: phân loại (classification) hay hồi quy (regression). Phát hiện
gian lận giao dịch qua thẻ tín dụng thuộc nhóm đầu tiên vì các đầu ra được phân thành
hai loại là có gian lận (fraud) hoặc không gian lận (non-fraud). Dữ liệu trong các thuật
toán thuộc nhánh "không giám sát" chỉ có đầu vào mà không cần đầu ra vì ứng dụng chủ
yếu của nó chỉ để khám phá cấu trúc và mối quan hệ dữ liệu với nhau.
Một số thuật toán sử dụng phổ biển để phát hiện các gian lận giao dịch ngày nay bao
gồm:
 Artificial neutron network  Fuzzy Logic
 Random Forest  Decision Tree
 K-Nearest Neighbors  XGBoost
8
 Support vector machine
Trong bài báo cáo này, nhóm chủ yếu tập trung so sánh và phân tích 4 mô hình
chính là mô hình K-Nearest Neighbors, mô hình Random Forest, mô hình Decision Tree
và mô hình XGBoost.
3.2. Phương pháp cân bằng dữ liệu SMOTE
Mất cân bằng dữ liệu là một trong những hiện tượng phổ biến của bài toán phát
hiện gian lận, phát hiện rủi ro tiềm ẩn... Khi xảy ra hiện tượng mất cân bằng nghiêm
trọng, tức tỷ lệ lớn hơn 90:10 sẽ ảnh hưởng đến kết quả dự báo, giảm chất lượng của mô
hình phân loại vì kết quả sẽ tương ứng với lớp đa số và lớp thiểu số lúc này đóng vai trò
như "nhiễu" tạo nên sai lệch đáng kể. Do đó vấn đề đặt ra là phải cân bằng dữ liệu. Ở bài
toán phát hiện gian lận giao dịch này, nhóm tập trung vào phương pháp SMOTE
(Synthetic Minority Oversampling Technique). Thuật toán này giúp khắc phục vấn đề
overfitting do lấy mẫu quá mức ngẫu nhiên. SMOTE hoạt động bằng các tạo ra các mẫu
tổng hợp từ các lớp thiểu số thay cho việc tạo ra các bản sao. Thuật toán chọn 2 hay nhiều
trường hợp giống nhau (sử dụng thước đo khoảng cách để so sánh) và xáo trộn một cá thể
một thuộc tính tại một thời điểm bằng một lượng ngẫu nhiên trong khoảng chênh lệch với
các trường hợp lân cận.
3.3. Mô hình K-Nearest Neighbors Classifier
Đúng như tên gọi thuật toán K-láng giềng gần nhất là một kĩ thuật phân loại học
có giám sát (supervised learning) dùng để phân loại quan sát mới bằng cách tìm điểm
tương đồng giữa quan sát mới này với dữ liệu sẵn có. Ý tưởng bắt nguồn từ việc K-
Nearest Neighbors Classifier cho rằng các dữ liệu tương tự nhau sẽ tồn tại gần nhau trong
cùng một không gian, việc của người phân tích chỉ tìm k điểm gần với dữ liệu cần kiểm
tra thông qua tính toán khoảng cách.
9
3.4. Mô hình Decision Tree Classifier
Trong thực tế có nhiều mô hình học máy được thiết kế dưới dạng câu hỏi nhằm
đưa ra quyết định cuối cùng. Các câu hỏi sẽ được hệ thống như một cái cây nhị phân bao
gồm các nhánh nhỏ và dựa vào đặc tính của dữ liệu để đưa ra dự báo True (đúng) hoặc
False (Sai). Ở bài toán phát hiện gian lận, mô hình sẽ tính điểm tương tác giữa các dữ liệu
như tuổi tác, giới tính, ngành nghề, ngày giờ giao dịch nhằm phát hiện ra sự bất thường
và đưa ra dự đoán có gian lận hay không. Mô hình này đưa ra dự báo nhanh và tiện lợi
tuy nhiên lại dễ xảy ra overfitting (tạo ra những cây quá khớp với dữ liệu huấn luyện hay
quá phức tạp) và không xử lý được nhiều dữ liệu bùng nổ như hình ảnh, video, âm
thanh,...
3.5. Mô hình Random Forest Classifier
Dựa trên mô hình Decision Tree. Dù có độ chính xác khá cao nhưng mô hình này
luôn tồn tại những sai lệch không đáng có vì thế mô hình random forest đã được thay thế
nhằm loại bỏ sai lệch này thông qua việc tích hợp nhiều cây quyết định trên các mẫu dữ
liệu được chọn ngẫu nhiên. Thuật toán của Random Forest hoạt động dựa trên việc bỏ
phiếu các kết quả dự đoán và chọn ra kết quả được dự đoán nhiều nhất sau cùng. Nhờ đó
đây được coi là phương pháp chính xác và không bị overfitting. Random forests cũng có
thể xử lý các dữ liệu thiếu sót (null) bằng cách tính toán giá trị trung bình để thay thế biến
liên tục hoặc tính toán khoảng cách trung bình gần nhất của các giá trị bị thiếu
3.6. Mô hình XGBoost
XGBoost (Extreme Gradient Boosting) là một giải thuật được base trên gradient
boosting, tuy nhiên kèm theo đó là những cải tiến to lớn về mặt tối ưu thuật toán khi kết
hợp mô hình giữa các cây quyết định, làm giảm các sai số khi huấn luyện (Training
Loss), chuẩn hóa các sai số, hệ số biến (Regularization) và xử lý nhanh gọn dữ liệu ở mọi
kích thước, định dạng bao gồm cả categorical thường tìm thấy nhiều trong business
model. Mô hình này được ứng dụng để giải quyết mọi vấn đề từ hồi quy đến phân loại.
10
Có thể nói trong trường hợp nghiên cứu gian lận giao dịch qua thẻ tín dụng, mô hình
XGBoost là phù hợp và tối ưu nhất.
11
PHẦN 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU
Trong thực tế, việc thu thập dữ liệu mô tả hành vi giao dịch của khách hàng qua
thẻ tín dụng là rất khó khăn do đây là những thông tin cá nhân của người dùng mà ngân
hàng phải có trách nhiệm bảo mật chặt chẽ, an toàn. Vì vậy, bộ dữ liệu được nhóm tác giả
sử dụng trong đề tài này được lấy từ website Kaggle do tác giả Brandon Harris sử dụng
công cụ Sparkov Data Generation | Github để tiến hành xây dựng mô phỏng các giao dịch
(gồm giao dịch bình thường và gian lận) trong khoảng thời gian từ 01/01/2019-
31/12/2020 của hơn 1000 khách hàng thực hiện giao dịch với nhóm 800 người nhận tiền
ở Mỹ. Song, do bộ dữ liệu khá lớn nên ở đây tác giả chỉ trích xuất những loại giao dịch
trong biến “category” có kết thúc bằng “net” hoặc “pos” để thực hiện việc nghiên cứu đề
tài.
4.1. Hiểu dữ liệu

Bộ dữ liệu bao gồm 13 biến như sau:
 trans_date_trans_time: Thời gian giao dịch
 cc_num: Mã số thẻ tín dụng
 merchant: Tên người nhận
 category: Lĩnh vực giao dịch
 amt: Số tiền giao dịch
 first: Tên của chủ thẻ tín dụng
 last: Họ của chủ thẻ tín dụng
 gender: Giới tính
 street: Địa chỉ giao dịch
 city: Thành phố giao dịch
12
 job: Công việc
 dob: Ngày sinh
 is_fraud: Loại giao dịch (1 là gian lận, 0 là bình thường)
Ở đây, biến "is_fraud" là biến mục tiêu của nhóm tác giả.
4.2. Xử lý dữ liệu
Nhóm tác giả đã tiến hành quá trình xử lý và làm sạch dữ liệu theo các bước sau:
- Bước 1: Đếm số dòng dữ liệu.
- Bước 2: Kiểm tra xem có cột nào bị thiếu dữ liệu.
- Bước 3: Kiểm tra xem có dòng dữ liệu nào trùng nhau.
- Bước 4: Kiểm tra số lượng giá trị duy nhất trong bộ dữ liệu.
- Bước 5: Chuyển đổi cột “trans_date_trans_time” thành định dạng datetime.
- Bước 6: Tách cột “trans_date_trans_time” thành các cột “trans_hour”,
“trans_day_of_week”, “trans_year_month”.
- Bước 7: Tìm tuổi của khách hàng tại thời điểm giao dịch.
- Bước 8: Xóa bỏ các cột “trans_date_trans_time”, “dob”, “first”, “last” ra khỏi bộ dữ

liệu.
- Bước 9: Chỉ lấy các dòng dữ liệu có đuôi "net" hoặc "pos" trong cột “category”.
- Bước 10: Xem lại bộ dữ liệu sau khi đã xử lý.
4.3. Khai phá dữ liệu

4.3.1. Phần trăm điểm dữ liệu giao dịch gian lận
13
Hình 4.1 Biểu đồ cột số lần giao dịch bình thường - gian lận
Nguồn: Nhóm tác giả thực hiện
Ta thấy rằng, tỷ lệ phần trăm của giao dịch gian lận chỉ chiếm khoảng 0,96%
nhưng tỷ lệ phần trăm của các giao dịch bình thường lên tới 99,04%. Do đó, đây là một
bộ dữ liệu mất cân bằng nghiêm trọng nên nhóm tác giả sẽ tiến hành cân bằng dữ liệu ở
phần 5 của bài nghiên cứu này để phục vụ việc xây dựng các mô hình không bị thiên vị.
4.3.2. Khám phá dữ liệu của “amt”
Overall Amt Non-Fraud Amt Fraud Amt

Row Type
Distribution Distribution Distribution
1 count 751737.000000 744555.000000 7182.000000
2 mean 84.750868 79.050045 675.752904
14
3 std 173.579039 161.005005 337.101827
4 min 1.000000 1.000000 5.600000
5 25% 6.470000 6.410000 318.725000
6 50% 39.970000 38.970000 794.945000
7 75% 104.520000 102.950000 954.205000
8 max 9754.720000 9754.720000 1376.040000
Bảng thống kê mô tả dữ liệu “amt”
Qua bảng trên thống kê trên, ta thấy số tiền trung bình của giao dịch được cho là
bình thường ít hơn rất nhiều so với tiền trung bình của giao dịch được cho là gian lận.
Không chỉ vậy, độ dao động của các giao dịch bình thường chỉ tầm khoảng 161 USD,
trong khi đó các giao dịch gian lận phải chênh lệch tới gấp đôi.
Hình 4.2 Biểu đồ cột khai phá dữ liệu của “amt”
15
Quan sát trực quan, tác giả thấy rằng tổng số tiền giao dịch và số tiền của giao dịch
không có gian lận có phân phối tương tự nhau. Tuy nhiên, phân phối số tiền bị nghi ngờ
gian lận có xu hướng lớn hơn so với các phân phối khác. Về định lượng, tác giả thấy
trong khi số tiền của các giao dịch được cho là không gian lận trung chủ yếu quanh giá trị
250 USD đổ lại, thì số lượng tiền của giao dịch bị nghi ngờ gian lận lại đạt đỉnh cao vào
khoảng 300 USD, sau đó tập trung mạnh vào khoảng từ 700 đến 1.100 USD. Điều này
cho thấy rằng các giao dịch gian lận thường có giá trị cao hơn các giao dịch không gian
lận cũng như lượng tiền giao dịch cũng trải dài ở một phạm vi rộng hơn.
4.3.3. Khám phá dữ liệu về thời gian giao dịch

 Thời gian trong 1 ngày:
Hình 4.3 Biểu đồ cột thời gian giao dịch theo giờ trong ngày
Các giao dịch bình thường được phân bổ tương đối đều trong ngày. Tuy nhiên, khi
xem xét các giao dịch được cho là gian lận, chúng có xu hướng tập trung vào những giờ
16
khuya từ khoảng 10 giờ tối đến 3 giờ sáng - khoảng thời gian hầu hết mọi người đang
ngủ. Điều này cho thấy những kẻ lừa đảo thường tận dụng thời điểm đêm khuya, lúc mà
những người khác ít quan tâm và theo dõi chặt chẽ đến các giao dịch của họ. Việc hành
động vào ban đêm thường làm giảm sự chú ý và giám sát của chủ thẻ nên các giao dịch
gian lận có thể thực hiện một cách trơn tru, khó có thể bị phát hiện một cách nhanh
chóng.
 Thời gian trong 1 tuần:
Hình 4.4 Biểu đồ cột thời gian giao dịch theo ngày trong tuần
Nhìn vào sự phân bố các giao dịch, tác giả thấy rằng các giao dịch được coi là
bình thường có xu hướng tập trung vào thứ hai và chủ nhật, trong khi các giao dịch gian
lận có xu hướng phân bổ đều trong tuần. Điều này thể hiện sự khác biệt trong hành vi
giữa các giao dịch bình thường và gian lận. Các giao dịch bình thường thường tập trung
17
vào đầu hoặc cuối tuần khi mọi người có nhiều hoạt động hơn như là mua sắm, đi chơi,
cafe với gia đình, bạn bè,... nên thường có nhu cầu sử dụng thẻ tín dụng cao hơn so với
các ngày trong tuần. Mặt khác, các giao dịch gian lận thường không ưu tiên bất kỳ ngày
cụ thể nào, vì vậy chúng có thể được thực hiện vào bất kỳ ngày nào trong tuần.
 Thời gian trong 1 năm:
Hình 4.5 Biểu đồ cột thời gian giao dịch theo tháng trong năm
Khi phân tích về các giao dịch, tác giả quan sát thấy các giao dịch được coi là bình
thường có xu hướng tăng đáng kể vào tháng 12 và tập trung cao vào cuối mùa xuân và
đầu mùa hè. Mặt khác, các giao dịch gian lận lại tuân theo các xu hướng riêng biệt theo
mùa. Sự gia tăng của các giao dịch bình thường trong tháng 12 có thể được giải thích
bằng sự gia tăng hoạt động mua sắm trong dịp lễ Giáng sinh. Vào thời điểm này, mọi
người thường chi nhiều tiền hơn cho quà tặng, du lịch và các hoạt động giải trí. Sự gia
18
tăng này có thể tiếp tục vào đầu mùa hè khi mọi người chuẩn bị cho kỳ nghỉ hè và các
hoạt động ngoài trời. Mặt khác, sự phân phối các giao dịch gian lận được phát hiện là
không đồng đều giữa các mùa, có sự tăng lên vào những thời điểm như kỳ nghỉ lễ, mùa
mua sắm hoặc các sự kiện đặc biệt khác. Điều này có thể là do những kẻ lừa đảo đang cố
gắng che giấu hoạt động gian lận của chúng bằng cách lợi dụng mật độ người dùng và
lưu lượng giao dịch cao trong những khoảng thời gian này.
4.3.4. Khám phá dữ liệu của “gender”

Hình 4.6 Biểu đồ cột khai phá dữ liệu của “gender”
Dữ liệu dường như cho thấy rằng nữ và nam có xu hướng bị tội phạm gian lận
giao dịch tấn công như nhau. Do đó, giới tính không phải là một yếu tố để phát hiện một
giao dịch có phải là gian lận hay không.
19
4.3.5. Khám phá dữ liệu của “age”
Hình 4.7 Biểu đồ cột khai phá dữ liệu của “age”
Trong các giao dịch được cho là bình thường, ta quan sát được hai đỉnh phân phối
độ tuổi. Đỉnh đầu tiên là ở nhóm tuổi 30-35, phản ánh nhóm người trẻ tuổi đang tham gia
vào các hoạt động tài chính như vay mượn, mua sắm và đầu tư. Đỉnh cao thứ hai là trong
độ tuổi từ 45-50, phản ánh nhóm người trưởng thành có thu nhập ổn định và quan tâm
đến việc quản lý tài chính cá nhân. Mặt khác, trong phân bố độ tuổi của các giao dịch bị
nghi ngờ gian lận thì đỉnh đầu tiên vẫn là khoảng 30-35 tuổi (như giao dịch bình thường),
nhưng đỉnh thứ hai đã dịch chuyển vào khoảng 50-60 tuổi. Điều này cho thấy rằng những
người lớn tuổi, đặc biệt là những người gần 60 tuổi, có khả năng dễ bị lừa đảo hơn. Một
số giải thích có thể cho hiện tượng này là những người lớn tuổi được cho là dễ bị lừa đảo
hơn do họ thiếu kinh nghiệm về công nghệ, quá dễ tin tưởng vào người khác và ít được
trang bị những kiến thức về các hình thức lừa đảo mới nhất. Những kẻ lừa đảo có thể cố
20
gắng lợi dụng nhóm người này bằng cách sử dụng thủ đoạn gian lận tinh vi như gọi điện
thoại, gửi email không có thật hoặc đưa ra những đề nghị không trung thực để chiếm đoạt
tài sản, mã số thẻ tín dụng của họ.
4.3.6. Khám phá dữ liệu của “job”

Hình 4.8 Biểu đồ cột khai phá dữ liệu của “job”
Dựa vào biểu đồ, top 20 các nghề nghiệp như Broadcast journalist, Industrial
buyer, Personnel officer,... có tỷ lệ phần trăm giao dịch được coi là gian lận đạt 100%.
Điều này cho thấy những ngành nghề này thường ít sử dụng giao dịch bằng thẻ tín dụng
và thường không đề phòng đối với việc xâm nhập thông tin thẻ tín dụng. Do đó, họ dễ
dàng trở thành đối tượng chính mà tội phạm gian lận giao dịch nhắm đến.
21
4.3.7. Khám phá dữ liệu của “category”
Hình 4.9 Biểu đồ cột khai phá dữ liệu của “category”
Một vài lĩnh vực cho thấy xảy ra nhiều gian lận hơn những lĩnh vực khác. Giao
dịch được cho là gian lận có xu hướng xảy ra thường xuyên hơn trong các lĩnh vực như
Shopping_net, Grocery_pos và Misc_net; trong khi Grocery_net, Shopping_pos,
Misc_pos hầu hết có xu hướng là các giao dịch bình thường.
22
PHẦN 5: XÂY DỰNG CÁC MÔ HÌNH PHÁT HIỆN
GIAO DỊCH GIAN LẬN
5.1. Cân bằng dữ liệu
Hình 5.1 Biểu đồ cột cân bằng dữ liệu với SMOTE
5.2. So sánh các mô hình
Cohen's
Model Accuracy F1 Score Precision Recall
Kappa
1.K-Nearest
0.985622 0.985620 0.985877 0.985622 0.971245
Neighbors
2. Random 0.968355 0.968354 0.968369 0.968355 0.936709
23
Forest
3. Decision
0.979310 0.979309 0.979359 0.979310 0.958620
Tree
4. XGBoost 0.994643 0.994643 0.994644 0.994643 0.989287
Bảng so sánh các mô hình 1
Nhóm tác giả đưa ra 3 tiêu chí tiêu biểu để so sánh, đánh giá và lựa chọn mô hình tốt nhất
cho bài nghiên cứu như sau:
Accuracy F1 score Cohen's Kappa
Accuracy giúp đo F1 score là một số đo Cohen's Kappa giúp đo

lường tỷ lệ dự đoán kết hợp giữa precision lường độ tin cậy của
chính xác của mô hình và recall và thường mô hình trong việc
trên toàn bộ dữ liệu, được sử dụng trong các phân loại các giao dịch
bao gồm cả các giao bài toán mất cân bằng thành gian lận và bình
dịch gian lận và bình dữ liệu. Nó đo lường sự thường. Nó tính toán sự
Ý nghĩa
thường. cân bằng giữa độ chính khác biệt giữa độ chính
xác của dự đoán xác quan sát được và
positive và khả năng độ chính xác ngẫu
tìm ra tất cả các nhiên dự đoán.
positive instances.
Lý do Accuracy là tiêu chí F1 Score là một tiêu chí Cohen's Kappa là một
24
đơn giản và dễ hiểu, quan trọng trong các tiêu chí đo lường sự
đo lường tỷ lệ dự đoán bài toán mất cân bằng đồng nhất giữa dự đoán
chính xác trên tổng số dữ liệu như phát hiện của mô hình và thực tế,
mẫu. gian lận. Nó cân nhắc điều chỉnh cho sự khớp
cả precision và recall, ngẫu nhiên. Đây là một
chọn
giúp đo lường sự cân tiêu chí phù hợp trong
bằng giữa việc dự đoán trường hợp dữ liệu mất
đúng gian lận và khả cân bằng.
năng tìm ra tất cả các
giao dịch gian lận.
TP+TN 2xPxR ' OA − EA

Accuracy= F 1 score= Coℎe n sKappa=
TPre P+ R 1− EA
Trong đó: Trong đó: Trong đó

TP:True Positives P: Precision OA: Observed
TN: True Negatives R: Recall Accuracy là tỷ lệ các
Công
TPre: Total Prediction dự đoán chính xác
thức
EA: Expected
Accuracy là tỷ lệ dự
đoán chính xác trong
trường hợp các dự đoán
ngẫu nhiên.
25
Accuracy là một chỉ số Đối với bài toán phát Cohen's Kappa đánh
quan trọng để đánh giá hiện gian lận, việc cân giá sự khớp giữa dự
tổng thể hiệu suất của nhắc cả precision và đoán của mô hình và
mô hình. Nó cho thấy recall là rất quan trọng. thực tế, loại trừ sự ảnh
mức độ chính xác tổng F1 Score giúp bạn đánh hưởng của việc phân
quan của mô hình giá khả năng của mô loại ngẫu nhiên. Điều
trong việc phân loại cả hình trong việc phát này giúp bạn đánh giá
Lợi ích hai lớp giao dịch (gian hiện gian lận và đồng hiệu suất của mô hình
lận và bình thường). thời giảm thiểu khả một cách chính xác
Tuy nhiên, nếu dữ liệu năng có những giao hơn, đặc biệt trong
mất cân bằng, dịch gian lận bị bỏ sót trường hợp dữ liệu mất
Accuracy có thể không hoặc có những giao cân bằng.
phản ánh chính xác dịch bình thường bị
hiệu suất của mô hình. phân loại nhầm là gian
lận.
Mô hình
được XGBoost (0.994643) XGBoost (0.994643) XGBoost (0.989287)
chọn
Bảng so sánh các mô hình 2
Bằng cách kết hợp cả 3 loại chỉ số Accuracy, F1 Score và Cohen's Kappa, tác giả
có cái nhìn toàn diện hơn về hiệu suất của mô hình trong việc phát hiện gian lận và đánh
giá khả năng cân bằng giữa precision, recall và độ chính xác tổng thể. Qua đó nhóm tác
giả kết luận mô hình XGBoost có kết quả tốt nhất và nên được chọn cho bài toán phát
hiện gian lận trong giao dịch thẻ tín dụng.
26
5.2.1. Ưu điểm của mô hình XGBoost
 Đạt kết quả tốt nhất trên tất cả các tiêu chí: accuracy, F1 score, precision, recall và
Cohen's Kappa.
 Hiệu suất cao: XGBoost được xây dựng trên cơ sở Gradient Boosting Framework, có
khả năng xử lý hiệu quả các bài toán phức tạp và dữ liệu lớn. Nó thường có hiệu suất cao
hơn so với các mô hình truyền thống khác như Decision Tree hay Random Forest.
 Khả năng xử lý dữ liệu mất cân bằng: XGBoost có thể xử lý tốt các vấn đề liên quan
đến mất cân bằng dữ liệu, như trong trường hợp của bạn khi sử dụng phương pháp
SMOTE để cân bằng dữ liệu. Nó có thể điều chỉnh trọng số cho các lớp thiểu số và lớp đa
số để tăng cường khả năng phát hiện gian lận.
 Xử lý các loại biến đặc trưng: XGBoost có khả năng xử lý tốt các biến đặc trưng có
dạng số, nhị phân và hạng mục. Bạn không cần tiền xử lý nhiều để chuyển đổi các biến
đặc trưng này.
5.2.2. Nhược điểm của mô hình XGBoost

 Đòi hỏi tài nguyên tính toán cao: XGBoost có thể yêu cầu tài nguyên tính toán lớn, đặc
biệt là khi dữ liệu lớn và số lượng cây quyết định và các tham số được tinh chỉnh cao.
Điều này có thể làm tăng thời gian huấn luyện và đòi hỏi hệ thống có khả năng xử lý cao.
 Điều chỉnh tham số phức tạp: XGBoost có nhiều tham số cần được tinh chỉnh để đạt
hiệu suất tốt nhất. Việc điều chỉnh tham số có thể đòi hỏi sự hiểu biết sâu về mô hình và
thử nghiệm nhiều cấu hình khác nhau. Điều này có thể làm tăng thời gian và công sức để
điều chỉnh mô hình.
 Khả năng diễn giải thấp: XGBoost là một mô hình phức tạp với nhiều cây quyết định và
kết hợp các cây quyết định này. Điều này làm giảm tính khả diễn giải của mô hình, tức là
khó để hiểu cách mô hình ra quyết định và giải thích kết quả dự đoán.
27
5.2.3. Hướng phát triển
Để phát triển mô hình XGBoost trở nên tốt hơn, nhóm tác giả đề xuất một số ý
kiến như sau:
 Tiếp tục tinh chỉnh các siêu tham số của mô hình XGBoost để tối ưu hóa hiệu suất.
 Xem xét sử dụng các phương pháp kết hợp mô hình (ensemble) để cải thiện kết quả và
giảm thiểu overfitting.
 Nâng cấp dữ liệu bằng cách thu thập thêm thông tin hoặc nâng cấp tính năng mới hữu
ích cho việc phát hiện gian lận.
 Kiểm tra kết quả trên bộ dữ liệu kiểm tra độc lập để đảm bảo tính tổng quát của mô
hình.
 Sử dụng thư viện vaex với các chức năng bao gồm đọc và xử lý dữ liệu lớn, thực hiện
các thao tác trên cột mà không cần tải toàn bộ dữ liệu vào bộ nhớ, cung cấp các tính năng
đa luồng để tăng tốc độ xử lý.
28
PHẦN 6: KẾT LUẬN
Chủ đề phát hiện gian lận trong các giao dịch thẻ tín dụng đã trở thành một lĩnh
vực nghiên cứu quan trọng và thú vị trong lĩnh vực tài chính và bảo mật thông tin. Điều
này càng cấp bách hơn do các hình thức gian lận thẻ tín dụng ngày càng phức tạp, gây ra
mối đe dọa ngày càng tăng đối với tính toàn vẹn và bảo mật của các hệ thống thanh toán.
Các phương pháp và công nghệ phát hiện gian lận trong giao dịch thẻ tín dụng liên tục
được phát triển và cải tiến để đảm bảo hiệu quả và độ chính xác cao hơn trong việc phát
hiện gian lận. Việc sử dụng công nghệ mới và cải tiến trong lĩnh vực này không chỉ giúp
phát hiện và ngăn chặn gian lận một cách hiệu quả mà còn giúp giảm rủi ro tài chính và
bảo vệ thông tin tài khoản của khách hàng. Tương lai sẽ đòi hỏi sự hợp tác chặt chẽ giữa
các tổ chức tài chính và các nhà nghiên cứu để nghiên cứu và phát triển các phương pháp
và kỹ thuật phát hiện gian lận mới nhằm giảm thiểu rủi ro và bảo vệ thông tin. Điều này
bao gồm tăng cường khả năng chống gian lận thẻ tín dụng và hệ thống thanh toán an toàn
của các ngân hàng. Trên cơ sở nghiên cứu và phát triển công nghệ phát hiện gian lận giao
dịch thẻ tín dụng, đề tài này được kỳ vọng sẽ góp phần bảo vệ thông tin tài khoản, giảm
thiểu thiệt hại kinh tế và đảm bảo an toàn, tin cậy cho các giao dịch tài chính.
29
TÀI LIỆU THAM KHẢO
[1] Kartik Shenoy. (2020, August 5). Credit Card Transactions Fraud Detection Dataset.
Kaggle. Retrieved May 14, 2023, from
https://www.kaggle.com/datasets/kartik2112/fraud-detection
[2] Binny Mathews, & Omair Aasim. (2023, April 23). Credit Card Fraud Detection
Project using Machine Learning. ProjectPro. Retrieved May 14, 2023, from
https://www.projectpro.io/article/credit-card-fraud-detection-project-with-source-code-in-
python/568?fbclid=IwAR0j-
vxirgJvT3DZLUtGM2eGdbkG1XN73pP7xAPuOlEbUwUm3xC2qUbBkvE
[3] Hoàng Thị Thúy, & Lê Thị Xuân Thu. (2021, March 5). Phát Hiện Gian Lận Thẻ Tín
Dụng Bằng Học Máy. Cơ sở dữ liệu quốc gia về Khoa học và Công nghệ. Retrieved May
14, 2023, from
https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/315353/
CTv60S2852021076.pdf
[4] Le James. (2016, August 18). The 10 Algorithms Machine Learning Engineers Need
to Know. KDnuggets. Retrieved May 14, 2023, from
http://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html
[5] Đức Trung. (2021, August 28). Đánh giá các mô hình học máy. Viblo. Retrieved May
14, 2023, from
https://viblo.asia/p/danh-gia-cac-mo-hinh-hoc-may-RnB5pp4D5PG
[6] Vietnam+. (2020, May 28). GBG sử dụng học máy và AI để phát hiện gian lận trong
giao dịch thẻ tín dụng, thanh toán số… | Thông cáo báo chí | Vietnam+. VietnamPlus.
Retrieved May 29, 2023, from
30
https://www.vietnamplus.vn/gbg-su-dung-hoc-may-va-ai-de-phat-hien-gian-lan-trong-
giao-dich-the-tin-dung-thanh-toan-so/642600.vnp
[7] Nguyễn Thị Liên, Nguyễn Thị Trang, & Nguyễn Chiến Thắng. (2018, 10). Phương
pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu thực nghiệm.
https://ktpt.neu.edu.vn/tap-chi/so-256ii/muc-luc-661/phuong-phap-hoc-may-trong-phat-
hien-gian-lan-the-tin-dung-mot-nghien-cuu-thuc-nghiem.378964.aspx
[8] Hồ Quang Thái. (2018, June 1). Làm thế nào Machine Learning có thể cải thiện phát
hiện gian lận trong thời gian thực. HelpEx. Retrieved May 16, 2023, from
https://helpex.vn/article/lam-the-nao-machine-learning-co-the-cai-thien-phat-hien-gian-
lan-trong-thoi-gian-thuc-5c6643afae03f60128765725
[9] akaBot. (2022, January 5). 7 Trường Hợp Sử Dụng Machine Learning Trong Ngân
Hàng. akaBot. Retrieved May 17, 2023, from
https://akabot.com/vi/tai-nguyen/blog/machine-learning-trong-ngan-hang/
[10] Hoàng Thị Thúy, & Lê Thị Xuân Thu. (2021, March 5). Phát hiện gian lận thẻ tín
dụng bằng học máy. Cơ sở dữ liệu quốc gia về Khoa học và Công nghệ. Retrieved May
17, 2023, from
https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/315353/
CTv60S2852021076.pdf
[11] Nguyễn Thị Loan Hồng. (2018). Một số thuật toán ứng dụng trong phát hiện gian
lận thanh toán thẻ tín dụng. Tạp chí Khoa học Tài nguyên và Môi trường - Số 22.
https://vjol.info.vn/index.php/hunre/article/view/40424/32473
[12] Jonathan Kwaku Afriyie a, Kassim Tawiah, Wilhemina Adoma Pels a, Sandra
Addai-Henne, Harriet Achiaa Dwamena, Emmanuel Odame Owiredu, Samuel Amening
31
Ayeh, & John Eshun. (2023, January 14). A supervised machine learning algorithm for
detecting and predicting fraud in credit card transactions. Retrieved May 20, 2023, from
https://www.sciencedirect.com/science/article/pii/S2772662223000036
[13] Vaishnavi Nath Dornadula, & S Geetha. (2019). Credit Card Fraud Detection using
Machine Learning Algorithms. Retrieved May 20, 2023, from
https://www.sciencedirect.com/science/article/pii/S187705092030065X?via%3Dihub
[14] Waleed Hilal, S. Andrew Gadsden, & John Yawney. (2022, May 1). Financial
Fraud: A Review of Anomaly Detection Techniques and Recent Advances. Retrieved May
22, 2023, from
https://www.sciencedirect.com/science/article/pii/S0957417421017164?via%3Dihub
[15] Sumit Misra, Soumyadeep Thakur, Manosij Ghosh, & Sanjoy Kumar Saha. (2020).
An Autoencoder Based Model for Detecting Fraudulent Credit Card Transaction.
https://www.sciencedirect.com/science/article/pii/S1877050920306840
[16] Xuan, S., Liu, G., Li, Z., Zheng, L., Wang, S., & Jiang, C. (2018, March). Random
forest for credit card fraud detection. In 2018 IEEE 15th international conference on
networking, sensing and control (ICNSC) (pp. 1-6). IEEE. Retrieved May 22, 2023, from
https://scholar.google.com/scholar_lookup?title=Random%20forest%20for%20credit
%20card%20fraud%20detection&publication_year=2018&author=S.
%20Xuan&author=S.%20Wang
[17] Tyagi, R., Ranjan, R., & Priya, S. (2021, November). Credit Card Fraud Detection
Using Machine Learning Algorithms. In 2021 Fifth International Conference on I-SMAC
(IoT in Social, Mobile, Analytics and Cloud)(I-SMAC) (pp. 334-341). IEEE. Retrieved
May 23, 2023, from
32
https://scholar.google.com/scholar?q=R.%20Tyagi,%20R.%20Ranjan,%20S.%20Priya,
%20Credit%20card%20fraud%20detection%20using%20machine%20learning
%20algorithms.%20%20334341.
[18] Tran, T. C., & Dang, T. K. (2021, January). Machine learning for prediction of
imbalanced data: Credit fraud detection. In 2021 15th International Conference on
Ubiquitous Information Management and Communication (IMCOM) (pp. 1-7). IEEE.
https://scholar.google.com/scholar_lookup?title=Machine%20learning%20for
%20prediction%20of%20imbalanced%20data%20%3A%20Credit%20fraud
%20detection.%20Ml&publication_year=2021&author=T.C.%20Tran&author=B.T.
%20District&author=H.%20Chi&author=M.%20City&author=T.K.
%20Dang&author=H.%20Chi&author=M.%20City&author=L.T.
%20Ward&author=T.D.%20District&author=H.%20Chi&author=M.%20City
[19] Awoyemi, J. O., Adetunmbi, A. O., & Oluwadare, S. A. (2017, October). Credit card
fraud detection using machine learning techniques: A comparative analysis. In 2017
international conference on computing networking and informatics (ICCNI) (pp. 1-9).
IEEE. Retrieved May 23, 2023, from
https://scholar.google.com/scholar?q=Awoyemi,%20John%20O.,%20et%20al.%20Credit
%20Card%20Fraud%20Detection%20Using%20Machine%20Learning%20Techniques:
%20A%20Comparative%20Analysis.%202017%20International%20Conference%20on
%20Computing%20Networking%20and%20Informatics
%20,%202017,%20doi:10.1109iccni.2017.8123782.
[20] Zou, J., Zhang, J., & Jiang, P. (2019). Credit card fraud detection using autoencoder
neural network. arXiv preprint arXiv:1908.11553. Retrieved May 25, 2023, from
https://scholar.google.com/scholar?q=Jiang,%20P.,%20Zhang,%20J.,%20%20Zou,%20J.
%20.%20Credit%20Card%20Fraud%20Detection%20Using%20Autoencoder%20Neural
%20Network.%20Retrieved%20from%20arXiv:1908.11553.
33

Tiểu Luận Cuối Kì Phân Tích Dữ Liệu

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tiểu Luận Cuối Kì Phân Tích Dữ Liệu

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT

ĐỒ ÁN CUỐI KỲ - HK2 (2022-2023)

Mã lớp học phần: 222MI2101

Nhóm thực hiện: Nhóm ACCTV

Thành phố Hồ Chí Minh, tháng 5 năm 2023

DANH MỤC HÌNH ẢNH.................................................................................................2

PHẦN 1: GIỚI THIỆU.....................................................................................................4

1.1. Lý do chọn đề tài.......................................................................................................4

1.2. Mục đích nghiên cứu.................................................................................................4

1.3. Phương pháp nghiên cứu...........................................................................................4

PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN.................................................................5

PHẦN 3: NỀN TẢNG LÝ THUYẾT...............................................................................8

3.1. Học máy (Machine Learning)...................................................................................8

3.2. Phương pháp cân bằng dữ liệu SMOTE....................................................................9

3.3. Mô hình K-Nearest Neighbors Classifier..................................................................9

3.4. Mô hình Decision Tree Classifier.............................................................................9

3.5. Mô hình Random Forest Classifier.........................................................................10

3.6. Mô hình XGBoost...................................................................................................10

PHẦN 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU........................................11

4.1. Hiểu dữ liệu.............................................................................................................11

4.3. Khai phá dữ liệu......................................................................................................12

4.3.1. Phần trăm điểm dữ liệu giao dịch gian lận......................................................12

4.3.2. Khám phá dữ liệu của “amt”...........................................................................13

4.3.3. Khám phá dữ liệu về thời gian giao dịch.........................................................15

4.3.5. Khám phá dữ liệu của “age”...........................................................................19

4.3.6. Khám phá dữ liệu của “job”............................................................................20

4.3.7. Khám phá dữ liệu của “category”...................................................................21

5.1. Cân bằng dữ liệu......................................................................................................22

5.2. So sánh các mô hình................................................................................................22

5.2.1. Ưu điểm của mô hình XGBoost........................................................................25

5.2.2. Nhược điểm của mô hình XGBoost..................................................................26

5.2.3. Hướng phát triển..............................................................................................26

PHẦN 6: KẾT LUẬN......................................................................................................28

TÀI LIỆU THAM KHẢO...............................................................................................29

Bảng 4.3.2: Bảng thống kê mô tả dữ liệu ‘amt’.................................................................13

Bảng 5.2: So sánh các mô hình 1.......................................................................................22

Bảng 5.2: So sánh các mô hình 2.......................................................................................23

Hình 4.2 Biểu đồ cột khai phá dữ liệu của “amt”..............................................................14

Hình 4.6 Biểu đồ cột khai phá dữ liệu của “gender”.........................................................18

Hình 4.7 Biểu đồ cột khai phá dữ liệu của “age”..............................................................19

Hình 4.8 Biểu đồ cột khai phá dữ liệu của “job”...............................................................20

Hình 4.9 Biểu đồ cột khai phá dữ liệu của “category”......................................................21

Hình 5.1 Biểu đồ cột cân bằng dữ liệu với SMOTE..........................................................22

1.1. Lý do chọn đề tài

1.2. Mục đích nghiên cứu

1.3. Phương pháp nghiên cứu

PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN

 “A supervised machine learning algorithm for detecting and predicting fraud in

 “Credit Card Fraud Detection using Machine Learning Algorithms.” (Vaishnavi

 “Review of Anomaly Detection Techniques and Recent Advances” (Waleed

 “A Neural Network Ensemble With Feature Engineering for Improved Credit

4.1. Hiểu dữ liệu

 trans_date_trans_time: Thời gian giao dịch

 cc_num: Mã số thẻ tín dụng

 merchant: Tên người nhận

 category: Lĩnh vực giao dịch

 amt: Số tiền giao dịch

 first: Tên của chủ thẻ tín dụng

 last: Họ của chủ thẻ tín dụng

 gender: Giới tính

 street: Địa chỉ giao dịch

 city: Thành phố giao dịch