222MI2101 DoAnCuoiKy ACCTV MonPhanTichDuLieu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT
ĐỒ ÁN CUỐI KỲ - HK2 (2022-2023)

MÔN HỌC PHÂN TÍCH DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ

LIỆU VÀ XÂY DỰNG MÔ HÌNH PHÁT HIỆN
GIAN LẬN GIAO DỊCH QUA THẺ TÍN DỤNG
Mã lớp học phần: 222MI2101
Nhóm thực hiện: Nhóm ACCTV
Giảng viên hướng dẫn: TS. Nguyễn Thôn Dã
Thành phố Hồ Chí Minh, tháng 5 năm 2023

DANH SÁCH THÀNH VIÊN
Mã số sinh viên Họ và tên Địa chỉ email
K214142056 Trần Tất Anh anhtt21414@st.uel.edu.vn
K214142057 Lê Phước Hồng Cẩm camlph21414@st.uel.edu.vn
K214142058 Nguyễn Đình Chương chuongnd21414@st.uel.edu.vn
K214142091 Trần Bảo Trân trantb21414@st.uel.edu.vn
K214142100 Trần Ý Vy vyty21414@st.uel.edu.vn
MỤC LỤC
DANH MỤC BẢNG..................................................................................................1
DANH MỤC HÌNH ẢNH.........................................................................................2
TÓM TẮT..................................................................................................................3
PHẦN 1: GIỚI THIỆU.............................................................................................4
1.1. Lý do chọn đề tài..................................................................................................4
1.2. Mục đích nghiên cứu............................................................................................4
1.3. Phương pháp nghiên cứu......................................................................................4
PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN.........................................................5
PHẦN 3: NỀN TẢNG LÝ THUYẾT.......................................................................8
3.1. Học máy (Machine Learning)..............................................................................8
3.2. Phương pháp cân bằng dữ liệu SMOTE..............................................................9
3.3. Mô hình K-Nearest Neighbors Classifier.............................................................9
3.4. Mô hình Decision Tree Classifier......................................................................10
3.5. Mô hình Random Forest Classifier....................................................................10
3.6. Mô hình XGBoost..............................................................................................10
PHẦN 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU...............................12
4.1. Hiểu dữ liệu........................................................................................................12
4.2. Xử lý dữ liệu......................................................................................................13
4.3. Khai phá dữ liệu.................................................................................................13
4.3.1. Phần trăm điểm dữ liệu giao dịch gian lận....................................................13
4.3.2. Khám phá dữ liệu của “amt”.........................................................................14
4.3.3. Khám phá dữ liệu về thời gian giao dịch........................................................16
4.3.4. Khám phá dữ liệu của “gender”...................................................................19
4.3.5. Khám phá dữ liệu của ‘age’...........................................................................20
4.3.6. Khám phá dữ liệu của ‘job’............................................................................22
4.3.7. Khám phá dữ liệu của ‘category’...................................................................22
PHẦN 5: XÂY DỰNG CÁC MÔ HÌNH PHÁT HIỆN CÁC GIAO DỊCH GIAN
LẬN...............................................................................................................................24
5.1. Cân bằng dữ liệu................................................................................................24
5.2. So sánh các mô hình...........................................................................................24
5.2.1. Ưu điểm của mô hình XGBoost......................................................................27
5.2.2. Nhược điểm của mô hình XGBoost.................................................................28
5.2.3. Hướng phát triển............................................................................................28
PHẦN 6: KẾT LUẬN.............................................................................................30
TÀI LIỆU THAM KHẢO......................................................................................31

DANH MỤC BẢNG
Bảng 4.3.2: Bảng thống kê mô tả dữ liệu ‘amt’........................................................15
Bảng 5.2: So sánh các mô hình 1..............................................................................24
Bảng 5.2: So sánh các mô hình 2..............................................................................25
1
DANH MỤC HÌNH ẢNH
Hình 4.1 Biểu đồ cột số lần giao dịch bình thường - gian lận..................................14
Hình 4.2 Biểu đồ cột khai phá dữ liệu của “amt”.....................................................16
Hình 4.3 Biểu đồ cột thời gian giao dịch theo giờ trong ngày..................................17
Hình 4.4 Biểu đồ cột thời gian giao dịch theo ngày trong tuần................................18
Hình 4.5 Biểu đồ cột thời gian giao dịch theo tháng trong năm...............................19
Hình 4.6 Biểu đồ cột khai phá dữ liệu của “gender”................................................20
Hình 4.7 Biểu đồ cột khai phá dữ liệu của “age”......................................................21
Hình 4.8 Biểu đồ cột khai phá dữ liệu của “job”......................................................22
Hình 4.9 Biểu đồ cột khai phá dữ liệu của “category”..............................................23
Hình 5.1 Biểu đồ cột cân bằng dữ liệu với SMOTE.................................................24
2
TÓM TẮT
Trong thời đại công nghệ hóa – hiện đại hóa ngày càng phát triển, hoạt động thanh
toán qua thẻ tín dụng đã dần thay thế phương thức thanh toán truyền thống, trở thành
tiện ích tất yếu trong đời sống hằng ngày. Chỉ với một tấm thẻ nhỏ trong lòng bàn tay,
khách hàng có thể thực hiện giao dịch ở mọi lúc, mọi nơi cho toàn bộ hoạt động mua
sắm của mình. Tuy nhiên, đi kèm với những tiện lợi đó là rủi ro tiềm ẩn gây ra tổn thất
tài chính lớn bởi doanh nghiệp bán hàng không thể kiểm tra ở đầu thẻ bên kia có phải -
chủ thẻ hay một ai khác. Hơn thế nữa, số lượng tội phạm công nghệ cao tăng nhanh
chóng mặt với nhiều thủ đoạn tinh vi, lợi dụng lỗ hổng của hàng rào bảo mật thẻ tín
dụng non trẻ nhằm chiếm đoạt tài sản.
Trong bài nghiên cứu này, nhóm đã tập trung xây dựng mô hình phát hiện giao dịch
qua thẻ tín dụng bằng phương pháp SMOTE, các mô hình K-Nearest Neighbors
Classifier, Random Forest Classifier, Decision Tree Classifier, XGBoost nhằm lựa
chọn ra mô hình phù hợp dựa trên so sánh hiệu quả phát hiện gian lận. Kết quả cho
thấy mô hình XGBoost Classifier có chỉ số F1-Score cao nhất (tới 0.9946) và là mô
hình tối ưu nhất.
TỪ KHÓA: Giao dịch gian lận, gian lận thẻ tín dụng, phân tích dữ liệu,
trực quan hóa dữ liệu, học máy, mô hình
3
PHẦN 1: GIỚI THIỆU
1.1. Lý do chọn đề tài
Với sự phát triển vượt bậc của hệ thống công nghệ thông tin, các hình thức thanh
toán của ngân hàng ngày càng trở nên đa dạng. Trong đó, thẻ tín dụng được coi là
phương thức thanh toán nhanh chóng, tiện lợi và phổ biến nhất với mọi người. Song,
phát triển cùng với hình thức thanh toán này là các hình thức lừa đảo, gian lận giao
dịch tinh vi. Hình thức gian lận giao dịch thường là lừa đảo để đánh cắp thông tin thẻ
tín dụng của khách hàng để mua sắm, rút tiền hoặc thực hiện các giao dịch chuyển tiền
trực tuyến,... Điều này không những gây ra rủi ro cho người dùng thẻ như mất tiền, để
lộ thông tin cá nhân và các thông tin quan trọng khác; mà còn gây ảnh hưởng to lớn
đến tính an toàn và khả năng bảo mật của hệ thống thanh toán ngân hàng. Vì những lý
do trên, nhóm tác giả đã chọn đề tài “Phân tích, trực quan hóa dữ liệu và xây dựng mô
hình phát hiện gian lận giao dịch qua thẻ tín dụng” để nghiên cứu và phát hiện ra
những dấu hiệu đặc trưng thường có của một giao dịch gian lận.
1.2. Mục đích nghiên cứu
Mục đích đề tài là xây dựng một hệ thống phát hiện gian lận giao dịch qua thẻ tín
dụng hiệu quả giảm thiểu tổn thất tài chính cũng như tiết kiệm thời gian và công sức
trong việc xử lý các vụ gian lận. Hệ thống này sẽ giúp cho các ngân hàng và tổ chức
tài chính có thể nhanh chóng phát hiện các giao dịch có nghi vấn gian lận và kịp thời
ngăn chặn các hành vi lừa đảo.
1.3. Phương pháp nghiên cứu
Nhóm tác giả áp dụng phương pháp nghiên cứu là phân tích dữ liệu và xây dựng các
mô hình học máy để phát hiện những đặc trưng điển hình của một giao dịch gian lận
4
qua thẻ tín dụng. Phương pháp này sử dụng các kỹ thuật phân tích, trực quan hóa dữ
liệu và học máy để xác định các điểm gian lận và phát hiện các giao dịch bất thường.
PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN
Gian lận trong giao dịch thẻ tín dụng đang là vấn đề nhức nhối, ảnh hưởng đến tính
bảo mật của hệ thống thanh toán. Do đó, rất nhiều nghiên cứu đã được thực hiện về
chủ đề này. Các nghiên cứu đáng chú ý bao gồm:
 “GBG sử dụng máy học và trí tuệ nhân tạo để phát hiện gian lận trong giao dịch
thẻ tín dụng và thanh toán kỹ thuật số” (Vietnam+, 2020): Trong bài viết này, GBG sử
dụng máy học và trí tuệ nhân tạo để phát hiện gian lận thẻ tín dụng Hệ thống máy học
của GBG đã được sử dụng thành công để cảnh báo khách hàng về gian lận và cải thiện
khả năng phát hiện gian lận bị bỏ sót .
 “Phương pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu
thực nghiệm” (Nguyễn Thị Liên et al., 2018): Nghiên cứu này tập trung vào cách sử
dụng máy học trong các giao dịch thẻ để phát hiện gian lận thẻ tín dụng. tôi ở đây. Bài
viết này trình bày các nghiên cứu thực nghiệm sử dụng các kỹ thuật máy học như
Naive Bayes, K-Nearest Neighbors (KNN) và Support Vector Machine (SVM). Kết
quả nghiên cứu cho thấy các kỹ thuật máy học có thể phát hiện gian lận một cách hiệu
quả.
 “Làm thế nào Machine Learning có thể cải thiện phát hiện gian lận trong thời gian
thực” (Hồ Quang Thái, 2018): Bài viết tập trung vào lợi ích của máy học trong phát
hiện gian lận trong giao dịch thẻ tín dụng. Nó đề cập đến việc sử dụng máy học để chủ
động phát hiện gian lận và cải thiện độ chính xác của việc phát hiện gian lận.
 “Máy học trong ngân hàng” (akaBot, 2022): Bài viết tìm hiểu việc sử dụng máy
học trong ngành ngân hàng để cải thiện độ chính xác của việc phát hiện gian lận trong
các giao dịch thẻ tín dụng. Điều này nhấn mạnh cách học máy có thể giúp tiết kiệm
thời gian và cải thiện trải nghiệm của khách hàng.
5
 “Một số thuật toán ứng dụng trong phát hiện gian lận thanh toán thẻ tín dụng”
(Nguyễn Thị Hồng Loan, 2018): Khai phá dữ liệu là một trong những kỹ thuật được
ứng dụng trong các hệ thống ngân hàng. Bài báo trình bày 1 số thuật toán trong khai
phá được đánh giá là hiệu quả nhất trong các hệ thống phát hiện gian lận giao dịch thẻ
tín dụng.
 “Phương pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu
thực nghiệm” (Nguyễn Thị Liên, Nguyễn Thị Thu Trang, Nguyễn Chiến Thắng,
2018): Nghiên cứu giới thiệu các phương pháp thống kê và học máy để phát hiện gian
lận thẻ tín dụng tại ngân hàng thương mại. Nghiên cứu ứng dụng các mô hình như mô
hình Logistic, mạng Bayes (Bayesian Network), cây quyết định (Decision trees),
phương pháp Stacking (Stacked generalization). Ngoài ra, nghiên cứu cũng đưa ra một
số cách xử lý trong trường hợp dữ liệu mất cân bằng. Thông qua kết quả so sánh các
mô hình và xử lý dữ liệu mất cân bằng.
 “A supervised machine learning algorithm for detecting and predicting fraud in

credit card transactions. A supervised machine learning algorithm for detecting and
predicting fraud in credit card transactions” (Jonathan Kwaku Afriyie a et al., 2023):
Bài viết đề xuất một phương pháp học máy có giám sát để phát hiện gian lận trong
giao dịch thẻ tín dụng. Nghiên cứu tập trung vào việc áp dụng các thuật toán Random
Forests để xử lý gian lận và xác định độ chính xác của phương pháp.
 “Credit Card Fraud Detection using Machine Learning Algorithms.” (Vaishnavi

Nath Dornadula & S Geetha, 2019): Bài viết đề xuất một phương pháp học máy có
giám sát để phát hiện gian lận trong giao dịch thẻ tín dụng. Nghiên cứu tập trung vào
việc áp dụng các thuật toán Random Forests để xử lý gian lận và xác định độ chính xác
của phương pháp.
 “Review of Anomaly Detection Techniques and Recent Advances” (Waleed Hilal

et al., 2022): Bài viết tập trung vào việc áp dụng phương pháp học máy có giám sát
trong việc phát hiện gian lận trong giao dịch thẻ tín dụng. Nghiên cứu đề xuất một mô
hình kết hợp dựa trên Support Vector Machine (SVM) và Bayesian Optimization để
6
tăng cường hiệu suất phát hiện gian lận trong giao dịch thẻ tín dụng. Ngoài ra, bài viết
cũng tiếp cận vấn đề của bất cân xứng dữ liệu và đề xuất một phương pháp chuyển đổi
dữ liệu bất cân xứng để cải thiện hiệu suất phát hiện.
 “A Neural Network Ensemble With Feature Engineering for Improved Credit Card
Fraud Detection” (E. Esenogho, I. D. Mienye, T. G. Swart, K. Aruleba and G. Obaido,
2022). Bài viết này đề xuất một cách tiếp cận hiệu quả để phát hiện gian lận bằng cách
sử dụng thuật toán neural network ensemble classifier và phương pháp lấy mẫu lại dữ
liệu lại. Hiệu quả của nghiên cứu được chứng thực khi đem so sánh với các thuật toán
khác: support vector machine (SVM), multilayer perceptron (MLP), decision tree,
traditional AdaBoost, và LSTM. Kết quả thử nghiệm cho thấy rằng kết quả gian lận
giao dịch chính xác hơn khi được huấn luyện với dữ liệu lấy mẫu lại và nhóm LSTM
hoạt động tốt hơn các thuật toán khác thông qua độ nhạy 0,996.
Tất cả các nghiên cứu này đều tập trung vào việc phát hiện và ngăn chặn các giao
dịch thẻ tín dụng gian lận. Để đạt được điều này, nghiên cứu đã sử dụng các kỹ thuật
phân tích dữ liệu, học máy và khai thác dữ liệu. Tuy nhiên, những nghiên cứu này
cũng chỉ ra một số thách thức và hạn chế trong việc phát hiện các giao dịch gian lận
như độ phức tạp của dữ liệu, khó khăn trong việc xác định các điểm giao dịch bất
thường và độ chính xác của các mô hình.
7
PHẦN 3: NỀN TẢNG LÝ THUYẾT
3.1. Học máy (Machine Learning)
Học máy (Machine Learning) là một công nghệ phát triển từ trí tuệ nhân tạo, sử
dụng các thuật toán do con người lập trình để giải quyết các vấn đề cụ thể như tính
toán, mô phỏng, xử lý lượng thông tin lớn. Do nhiều tiện ích, học máy đã được ứng
dụng phổ biến như lọc thư điện tử, nhận diện khuôn mặt, khuyến cáo sản phẩm và đặc
biệt nhất phải kể đến phát hiện giao dịch gian lận qua thẻ tín dụng. Tuy nhiên, học máy
vẫn cần đòi hỏi sự khéo léo của con người trong tìm hiểu và lựa chọn kĩ thuật phù hợp
để phân tích dữ liệu. Đồng thời, trước khi sử dụng, dữ liệu phải sạch, không có sai lệch
và không có dữ liệu giả. Do đó trong nghiên cứu, nhóm đã tiến hành kiểm tra dữ liệu
thiếu hoặc trùng nhau, kiểm tra số lượng giá trị duy nhất trong bộ dữ liệu và bóc tách
chuyên sâu trong việc khám phá nhằm giảm thiểu sai sót.
Học máy có 2 loại bao gồm học có giám sát (supervised learning) và học không
giám sát (unsupervised learning). Trong học có giám sát, máy tính học cách mô hình
hóa các mối quan hệ dựa trên dữ liệu được gán nhãn (labeled data). Ngược lại với học
không giám sát máy tính không được cung cấp dữ liệu được dán nhãn mà thay vào đó
chỉ được cung cấp dữ liệu mà thuật toán tìm cách mô tả dữ liệu và cấu trúc của chúng
và trả lại biến đầu ra. Tùy thuộc vào biến đầu ra là rời rạc hay liên tục mà chúng ta có
thể phân biệt hai nhiệm vụ được giám sát: phân loại (classification) hay hồi quy
(regression). Phát hiện gian lận giao dịch qua thẻ tín dụng thuộc nhóm đầu tiên vì các
đầu ra được phân thành hai loại là có gian lận (fraud) hoặc không gian lận (non-fraud).
Dữ liệu trong các thuật toán thuộc nhánh "không giám sát" chỉ có đầu vào mà không
cần đầu ra vì ứng dụng chủ yếu của nó chỉ để khám phá cấu trúc và mối quan hệ dữ
liệu với nhau
Một số thuật toán sử dụng phổ biển để phát hiện các gian lận giao dịch ngày nay
bao gồm:
 Artificial neutron network
 Random Forest
8
 K-Nearest Neighbors
 Fuzzy Logic
 Decision Tree
 XGBoost
 Support vector machine
Trong bài báo cáo này, nhóm chủ yếu tập trung so sánh và phân tích 4 mô hình
chính là mô hình K-Nearest Neighbors, mô hình Random Forest, mô hình Decision
Tree và mô hình XGBoost.
3.2. Phương pháp cân bằng dữ liệu SMOTE
Mất cân bằng dữ liệu là một trong những hiện tượng phổ biến của bài toán phát hiện
gian lận, phát hiện rủi ro tiềm ẩn,...Khi xảy ra hiện tượng mất cân bằng nghiêm trọng,
tức tỷ lệ lớn hơn 90:10 sẽ ảnh hưởng đến kết quả dự báo, giảm chất lượng của mô hình
phân loại vì kết quả sẽ tương ứng với lớp đa số và lớp thiểu số lúc này đóng vai trò
như "nhiễu" tạo nên sai lệch đáng kể. Do đó vấn đề đặt ra là phải cân bằng dữ liệu. Ở
bài toán phát hiện gian lận giao dịch này, nhóm tập trung vào phương pháp SMOTE
(Synthetic Minority Oversampling Technique). Thuật toán này giúp khắc phục vấn đề
overfitting do lấy mẫu quá mức ngẫu nhiên. SMOTE hoạt động bằng các tạo ra các
mẫu tổng hợp từ các lớp thiểu số thay cho việc tạo ra các bản sao. Thuật toán chọn 2
hay nhiều trường hợp giống nhau (sử dụng thước đo khoảng cách để so sánh) và xáo
trộn một cá thể một thuộc tính tại một thời điểm bằng một lượng ngẫu nhiên trong
khoảng chênh lệch với các trường hợp lân cận.
3.3. Mô hình K-Nearest Neighbors Classifier
Đúng như tên gọi thuật toán K-láng giềng gần nhất là một kĩ thuật phân loại học có
giám sát (supervised learning) dùng để phân loại quan sát mới bằng cách tìm điểm
tương đồng giữa quan sát mới này với dữ liệu sẵn có. Ý tưởng bắt nguồn từ việc K-
Nearest Neighbors Classifier cho rằng các dữ liệu tương tự nhau sẽ tồn tại gần nhau
9
trong cùng một không gian, việc của người phân tích chỉ tìm k điểm gần với dữ liệu
cần kiểm tra thông qua tính toán khoảng cách.
3.4. Mô hình Decision Tree Classifier
Trong thực tế có nhiều mô hình học máy được thiết kế dưới dạng câu hỏi nhằm đưa
ra quyết định cuối cùng. Các câu hỏi sẽ được hệ thống như một cái cây nhị phân bao
gồm các nhánh nhỏ và dựa vào đặc tính của dữ liệu để đưa ra dự báo True (đúng) hoặc
False (Sai). Ở bài toán phát hiện gian lận, mô hình sẽ tính điểm tương tác giữa các dữ
liệu như tuổi tác, giới tính, ngành nghề, ngày giờ giao dịch nhằm phát hiện ra sự bất
thường và đưa ra dự đoán có gian lận hay không. Mô hình này đưa ra dự báo nhanh và
tiện lợi tuy nhiên lại dễ xảy ra overfitting (tạo ra những cây quá khớp với dữ liệu huấn
luyện hay quá phức tạp) và không xử lý được nhiều dữ liệu bùng nổ như hình ảnh,
video, âm thanh,...
3.5. Mô hình Random Forest Classifier
Dựa trên mô hình Decision Tree. Dù có độ chính xác khá cao nhưng mô hình này
luôn tồn tại những sai lệch không đáng có vì thế mô hình random forest đã được thay
thế nhằm loại bỏ sai lệch này thông qua việc tích hợp nhiều cây quyết định trên các
mẫu dữ liệu được chọn ngẫu nhiên. Thuật toán của Random Forest hoạt động dựa trên
việc bỏ phiếu các kết quả dự đoán và chọn ra kết quả được dự đoán nhiều nhất sau
cùng. Nhờ đó đây được coi là phương pháp chính xác và không bị overfitting. Random
forests cũng có thể xử lý các dữ liệu thiếu sót (null) bằng cách tính toán giá trị trung
bình để thay thế biến liên tục hoặc tính toán khoảng cách trung bình gần nhất của các
giá trị bị thiếu
3.6. Mô hình XGBoost
XGBoost (Extreme Gradient Boosting) là một giải thuật được base trên gradient
boosting, tuy nhiên kèm theo đó là những cải tiến to lớn về mặt tối ưu thuật toán khi
10
kết hợp mô hình giữa các cây quyết định, làm giảm các sai số khi huấn luyện (Training
Loss), chuẩn hóa các sai số, hệ số biến (Regularization) và xử lý nhanh gọn dữ liệu ở
mọi kích thước, định dạng bao gồm cả categorical thường tìm thấy nhiều trong
business model. Mô hình này được ứng dụng để giải quyết mọi vấn đề từ hồi quy đến
phân loại. Có thể nói trong trường hợp nghiên cứu gian lận giao dịch qua thẻ tín dụng,
mô hình XGBoost là phù hợp và tối ưu nhất.
11
PHẦN 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU
Trong thực tế, việc thu thập dữ liệu mô tả hành vi giao dịch của khách hàng qua thẻ
tín dụng là rất khó khăn do đây là những thông tin cá nhân của người dùng mà ngân
hàng phải có trách nhiệm bảo mật chặt chẽ, an toàn. Vì vậy, bộ dữ liệu được nhóm tác
giả sử dụng trong đề tài này được lấy từ website Kaggle do tác giả Brandon Harris sử
dụng công cụ Sparkov Data Generation | Github để tiến hành xây dựng mô phỏng các
giao dịch (gồm giao dịch bình thường và gian lận) trong khoảng thời gian từ
01/01/2019-31/12/2020 của hơn 1000 khách hàng thực hiện giao dịch với nhóm 800
người nhận tiền ở Mỹ. Song, do bộ dữ liệu khá lớn nên ở đây tác giả chỉ trích xuất
những loại giao dịch trong biến “category” có kết thúc bằng “net” hoặc “pos” để thực
hiện việc nghiên cứu đề tài.
4.1. Hiểu dữ liệu
Bộ dữ liệu bao gồm 13 biến như sau:
 trans_date_trans_time: Thời gian giao dịch
 cc_num: Mã số thẻ tín dụng
 merchant: Tên người nhận
 category: Lĩnh vực giao dịch
 amt: Số tiền giao dịch
 first: Tên của chủ thẻ tín dụng
 last: Họ của chủ thẻ tín dụng
 gender: Giới tính
 street: Địa chỉ giao dịch
 city: Thành phố giao dịch
12
 job: Công việc
 dob: Ngày sinh
 is_fraud: Loại giao dịch (1 là gian lận, 0 là bình thường)
Ở đây, biến "is_fraud" là biến mục tiêu của nhóm tác giả.
4.2. Xử lý dữ liệu
Nhóm tác giả đã tiến hành quá trình xử lý và làm sạch dữ liệu theo các bước sau:
- Bước 1: Đếm số dòng dữ liệu.
- Bước 2: Kiểm tra xem có cột nào bị thiếu dữ liệu.
- Bước 3: Kiểm tra xem có dòng dữ liệu nào trùng nhau.
- Bước 4: Kiểm tra số lượng giá trị duy nhất trong bộ dữ liệu.
- Bước 5: Chuyển đổi cột “trans_date_trans_time” thành định dạng datetime.
- Bước 6: Tách cột “trans_date_trans_time” thành các cột “trans_hour”,

“trans_day_of_week”, “trans_year_month”.
- Bước 7: Tìm tuổi của khách hàng tại thời điểm giao dịch.
- Bước 8: Xóa bỏ các cột “trans_date_trans_time”, “dob”, “first”, “last” ra khỏi bộ

dữ liệu.
- Bước 9: Chỉ lấy các dòng dữ liệu có đuôi "net" hoặc "pos" trong cột “category”.
- Bước 10: Xem lại bộ dữ liệu sau khi đã xử lý.
4.3. Khai phá dữ liệu
4.3.1. Phần trăm điểm dữ liệu giao dịch gian lận
13
Hình 4.1 Biểu đồ cột số lần giao dịch bình thường - gian lận
Nguồn: Nhóm tác giả thực hiện
Ta thấy rằng, tỷ lệ phần trăm của giao dịch gian lận chỉ chiếm khoảng 0,96% nhưng
tỷ lệ phần trăm của các giao dịch bình thường lên tới 99,04%. Do đó, đây là một bộ dữ
liệu mất cân bằng nghiêm trọng nên nhóm tác giả sẽ tiến hành cân bằng dữ liệu ở phần
5 của bài nghiên cứu này để phục vụ việc xây dựng các mô hình không bị thiên vị.
4.3.2. Khám phá dữ liệu của “amt”
14
Row Overall Amt Non-Fraud Amt Fraud Amt
Type Distribution Distribution Distribution
1 count 751737.000000 744555.000000 7182.000000
2 mean 84.750868 79.050045 675.752904
3 std 173.579039 161.005005 337.101827
4 min 1.000000 1.000000 5.600000
5 25% 6.470000 6.410000 318.725000
6 50% 39.970000 38.970000 794.945000
7 75% 104.520000 102.950000 954.205000
8 max 9754.720000 9754.720000 1376.040000
Bảng thống kê mô tả dữ liệu “amt”
Qua bảng trên thống kê trên, ta thấy số tiền trung bình của giao dịch được cho là
bình thường ít hơn rất nhiều so với tiền trung bình của giao dịch được cho là gian lận.
Không chỉ vậy, độ dao động của các giao dịch bình thường chỉ tầm khoảng 161 USD,
trong khi đó các giao dịch gian lận phải chênh lệch tới gấp đôi.
15
Hình 4.2 Biểu đồ cột khai phá dữ liệu của “amt”
Quan sát trực quan, tác giả thấy rằng tổng số tiền giao dịch và số tiền của giao dịch
không có gian lận có phân phối tương tự nhau. Tuy nhiên, phân phối số tiền bị nghi
ngờ gian lận có xu hướng lớn hơn so với các phân phối khác. Về định lượng, tác giả
thấy trong khi số tiền của các giao dịch được cho là không gian lận trung chủ yếu
quanh giá trị 250 USD đổ lại, thì số lượng tiền của giao dịch bị nghi ngờ gian lận lại
đạt đỉnh cao vào khoảng 300 USD, sau đó tập trung mạnh vào khoảng từ 700 đến
1.100 USD. Điều này cho thấy rằng các giao dịch gian lận thường có giá trị cao hơn
các giao dịch không gian lận cũng như lượng tiền giao dịch cũng trải dài ở một phạm
vi rộng hơn.
4.3.3. Khám phá dữ liệu về thời gian giao dịch
 Thời gian trong 1 ngày:
16
Hình 4.3 Biểu đồ cột thời gian giao dịch theo giờ trong ngày
Các giao dịch bình thường được phân bổ tương đối đều trong ngày. Tuy nhiên, khi
xem xét các giao dịch được cho là gian lận, chúng có xu hướng tập trung vào những
giờ khuya từ khoảng 10 giờ tối đến 3 giờ sáng - khoảng thời gian hầu hết mọi người
đang ngủ. Điều này cho thấy những kẻ lừa đảo thường tận dụng thời điểm đêm khuya,
lúc mà những người khác ít quan tâm và theo dõi chặt chẽ đến các giao dịch của họ.
Việc hành động vào ban đêm thường làm giảm sự chú ý và giám sát của chủ thẻ nên
các giao dịch gian lận có thể thực hiện một cách trơn tru, khó có thể bị phát hiện một
cách nhanh chóng.
 Thời gian trong 1 tuần:
17
Hình 4.4 Biểu đồ cột thời gian giao dịch theo ngày trong tuần
Nhìn vào sự phân bố các giao dịch, tác giả thấy rằng các giao dịch được coi là bình
thường có xu hướng tập trung vào thứ hai và chủ nhật, trong khi các giao dịch gian lận
có xu hướng phân bổ đều trong tuần. Điều này thể hiện sự khác biệt trong hành vi giữa
các giao dịch bình thường và gian lận. Các giao dịch bình thường thường tập trung vào
đầu hoặc cuối tuần khi mọi người có nhiều hoạt động hơn như là mua sắm, đi chơi,
cafe với gia đình, bạn bè,... nên thường có nhu cầu sử dụng thẻ tín dụng cao hơn so với
các ngày trong tuần. Mặt khác, các giao dịch gian lận thường không ưu tiên bất kỳ
ngày cụ thể nào, vì vậy chúng có thể được thực hiện vào bất kỳ ngày nào trong tuần.
 Thời gian trong 1 năm:
18
Hình 4.5 Biểu đồ cột thời gian giao dịch theo tháng trong năm
Khi phân tích về các giao dịch, tác giả quan sát thấy các giao dịch được coi là bình
thường có xu hướng tăng đáng kể vào tháng 12 và tập trung cao vào cuối mùa xuân và
đầu mùa hè. Mặt khác, các giao dịch gian lận lại tuân theo các xu hướng riêng biệt
theo mùa. Sự gia tăng của các giao dịch bình thường trong tháng 12 có thể được giải
thích bằng sự gia tăng hoạt động mua sắm trong dịp lễ Giáng sinh. Vào thời điểm này,
mọi người thường chi nhiều tiền hơn cho quà tặng, du lịch và các hoạt động giải trí. Sự
gia tăng này có thể tiếp tục vào đầu mùa hè khi mọi người chuẩn bị cho kỳ nghỉ hè và
các hoạt động ngoài trời. Mặt khác, sự phân phối các giao dịch gian lận được phát hiện
là không đồng đều giữa các mùa, có sự tăng lên vào những thời điểm như kỳ nghỉ lễ,
mùa mua sắm hoặc các sự kiện đặc biệt khác. Điều này có thể là do những kẻ lừa đảo
đang cố gắng che giấu hoạt động gian lận của chúng bằng cách lợi dụng mật độ người
dùng và lưu lượng giao dịch cao trong những khoảng thời gian này.
19
4.3.4. Khám phá dữ liệu của “gender”
Hình 4.6 Biểu đồ cột khai phá dữ liệu của “gender”
Dữ liệu dường như cho thấy rằng nữ và nam có xu hướng bị tội phạm gian lận giao
dịch tấn công như nhau. Do đó, giới tính không phải là một yếu tố để phát hiện một
giao dịch có phải là gian lận hay không.
4.3.5. Khám phá dữ liệu của “age”
20
Hình 4.7 Biểu đồ cột khai phá dữ liệu của “age”
Trong các giao dịch được cho là bình thường, ta quan sát được hai đỉnh phân phối
độ tuổi. Đỉnh đầu tiên là ở nhóm tuổi 30-35, phản ánh nhóm người trẻ tuổi đang tham
gia vào các hoạt động tài chính như vay mượn, mua sắm và đầu tư. Đỉnh cao thứ hai là
trong độ tuổi từ 45-50, phản ánh nhóm người trưởng thành có thu nhập ổn định và
quan tâm đến việc quản lý tài chính cá nhân. Mặt khác, trong phân bố độ tuổi của các
giao dịch bị nghi ngờ gian lận thì đỉnh đầu tiên vẫn là khoảng 30-35 tuổi (như giao
dịch bình thường), nhưng đỉnh thứ hai đã dịch chuyển vào khoảng 50-60 tuổi. Điều
này cho thấy rằng những người lớn tuổi, đặc biệt là những người gần 60 tuổi, có khả
năng dễ bị lừa đảo hơn. Một số giải thích có thể cho hiện tượng này là những người
lớn tuổi được cho là dễ bị lừa đảo hơn do họ thiếu kinh nghiệm về công nghệ, quá dễ
tin tưởng vào người khác và ít được trang bị những kiến thức về các hình thức lừa đảo
21
mới nhất. Những kẻ lừa đảo có thể cố gắng lợi dụng nhóm người này bằng cách sử
dụng thủ đoạn gian lận tinh vi như gọi điện thoại, gửi email không có thật hoặc đưa ra
những đề nghị không trung thực để chiếm đoạt tài sản, mã số thẻ tín dụng của họ.
4.3.6. Khám phá dữ liệu của “job”
Hình 4.8 Biểu đồ cột khai phá dữ liệu của “job”
Dựa vào biểu đồ, top 20 các nghề nghiệp như Broadcast journalist, Industrial buyer,
Personnel officer,... có tỷ lệ phần trăm giao dịch được coi là gian lận đạt 100%. Điều
này cho thấy những ngành nghề này thường ít sử dụng giao dịch bằng thẻ tín dụng và
thường không đề phòng đối với việc xâm nhập thông tin thẻ tín dụng. Do đó, họ dễ
dàng trở thành đối tượng chính mà tội phạm gian lận giao dịch nhắm đến.
4.3.7. Khám phá dữ liệu của “category”
22
Hình 4.9 Biểu đồ cột khai phá dữ liệu của “category”
Một vài lĩnh vực cho thấy xảy ra nhiều gian lận hơn những lĩnh vực khác. Giao dịch
được cho là gian lận có xu hướng xảy ra thường xuyên hơn trong các lĩnh vực như
Shopping_net, Grocery_pos và Misc_net; trong khi Grocery_net, Shopping_pos,
Misc_pos hầu hết có xu hướng là các giao dịch bình thường.
23
PHẦN 5: XÂY DỰNG CÁC MÔ HÌNH PHÁT HIỆN CÁC
GIAO DỊCH GIAN LẬN
5.1. Cân bằng dữ liệu
Hình 5.1 Biểu đồ cột cân bằng dữ liệu với SMOTE
5.2. So sánh các mô hình
Cohen's
Model Accuracy F1 Score Precision Recall
Kappa
1.K-Nearest
0.985622 0.985620 0.985877 0.985622 0.971245
Neighbors
24
2. Random Forest 0.968355 0.968354 0.968369 0.968355 0.936709
3. Decision Tree 0.979310 0.979309 0.979359 0.979310 0.958620
4. XGBoost 0.994643 0.994643 0.994644 0.994643 0.989287
Bảng so sánh các mô hình 1
Nhóm tác giả đưa ra 3 tiêu chí tiêu biểu để so sánh, đánh giá và lựa chọn mô hình
tốt nhất cho bài nghiên cứu như sau:
Accuracy F1 score Cohen's Kappa
Accuracy giúp đo F1 score là một số đo Cohen's Kappa giúp đo

lường tỷ lệ dự đoán kết hợp giữa precision lường độ tin cậy của mô
chính xác của mô hình và recall và thường hình trong việc phân loại
trên toàn bộ dữ liệu, được sử dụng trong các các giao dịch thành gian
bao gồm cả các giao bài toán mất cân bằng lận và bình thường. Nó
Ý dịch gian lận và bình dữ liệu. Nó đo lường sự tính toán sự khác biệt giữa
nghĩa thường. cân bằng giữa độ chính độ chính xác quan sát
xác của dự đoán được và độ chính xác
positive và khả năng ngẫu nhiên dự đoán.
tìm ra tất cả các positive
instances.
Lý do Accuracy là tiêu chí F1 Score là một tiêu chí Cohen's Kappa là một tiêu
chọn đơn giản và dễ hiểu, đo quan trọng trong các bài chí đo lường sự đồng nhất
lường tỷ lệ dự đoán toán mất cân bằng dữ giữa dự đoán của mô hình
25
chính xác trên tổng số liệu như phát hiện gian và thực tế, điều chỉnh cho
mẫu. lận. Nó cân nhắc cả sự khớp ngẫu nhiên. Đây
precision và recall, giúp là một tiêu chí phù hợp
đo lường sự cân bằng trong trường hợp dữ liệu
giữa việc dự đoán đúng mất cân bằng.
gian lận và khả năng
tìm ra tất cả các giao
dịch gian lận.
T P+TN 2xPxR ' O A−E A

Accuracy= F 1 score= Cohe n sKappa=
TPre P+ R 1−E A
Trong đó: Trong đó: Trong đó

TP:True Positives P: Precision OA: Observed Accuracy
TN: True Negatives R: Recall là tỷ lệ các dự đoán chính
Công TPre: Total Prediction xác
thức EA: Expected Accuracy
là tỷ lệ dự đoán chính xác
trong trường hợp các dự
đoán ngẫu nhiên.
Lợi Accuracy là một chỉ số Đối với bài toán phát Cohen's Kappa đánh giá
ích quan trọng để đánh giá hiện gian lận, việc cân sự khớp giữa dự đoán của
tổng thể hiệu suất của nhắc cả precision và mô hình và thực tế, loại
mô hình. Nó cho thấy recall là rất quan trọng. trừ sự ảnh hưởng của việc
mức độ chính xác tổng F1 Score giúp bạn đánh phân loại ngẫu nhiên.
quan của mô hình giá khả năng của mô Điều này giúp bạn đánh
trong việc phân loại cả hình trong việc phát giá hiệu suất của mô hình
26
hai lớp giao dịch (gian hiện gian lận và đồng một cách chính xác hơn,
lận và bình thường). thời giảm thiểu khả đặc biệt trong trường hợp
Tuy nhiên, nếu dữ liệu năng có những giao dữ liệu mất cân bằng.
mất cân bằng, dịch gian lận bị bỏ sót
Accuracy có thể không hoặc có những giao
phản ánh chính xác dịch bình thường bị
hiệu suất của mô hình. phân loại nhầm là gian
lận.
Mô
hình
XGBoost (0.994643) XGBoost (0.994643) XGBoost (0.989287)
được
chọn
Bảng so sánh các mô hình 2
Bằng cách kết hợp cả 3 loại chỉ số Accuracy, F1 Score và Cohen's Kappa, tác giả có
cái nhìn toàn diện hơn về hiệu suất của mô hình trong việc phát hiện gian lận và đánh
giá khả năng cân bằng giữa precision, recall và độ chính xác tổng thể. Qua đó nhóm
tác giả kết luận mô hình XGBoost có kết quả tốt nhất và nên được chọn cho bài toán
phát hiện gian lận trong giao dịch thẻ tín dụng.
5.2.1. Ưu điểm của mô hình XGBoost
 Đạt kết quả tốt nhất trên tất cả các tiêu chí: accuracy, F1 score, precision, recall và
Cohen's Kappa.
 Hiệu suất cao: XGBoost được xây dựng trên cơ sở Gradient Boosting Framework,
có khả năng xử lý hiệu quả các bài toán phức tạp và dữ liệu lớn. Nó thường có
27
hiệu suất cao hơn so với các mô hình truyền thống khác như Decision Tree hay
Random Forest.
 Khả năng xử lý dữ liệu mất cân bằng: XGBoost có thể xử lý tốt các vấn đề liên
quan đến mất cân bằng dữ liệu, như trong trường hợp của bạn khi sử dụng phương
pháp SMOTE để cân bằng dữ liệu. Nó có thể điều chỉnh trọng số cho các lớp thiểu
số và lớp đa số để tăng cường khả năng phát hiện gian lận.
 Xử lý các loại biến đặc trưng: XGBoost có khả năng xử lý tốt các biến đặc trưng
có dạng số, nhị phân và hạng mục. Bạn không cần tiền xử lý nhiều để chuyển đổi
các biến đặc trưng này.
5.2.2. Nhược điểm của mô hình XGBoost
 Đòi hỏi tài nguyên tính toán cao: XGBoost có thể yêu cầu tài nguyên tính toán lớn,
đặc biệt là khi dữ liệu lớn và số lượng cây quyết định và các tham số được tinh
chỉnh cao. Điều này có thể làm tăng thời gian huấn luyện và đòi hỏi hệ thống có
khả năng xử lý cao.
 Điều chỉnh tham số phức tạp: XGBoost có nhiều tham số cần được tinh chỉnh để
đạt hiệu suất tốt nhất. Việc điều chỉnh tham số có thể đòi hỏi sự hiểu biết sâu về
mô hình và thử nghiệm nhiều cấu hình khác nhau. Điều này có thể làm tăng thời
gian và công sức để điều chỉnh mô hình.
 Khả năng diễn giải thấp: XGBoost là một mô hình phức tạp với nhiều cây quyết
định và kết hợp các cây quyết định này. Điều này làm giảm tính khả diễn giải của
mô hình, tức là khó để hiểu cách mô hình ra quyết định và giải thích kết quả dự
đoán.
5.2.3. Hướng phát triển
Để phát triển mô hình XGBoost trở nên tốt hơn, nhóm tác giả đề xuất một số ý kiến
như sau:
 Tiếp tục tinh chỉnh các siêu tham số của mô hình XGBoost để tối ưu hóa hiệu suất.
28
 Xem xét sử dụng các phương pháp kết hợp mô hình (ensemble) để cải thiện kết
quả và giảm thiểu overfitting.
 Nâng cấp dữ liệu bằng cách thu thập thêm thông tin hoặc nâng cấp tính năng mới
hữu ích cho việc phát hiện gian lận.
 Kiểm tra kết quả trên bộ dữ liệu kiểm tra độc lập để đảm bảo tính tổng quát của
mô hình.
 Sử dụng thư viện vaex với các chức năng bao gồm đọc và xử lý dữ liệu lớn, thực
hiện các thao tác trên cột mà không cần tải toàn bộ dữ liệu vào bộ nhớ, cung cấp
các tính năng đa luồng để tăng tốc độ xử lý.
29
PHẦN 6: KẾT LUẬN
Chủ đề phát hiện gian lận trong các giao dịch thẻ tín dụng đã trở thành một lĩnh vực
nghiên cứu quan trọng và thú vị trong lĩnh vực tài chính và bảo mật thông tin. Điều
này càng cấp bách hơn do các hình thức gian lận thẻ tín dụng ngày càng phức tạp, gây
ra mối đe dọa ngày càng tăng đối với tính toàn vẹn và bảo mật của các hệ thống thanh
toán. Các phương pháp và công nghệ phát hiện gian lận trong giao dịch thẻ tín dụng
liên tục được phát triển và cải tiến để đảm bảo hiệu quả và độ chính xác cao hơn trong
việc phát hiện gian lận. Việc sử dụng công nghệ mới và cải tiến trong lĩnh vực này
không chỉ giúp phát hiện và ngăn chặn gian lận một cách hiệu quả mà còn giúp giảm
rủi ro tài chính và bảo vệ thông tin tài khoản của khách hàng. Tương lai sẽ đòi hỏi sự
hợp tác chặt chẽ giữa các tổ chức tài chính và các nhà nghiên cứu để nghiên cứu và
phát triển các phương pháp và kỹ thuật phát hiện gian lận mới nhằm giảm thiểu rủi ro
và bảo vệ thông tin. Điều này bao gồm tăng cường khả năng chống gian lận thẻ tín
dụng và hệ thống thanh toán an toàn của các ngân hàng. Trên cơ sở nghiên cứu và phát
triển công nghệ phát hiện gian lận giao dịch thẻ tín dụng, đề tài này được kỳ vọng sẽ
góp phần bảo vệ thông tin tài khoản, giảm thiểu thiệt hại kinh tế và đảm bảo an toàn,
tin cậy cho các giao dịch tài chính.
30
TÀI LIỆU THAM KHẢO
[1] Kartik Shenoy. (2020, August 5). Credit Card Transactions Fraud Detection
Dataset. Kaggle. Retrieved May 14, 2023, from
https://www.kaggle.com/datasets/kartik2112/fraud-detection
[2] Binny Mathews, & Omair Aasim. (2023, April 23). Credit Card Fraud
Detection Project using Machine Learning. ProjectPro. Retrieved May 14, 2023, from
https://www.projectpro.io/article/credit-card-fraud-detection-project-with-source-
code-in-python/568?fbclid=IwAR0j-
vxirgJvT3DZLUtGM2eGdbkG1XN73pP7xAPuOlEbUwUm3xC2qUbBkvE
[3] Hoàng Thị Thúy, & Lê Thị Xuân Thu. (2021, March 5). Phát Hiện Gian Lận
Thẻ Tín Dụng Bằng Học Máy. Cơ sở dữ liệu quốc gia về Khoa học và Công nghệ.
Retrieved May 14, 2023, from
https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/315353/
CTv60S2852021076.pdf
[4] Le James. (2016, August 18). The 10 Algorithms Machine Learning Engineers
Need to Know. KDnuggets. Retrieved May 14, 2023, from
http://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-
engineers.html
[5] Đức Trung. (2021, August 28). Đánh giá các mô hình học máy. Viblo. Retrieved
May 14, 2023, from
https://viblo.asia/p/danh-gia-cac-mo-hinh-hoc-may-RnB5pp4D5PG
31
[6] Vietnam+. (2020, May 28). GBG sử dụng học máy và AI để phát hiện gian lận
trong giao dịch thẻ tín dụng, thanh toán số… | Thông cáo báo chí | Vietnam+.
VietnamPlus. Retrieved May 29, 2023, from
https://www.vietnamplus.vn/gbg-su-dung-hoc-may-va-ai-de-phat-hien-gian-lan-
trong-giao-dich-the-tin-dung-thanh-toan-so/642600.vnp
[7] Nguyễn Thị Liên, Nguyễn Thị Trang, & Nguyễn Chiến Thắng. (2018, 10).
Phương pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu thực
nghiệm. Retrieved May 16, 2023, from
https://ktpt.neu.edu.vn/tap-chi/so-256ii/muc-luc-661/phuong-phap-hoc-may-trong-
phat-hien-gian-lan-the-tin-dung-mot-nghien-cuu-thuc-nghiem.378964.aspx
[8] Hồ Quang Thái. (2018, June 1). Làm thế nào Machine Learning có thể cải thiện
phát hiện gian lận trong thời gian thực. HelpEx. Retrieved May 16, 2023, from
https://helpex.vn/article/lam-the-nao-machine-learning-co-the-cai-thien-phat-hien-
gian-lan-trong-thoi-gian-thuc-5c6643afae03f60128765725
[9] akaBot. (2022, January 5). 7 Trường Hợp Sử Dụng Machine Learning Trong
Ngân Hàng. akaBot. Retrieved May 17, 2023, from
https://akabot.com/vi/tai-nguyen/blog/machine-learning-trong-ngan-hang/
[10] Hoàng Thị Thúy, & Lê Thị Xuân Thu. (2021, March 5). Phát hiện gian lận thẻ
tín dụng bằng học máy. Cơ sở dữ liệu quốc gia về Khoa học và Công nghệ. Retrieved
May 17, 2023, from
https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/315353/
CTv60S2852021076.pdf
[11] Nguyễn Thị Loan Hồng. (2018). Một số thuật toán ứng dụng trong phát hiện
gian lận thanh toán thẻ tín dụng. Tạp chí Khoa học Tài nguyên và Môi trường - Số 22.
32
https://vjol.info.vn/index.php/hunre/article/view/40424/32473
[12] Jonathan Kwaku Afriyie a, Kassim Tawiah, Wilhemina Adoma Pels a, Sandra
Addai-Henne, Harriet Achiaa Dwamena, , Emmanuel Odame Owiredu, Samuel
Amening Ayeh, & John Eshun. (2023, January 14). A supervised machine learning
algorithm for detecting and predicting fraud in credit card transactions. Retrieved
May 20, 2023, from
https://www.sciencedirect.com/science/article/pii/S2772662223000036
[13] Vaishnavi Nath Dornadula, & S Geetha. (2019). Credit Card Fraud Detection
using Machine Learning Algorithms. Retrieved May 20, 2023, from
https://www.sciencedirect.com/science/article/pii/S187705092030065X?via%3Dihub
[14] Waleed Hilal, S. Andrew Gadsden, & John Yawney. (2022, May 1). Financial
Fraud: A Review of Anomaly Detection Techniques and Recent Advances. Retrieved
May 22, 2023, from
https://www.sciencedirect.com/science/article/pii/S0957417421017164?via
%3Dihub
[15] Sumit Misra, Soumyadeep Thakur, Manosij Ghosh, & Sanjoy Kumar Saha.
(2020). An Autoencoder Based Model for Detecting Fraudulent Credit Card
Transaction. An Autoencoder Based Model for Detecting Fraudulent Credit Card
Transaction. Retrieved May 22, 2023, from
https://www.sciencedirect.com/science/article/pii/S1877050920306840
[16] Xuan, S., Liu, G., Li, Z., Zheng, L., Wang, S., & Jiang, C. (2018, March).
Random forest for credit card fraud detection. In 2018 IEEE 15th international
conference on networking, sensing and control (ICNSC) (pp. 1-6). IEEE. Retrieved
May 22, 2023, from
33
https://scholar.google.com/scholar_lookup?title=Random%20forest%20for
%20credit%20card%20fraud%20detection&publication_year=2018&author=S.
%20Xuan&author=S.%20Wang
[17] Tyagi, R., Ranjan, R., & Priya, S. (2021, November). Credit Card Fraud
Detection Using Machine Learning Algorithms. In 2021 Fifth International
Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud)(I-SMAC) (pp.
334-341). IEEE. Retrieved May 23, 2023, from
https://scholar.google.com/scholar?q=R.%20Tyagi,%20R.%20Ranjan,%20S.
%20Priya,%20Credit%20card%20fraud%20detection%20using%20machine
%20learning%20algorithms.%20%20334341.
[18] Tran, T. C., & Dang, T. K. (2021, January). Machine learning for prediction of
imbalanced data: Credit fraud detection. In 2021 15th International Conference on
Ubiquitous Information Management and Communication (IMCOM) (pp. 1-7). IEEE.
https://scholar.google.com/scholar_lookup?title=Machine%20learning%20for
%20prediction%20of%20imbalanced%20data%20%3A%20Credit%20fraud
%20detection.%20Ml&publication_year=2021&author=T.C.%20Tran&author=B.T.
%20District&author=H.%20Chi&author=M.%20City&author=T.K.
%20Dang&author=H.%20Chi&author=M.%20City&author=L.T.
%20Ward&author=T.D.%20District&author=H.%20Chi&author=M.%20City
[19] Awoyemi, J. O., Adetunmbi, A. O., & Oluwadare, S. A. (2017, October).

Credit card fraud detection using machine learning techniques: A comparative
analysis. In 2017 international conference on computing networking and informatics
(ICCNI) (pp. 1-9). IEEE. Retrieved May 23, 2023, from
https://scholar.google.com/scholar?q=Awoyemi,%20John%20O.,%20et%20al.
%20Credit%20Card%20Fraud%20Detection%20Using%20Machine%20Learning
%20Techniques:%20A%20Comparative%20Analysis.%202017%20International
34
%20Conference%20on%20Computing%20Networking%20and%20Informatics
%20,%202017,%20doi:10.1109iccni.2017.8123782.
[20] Zou, J., Zhang, J., & Jiang, P. (2019). Credit card fraud detection using
autoencoder neural network. arXiv preprint arXiv:1908.11553. Retrieved May 25,
2023, from
https://scholar.google.com/scholar?q=Jiang,%20P.,%20Zhang,%20J.,%20%20Zou,
%20J.%20.%20Credit%20Card%20Fraud%20Detection%20Using%20Autoencoder
%20Neural%20Network.%20Retrieved%20from%20arXiv:1908.11553.
35

222MI2101 DoAnCuoiKy ACCTV MonPhanTichDuLieu

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

222MI2101 DoAnCuoiKy ACCTV MonPhanTichDuLieu

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT

ĐỒ ÁN CUỐI KỲ - HK2 (2022-2023)

ĐỀ TÀI: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ

Mã lớp học phần: 222MI2101

Nhóm thực hiện: Nhóm ACCTV

Giảng viên hướng dẫn: TS. Nguyễn Thôn Dã

Thành phố Hồ Chí Minh, tháng 5 năm 2023

DANH MỤC HÌNH ẢNH.........................................................................................2

PHẦN 1: GIỚI THIỆU.............................................................................................4

1.1. Lý do chọn đề tài..................................................................................................4

1.2. Mục đích nghiên cứu............................................................................................4

1.3. Phương pháp nghiên cứu......................................................................................4

PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN.........................................................5

PHẦN 3: NỀN TẢNG LÝ THUYẾT.......................................................................8

3.1. Học máy (Machine Learning)..............................................................................8

3.2. Phương pháp cân bằng dữ liệu SMOTE..............................................................9

3.3. Mô hình K-Nearest Neighbors Classifier.............................................................9

3.4. Mô hình Decision Tree Classifier......................................................................10

3.5. Mô hình Random Forest Classifier....................................................................10

3.6. Mô hình XGBoost..............................................................................................10

PHẦN 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU...............................12

4.1. Hiểu dữ liệu........................................................................................................12

4.3. Khai phá dữ liệu.................................................................................................13

4.3.1. Phần trăm điểm dữ liệu giao dịch gian lận....................................................13

4.3.2. Khám phá dữ liệu của “amt”.........................................................................14

4.3.5. Khám phá dữ liệu của ‘age’...........................................................................20

4.3.6. Khám phá dữ liệu của ‘job’............................................................................22

4.3.7. Khám phá dữ liệu của ‘category’...................................................................22

5.1. Cân bằng dữ liệu................................................................................................24

5.2. So sánh các mô hình...........................................................................................24

5.2.1. Ưu điểm của mô hình XGBoost......................................................................27

5.2.2. Nhược điểm của mô hình XGBoost.................................................................28

5.2.3. Hướng phát triển............................................................................................28

PHẦN 6: KẾT LUẬN.............................................................................................30

TÀI LIỆU THAM KHẢO......................................................................................31

Bảng 4.3.2: Bảng thống kê mô tả dữ liệu ‘amt’........................................................15

Bảng 5.2: So sánh các mô hình 1..............................................................................24

Bảng 5.2: So sánh các mô hình 2..............................................................................25

Hình 4.2 Biểu đồ cột khai phá dữ liệu của “amt”.....................................................16

Hình 4.6 Biểu đồ cột khai phá dữ liệu của “gender”................................................20

Hình 4.7 Biểu đồ cột khai phá dữ liệu của “age”......................................................21

Hình 4.8 Biểu đồ cột khai phá dữ liệu của “job”......................................................22

Hình 4.9 Biểu đồ cột khai phá dữ liệu của “category”..............................................23

Hình 5.1 Biểu đồ cột cân bằng dữ liệu với SMOTE.................................................24

1.1. Lý do chọn đề tài

1.2. Mục đích nghiên cứu

1.3. Phương pháp nghiên cứu

PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN

 “A supervised machine learning algorithm for detecting and predicting fraud in

 “Credit Card Fraud Detection using Machine Learning Algorithms.” (Vaishnavi

 “Review of Anomaly Detection Techniques and Recent Advances” (Waleed Hilal

3.2. Phương pháp cân bằng dữ liệu SMOTE

3.3. Mô hình K-Nearest Neighbors Classifier

3.4. Mô hình Decision Tree Classifier

3.5. Mô hình Random Forest Classifier

3.6. Mô hình XGBoost

4.1. Hiểu dữ liệu

Bộ dữ liệu bao gồm 13 biến như sau:

 trans_date_trans_time: Thời gian giao dịch

 cc_num: Mã số thẻ tín dụng

 merchant: Tên người nhận

 category: Lĩnh vực giao dịch