Bài viết nghiên cứu Tạo điều kiện cho phép người dùng từ nhật ký dữ liệu không cân bằng của

Machine Translated by Google
Hệ thống
thông tin di động Hindawi

Tập 2020, ID bài viết 8885269, 13 trang
https://doi.org/10.1155/2020/8885269
Bài viết nghiên cứu
Tạo điều kiện cho phép người dùng từ nhật ký dữ liệu không cân bằng của
Thẻ Tín Dụng Sử Dụng Trí Tuệ Nhân Tạo
và Aman Kataria
4
Vinay Arora 1 , Rohan Singh Leekha 2 , Lee Kyungroul 3 ,
1
Khoa Khoa học & Kỹ thuật Máy tính, ngoài Viện Kỹ thuật và Công nghệ, Patiala, Punjab, Ấn Độ
2
Hỗ trợ ứng dụng liên kết, Phát triển/bảo trì ứng dụng CNTT, Concentrix, Gurugram, Ấn Độ
3
Khoa Phần mềm Máy tính, Đại học Công giáo Daegu, Cảnh sát Hàn Quốc
4
Thiết bị và Hệ thống Quang học (Học giả nghiên cứu thỉnh giảng), CSIR-CSIO, Chandigarh, Ấn Độ
Thư từ nên được gửi tới Kyungroul Lee; lisa.sch.k@gmail.com
Nhận được ngày 14 tháng 7 năm 2020; Sửa đổi ngày 9 tháng 9 năm 2020; Được chấp nhận vào ngày 29 tháng 9 năm 2020; Xuất bản ngày 30 tháng 10 năm 2020
Biên tập viên học thuật: Zengpeng Li
Bản quyền © 2020 Vinay Arora và cộng sự. là một bài viết truy cập mở được phân phối theo Giấy phép Ghi nhận tác giả Creative Commons, cho phép sử
dụng, phân phối và sao chép không hạn chế trong bất kỳ phương tiện nào, miễn là tác phẩm gốc được trích dẫn hợp lý.
Việc triển khai học máy hiệu quả có nghĩa là trí tuệ nhân tạo có tiềm năng to lớn để trợ giúp và tự động hóa việc đánh giá mối đe dọa tài chính cho
các công ty thương mại và cơ quan tín dụng. Phạm vi của nghiên cứu này là xây dựng một khuôn khổ dự đoán để giúp cơ quan tín dụng bằng cách lập
mô hình/đánh giá rủi ro trễ hạn thẻ tín dụng. Học máy cho phép đánh giá rủi ro bằng cách dự đoán hành vi lừa dối trong dữ liệu lớn không cân bằng
bằng cách phân loại giao dịch là giao dịch bình thường hoặc giao dịch lừa đảo. Trong trường hợp giao dịch gian lận, một cảnh báo có thể được gửi
đến tổ chức tài chính liên quan có thể tạm dừng việc thanh toán cho giao dịch cụ thể. Trong số tất cả các mô hình học máy như RUSBoost, cây quyết
định, hồi quy logistic, perceptron đa lớp, lân cận K gần nhất, rừng ngẫu nhiên và máy vectơ hỗ trợ, hiệu suất dự đoán tổng thể của RUSBoost tùy
chỉnh là ấn tượng nhất. Các số liệu đánh giá được sử dụng trong thử nghiệm là độ nhạy, độ đặc hiệu, độ chính xác, điểm F và diện tích dưới đường
cong thu hồi chính xác và đặc tính vận hành máy thu. Bộ dữ liệu được sử dụng để đào tạo và thử nghiệm các mô hình được lấy từ kaggle.com.
1. Giới thiệu tiếp tục tìm những cách thức mới để gian lận, có thể gây thiệt hại đáng
kể cho người sử dụng thẻ cũng như các công ty này [5, 6].
Đối với nghiên cứu này, thuật ngữ “tín dụng” dùng để chỉ một phương thức
thương mại điện tử mà không cần có vốn. Thẻ tín dụng là một khối kim
loại hoặc nhựa mỏng, hình chữ nhật do tổ chức ngân hàng cung cấp, cho
phép người sử dụng thẻ vay tiền mặt để thanh toán các sản phẩm, dịch vụ. 1.1. Các bước xử lý thanh toán bằng thẻ tín dụng. Hình 1 minh họa cách
Thẻ tín dụng buộc chủ thẻ phải hoàn trả đòn bẩy tài chính, thanh toán thanh toán được chuyển vào tài khoản ngân hàng của nhà cung cấp, bất cứ
lãi và bất kỳ khoản phí nào khác được quyết định tùy từng thời điểm. Tổ khi nào khách hàng mua hàng qua thẻ tín dụng [7]:
chức phát hành thẻ tín dụng điện tử thường cung cấp cho khách hàng một
hạn mức tín dụng (LOC), cho phép họ cho vay rút tiền mặt. Các tổ chức
(a) Khách hàng gửi giao dịch mua bằng thẻ tín dụng qua Internet của
phát hành thường đặt trước ngưỡng cho vay tùy thuộc vào mức độ tín nhiệm
các thiết bị quẹt thẻ/POS/trang web trực tuyến hỗ trợ ings-
cụ thể [1, 2]. Ngày nay, việc sử dụng thẻ tín dụng là rất quan trọng e
(IoT-).
và nó đóng một vai trò quan trọng trong thương mại điện tử và chuyển
tiền trực tuyến [3, 4]. Việc sử dụng thẻ tín dụng ngày càng tăng e (b) Cổng thanh toán thu thập và chuyển chi tiết giao dịch một cách
đã gây ra nhiều mối đe dọa cho người sử dụng và các công ty phát hành an toàn đến hệ thống điều khiển dựa trên máy tính ngân hàng
thẻ này. kẻ lừa đảo của người bán

2 Hệ thống thông tin di động
Thiết bị vuốt dựa trên IoT
www Cổng
Một
thanh toán
Khách hàng
Tài khoản ngân hàng của
người bán/nhà cung cấp

b g
Ngân hàng thương mại/nhà cung cấp
Tôi
e f
d c
Hệ thống điều khiển máy Trao đổi thẻ tín dụng Hệ thống điều khiển máy tính
tính của nhà cung cấp thẻ tín dụng (CCI) của ngân hàng thương mại/nhà cung cấp
Hình 1: Quy trình thanh toán trong hệ thống thẻ tín dụng [7].
(c) bộ xử lý ngân hàng điện tử chuyển tiếp quy trình xác minh (tức là Gian lận có thể làm giảm niềm tin vào ngành, làm xáo trộn hệ thống
xử lý, thanh toán bù trừ và thanh toán) tới Trao đổi thẻ tín dụng kinh tế và ảnh hưởng đáng kể đến chi phí sinh hoạt chung [9, 10]. Các hệ
(CCI) (d) e CCI chuyển giao dịch đến thống hỗ trợ IoT duy trì dấu vết các hoạt động vận hành của chúng, điều
nhà cung cấp thẻ tín dụng của khách hàng (e) nhà cung cấp thẻ điện tử này có thể mang lại lợi ích cho việc phân tích một số mẫu cụ thể. Các
phương pháp trước đây dựa trên xử lý thủ công như kiểm toán rất cồng kềnh
chấp nhận hoặc từ chối
và không hiệu quả do dữ liệu có kích thước lớn hoặc các thuộc tính của nó.
giao dịch mua dựa trên số tiền hiện có trong tài khoản của khách hàng
Kỹ thuật khai thác dữ liệu được coi là hiệu quả trong việc đánh giá các
và chuyển lại thông tin giao dịch cho CCI (f ) e CCI truyền thông
ngoại lệ nhỏ trong bộ dữ liệu lớn [9, 11, 12]. Gian lận dẫn đến tổn thất
tin giao dịch đến hệ thống điều khiển dựa trên máy tính của ngân
kinh doanh nặng nề. Các gian lận thẻ tín dụng điện tử gây ra tổn thất doanh
hàng của nhà cung cấp (g) e hệ thống điều khiển của ngân hàng của nhà thu hàng trăm triệu đô la mỗi năm và một số ước tính đã chỉ ra rằng chi
cung cấp truyền chi tiết giao dịch xa hơn tới cổng thanh toán phí tích lũy hàng năm của Hoa Kỳ có thể vượt quá 400 tỷ đô la [9].
(h) cổng thanh toán điện tử lưu giữ và cung cấp chi tiết giao dịch
cho nhà cung cấp và/hoặc khách hàng
1.3. Các loại gian lận liên quan đến thẻ tín dụng. Những tiến bộ trong
(i) e CCI chuyển số tiền cần thiết đến ngân hàng của nhà cung cấp,
công nghệ như Internet và thiết bị di động đã góp phần gia tăng các hoạt
ngân hàng này sẽ chuyển thêm tiền vào tài khoản của người bán [7]
động lừa đảo trong thời gian gần đây [13]. Những kẻ lừa đảo tiếp tục tìm
kiếm các kỹ thuật mới và do đó, các hệ thống giám sát bắt buộc phải phát
triển tương ứng. Các gian lận liên quan đến thẻ tín dụng có thể được phân
loại thành gian lận ngoại tuyến và trực tuyến [14]:
1.2. Lừa đảo trong giao dịch thẻ tín dụng. Gian lận và hành vi bất hợp
pháp có nhiều góc độ khác nhau. e Hiệp hội các nhà giám định gian lận được
(i) Gian lận thẻ tín dụng ngoại tuyến xảy ra bất cứ khi nào kẻ lừa
chứng nhận (ACFE) là một tổ chức giám định gian lận chuyên nghiệp. Các
đảo đánh cắp thẻ tín dụng và sử dụng nó làm chủ sở hữu hợp pháp
hoạt động của nó bao gồm sản xuất thông tin, tạo công cụ và truyền đạt đào tại các điểm giao dịch. Điều này là bất thường vì các công ty
tạo để tránh gian lận. e ACFE đã gọi “gian lận” là việc sử dụng nghề nghiệp
tài chính sẽ nhanh chóng khóa thẻ bị thất lạc bất cứ khi nào
của một người để trục lợi thông qua việc cố ý áp dụng sai hoặc lạm dụng
chủ thẻ nghi ngờ có hành vi trộm cắp [3].
tài sản của tổ chức [3]. Một hành vi gian lận được thực hiện với mục đích
(ii) Gian lận thẻ tín dụng trực tuyến phổ biến và nghiêm trọng hơn
chính là giành được quyền truy cập bằng các phương tiện bất hợp pháp. Nó
so với gian lận ngoại tuyến, trong đó chi tiết thẻ tín dụng bị
ảnh hưởng xấu đến tăng trưởng kinh tế, quản trị và thậm chí cả các giá trị
kẻ lừa đảo xâm phạm thông qua lừa đảo, sao chép trang web, đọc
xã hội cơ bản. Bất kỳ cơ sở hạ tầng kỹ thuật nào liên quan đến tiền và
lướt và được sử dụng trong các giao dịch kỹ thuật số [3, 15].
tài nguyên đều có thể bị xâm phạm bởi các hoạt động phi đạo đức, ví dụ: hệ
thống trang web đấu giá, bảo hiểm y tế, bảo hiểm xe cộ, thẻ tín dụng và
ngân hàng. Gian lận trong các ứng dụng này được coi là tội phạm mạng, có Kết nối toàn cầu thông qua công nghệ mới và tiên tiến đã làm gia
khả năng gây thiệt hại kinh tế đáng kể [3, 8]. tăng số vụ gian lận thẻ tín dụng theo cấp số nhân. Với chúng tôi, vấn đề
này đã ở mức đáng báo động trong tình huống hiện tại và cần phải phát
triển một hệ thống phù hợp để phát hiện và tránh những hành vi gian lận
như vậy.
Hệ thống thông tin di động 3
1.3.1. Hệ thống ngăn chặn gian lận (FPS). FPS là hình thức phòng số trường hợp gian lận ít hơn nhiều so với thông thường [25],
thủ đầu tiên của hệ thống công nghệ trước sự giả mạo. Mục đích của khiến người học khó phát hiện ra xu hướng trong dữ liệu của lớp
giai đoạn này là ngăn chặn gian lận ban đầu. Các kỹ thuật trong thiểu số [26]. Hơn nữa, sự mất cân bằng lớp có ảnh hưởng đáng kể
giai đoạn này cấm, phá hủy và phản hồi các cuộc tấn công mạng vào đến hiệu quả của các mô hình phân loại, thường bị chi phối bởi các
máy chủ máy tính (phần mềm và phần cứng), mạng hoặc dữ liệu, chẳng nhãn lớp đa số. Các bộ dữ liệu không cân bằng có tác động bất lợi
hạn như thuật toán mã hóa và tường lửa để giải mã dữ liệu và chặn đến hiệu suất phân loại và có xu hướng bị lu mờ bởi lớp đa số, do
các mạng riêng bên trong từ thế giới bên ngoài, tương ứng [ 3, 16]. đó bỏ qua lớp thiểu số. Như được hiển thị trong Hình 2, các phương
pháp cân bằng dữ liệu có thể được chia thành hai loại phụ, tức là,
phương pháp cấp độ dữ liệu và phương pháp cấp độ thuật toán [27].
1.3.2. Hệ thống phát hiện gian lận (FDS). FDS trở thành biện pháp
an toàn tiếp theo để phát hiện và nhận ra các hành vi gian lận khi
chúng tiếp cận mạng và thông báo cho quản trị viên mạng [17]. Trước
đó, các phương pháp kiểm toán thủ công như lấy mẫu khám phá đã 1.5.1. Phương pháp mức dữ liệu. Các phương pháp như vậy được coi
được sử dụng để phát hiện bất kỳ hành vi gian lận nào như vậy [18].
là tiền xử lý để định hướng lại dữ liệu được thu thập trước khi áp
Đây là phương pháp phải giải quyết các thực tiễn khác nhau về môi
dụng các thuật toán phân loại. Nhiều nhà điều tra đã sử dụng các
trường, chính trị, pháp lý và kinh doanh. Để nâng cao hiệu quả phát
phương pháp cân bằng, tức là lấy mẫu dưới hoặc lấy mẫu quá mức,
hiện, FDS được vi tính hóa và tự động đã được phát triển. Tuy
trong các nghiên cứu liên quan đến FDS [3]. Trong lấy mẫu dưới,
nhiên, năng lực của FDS đã bị hạn chế vì việc nhận dạng chủ yếu
một phần tập dữ liệu của lớp ưu thế bị loại bỏ [28]. Một phạm vi
dựa trên các quy tắc được xác định trước do các chuyên gia đặt ra.
rộng của FDS đã sử dụng kỹ thuật lấy mẫu dưới để cân bằng các mẫu
Các phương pháp khai thác dữ liệu khác nhau đang được phát triển
huấn luyện. Phương pháp lấy mẫu quá mức sao chép các mẫu dữ liệu
để phát hiện gian lận một cách hiệu quả. Nhận dạng kỳ lạ hoặc ngoại
của lớp thiểu số. Kỹ thuật lấy mẫu quá mức không được sử dụng
lệ trong FDS phụ thuộc vào các phương pháp lập hồ sơ hành vi mô
thường xuyên vì nó gây ra tình trạng quá khớp của mô hình, đặc biệt
hình hóa mô hình hành vi cho mọi thực thể và đánh giá bất kỳ sự
đối với dữ liệu nhiễu [29]. Kỹ thuật lấy mẫu thiểu số tổng hợp
khác biệt nào so với bình thường [19]. Nhiều tác giả đã áp dụng
(SMOTE) [30] đang được sử dụng để phát hiện gian lận và được coi
FDS dựa trên sự bất thường trong các lĩnh vực phát hiện gian lận
là sự bổ sung vượt trội cho các công ty cùng ngành hiện tại. SMOTE
khác nhau [20–23].
tổng hợp các trường hợp thiểu số mới trong vùng được báo cáo. Các
nhà điều tra, trong nghiên cứu của họ [31], đã tiến hành nhiều mô
phỏng bằng nhiều phương pháp cấp dữ liệu khác nhau (SMOTE và
1.4. Triển khai phân tán các khía cạnh liên quan đến bảo mật.
EasyEnsemble) để xác định FDS thẻ tín dụng phù hợp nhất [3].
Các công ty tài chính thực sự đã thừa nhận rằng việc ngừng triển
khai các hệ thống kiểm soát biệt lập trên các kênh phân phối đơn
lẻ dường như không còn thực hiện mức độ cảnh giác cần thiết đối
với hoạt động tài khoản bất hợp pháp. Một lớp bảo mật bổ sung, tức
1.5.2. Các phương pháp mức thuật toán. Trong danh mục này, bộ phân
là “Quản lý gian lận”, đang tăng cường tính mạnh mẽ bằng cách kết
loại đã được sử dụng để phát hiện các lớp đáng ngờ trong tập dữ
hợp với các giao thức bảo mật ở cấp độ kênh tiêu chuẩn [24]. Chiến
e liệu mẫu. Cách tiếp cận cấp độ thuật toán sử dụng phương pháp học
lược phát hiện gian lận đã triển khai có thể được phân bổ
tập nhạy cảm với chi phí (CSL) để chống lại sự phân bổ lớp không
dưới dạng phản ứng và chủ động, tùy thuộc vào thời điểm triển khai
đồng đều. CSL đặt một biến chi phí để hiểu sai các lớp khác nhau
phân tích dữ liệu trong các lệnh giao dịch khác nhau.
bằng cách cho rằng có một ma trận chi phí cho các lỗi khác nhau.
Cấu trúc ma trận chi phí có mối tương quan đáng kể với những quan
Các phương pháp nhận dạng gian lận bắt nguồn từ quá trình xử lý
sát này: âm tính/dương tính giả và âm tính/dương tính thực sự
dữ liệu, mạng lưới thần kinh và/hoặc các thuật toán học sâu khác
[32]. Một cách tiếp cận thuật toán khác được áp dụng trong tài liệu
nhau tiến hành xử lý mô hình phức tạp thông qua các bộ dữ liệu được
FDS là sử dụng người học để quản lý sự phân bổ không cân bằng.
thu thập trong quản lý gian lận phản ứng để xác định các giao dịch
Những người học như vậy hoặc miễn nhiễm với sự bất bình đẳng trong
chuyển tiền đáng ngờ.
lớp nhờ các đặc điểm nội tại của người học như với Cắt tỉa tăng
Các hoạt động mới được triển khai được đánh giá “nhanh
dần lặp đi lặp lại để giảm lỗi (RIPPER) [33] hoặc những người học
chóng” bằng cách chủ động quản lý gian lận trước khi cấp phép và
được củng cố chống lại vấn đề này bằng những thay đổi nội tại [3].
quyết toán phù hợp, nhằm cho phép phát hiện các trường hợp xảy ra
bất thường trước bất kỳ biến động giá trị tài chính nào. Việc phát
Các giao dịch giả mạo có tỷ lệ phần trăm hẹp trong tập dữ liệu
hiện gian lận chủ động được thực hiện bằng cách tái bố trí bảo mật
tổng thể có thể cản trở hiệu quả của FDS. Trong hệ thống thẻ tín
vốn có cho phép quét theo thời gian thực trước khi hoàn tất giao
dụng, việc phân loại sai các giao dịch hợp pháp sẽ khiến khách hàng
dịch. Phân tích thống kê và các phương pháp tiếp cận liên quan
không hài lòng, bản thân điều này được coi là bất lợi hơn chính
đến khai thác dữ liệu đã được triển khai trên dữ liệu được phân
hành vi gian lận. Như đã đề cập ở trên, hai cách tiếp cận, tức là
loại sau giao dịch để rút ra những đặc điểm chung liên quan đến
cấp độ thuật toán và dữ liệu, đã được sử dụng để khắc phục sự mất
những sự cố đáng ngờ trong quản lý chiến lược gian lận.
cân bằng giữa các lớp. Các nhà nghiên cứu, trong công trình của họ
[34–38], đã sử dụng các kỹ thuật lấy mẫu dưới trong khi giải quyết
1.5. Mất cân bằng dữ liệu là mối quan tâm lớn. Phân phối lệch được mối lo ngại về độ lệch lớp trong FDS thẻ tín dụng. Tuy nhiên,
coi là một trong những vấn đề nhạy cảm chính của FDS [3]. Stolfo và cộng sự. [26] đã sử dụng phương pháp lấy mẫu quá mức
Thông thường, vấn đề dữ liệu sai lệch là tình huống có trong giai đoạn tiền xử lý FDS thẻ tín dụng.
Phương pháp mất cân Phương pháp tăng cường giúp cải thiện độ chính xác phân loại của
bằng dữ liệu các bộ phân loại yếu bằng cách kết hợp các giả thuyết yếu.
Ban đầu, tất cả các ví dụ về tập dữ liệu huấn luyện đều có trọng số
như nhau. Trình học cơ sở hình thành một giả thuyết yếu trong mỗi
Dựa trên dữ liệu Dựa trên thuật toán lần lặp lại quá trình tăng cường thích ứng (AdaBoosting). Việc tăng
cường được cho là mang tính thích ứng vì những người học kém sau đó
được điều chỉnh để hỗ trợ các trường hợp không được phân loại bởi
các bộ phân loại trước đây. Sự không nhất quán liên quan đến giả
Lấy mẫu quá mức Lấy mẫu dưới mức
thuyết được xác định và trọng số của từng trường hợp được sửa đổi
theo cách mà các trường hợp được phân loại không chính xác sẽ tăng
Hình 2: Các kỹ thuật khác nhau để xử lý mối lo ngại liên quan đến mất
cân bằng dữ liệu. trọng số của chúng, trong khi các mẫu được phân loại chính xác sẽ
giảm trọng số của chúng. Với chúng tôi, các bước tăng cường liên
tiếp sẽ tạo ra các giả thuyết có khả năng phân loại chính xác các
Ngược lại, cách tiếp cận ở cấp độ thuật toán đã được thực hiện trường hợp được gắn nhãn không chính xác trước đó. Sau tất cả các
bằng cách sử dụng các kỹ thuật học tập nhạy cảm với chi phí hoặc lần lặp lại, một phiếu bầu có trọng số sẽ được sử dụng để phân bổ
bằng cách sử dụng chính người học để quản lý sự phân bố không đồng một lớp cho các mẫu trong tập dữ liệu [48]. RUSBoost ít tốn kém hơn
đều. Sahin và cộng sự. [39] đã sử dụng các bộ phân loại nhạy cảm so với việc lấy mẫu quá mức và đóng bao khi được sử dụng để phân loại (như SMOTBagg
với chi phí để giải quyết sự mất cân bằng giữa các lớp. Dorronsoro
và cộng sự. [21] đã sử dụng các mô hình thần kinh phân tích phân
3. Phương pháp luận
biệt phi tuyến tính (NLDA) để giải quyết sự mất cân bằng của lớp. Ju
và Lu [40] đã sử dụng máy vectơ hỗ trợ có trọng số lớp mất cân Hình 3 nêu bật các giai đoạn khác nhau, lấy nhật ký giao dịch thẻ
bằng nâng cao (ICW-SVM) để xử lý độ lệch của tập dữ liệu. Bentley và tín dụng (tập dữ liệu không cân bằng) làm đầu vào và đưa ra cảnh báo
cộng sự. [41] đã đưa ra bản đồ mật độ gian lận để nâng cao độ chính cho ngân hàng hoặc chủ thẻ tín dụng về trạng thái giao dịch được
xác của việc phát hiện. Trong một nghiên cứu của Pozzolo et al. thực hiện tại một số thiết bị đầu cuối dựa trên IoT.
[42], các tác giả đã đề xuất một mô hình chủng tộc để chọn cách tiếp
cận phù hợp cho tập dữ liệu mất cân bằng. Chen [28] đã sử dụng hệ Hình 3 cho thấy rằng trên nhật ký giao dịch thẻ tín dụng,
thống vectơ hỗ trợ nhị phân (BSVS) và thuật toán di truyền (GA) để RUSBoost (CtRUSBoost) tùy chỉnh được áp dụng và dẫn đến hiển thị
đạt được độ chính xác dự đoán cao hơn từ các đầu vào mất cân bằng. trạng thái của giao dịch được giữ. Ở đây, cách tiếp cận này cấu
Minegishi và Niimi [43] đã đề xuất tạo ra một trình học cây quyết thành việc lấy mẫu dưới ngẫu nhiên và tăng tốc bằng cách sử dụng cây
định rất nhanh (VFDT), có thể được điều chỉnh cho các bộ dữ liệu cực quyết định theo thuật toán RUSBoost thông thường với tiện ích bổ
kỳ mất cân bằng. Seeja và Zar-eapoor [44] đã đề xuất FraudMiner để sung/tùy chỉnh bổ sung để có quy trình đóng bao bằng SVM. CtRUSBoost
quản lý sự mất cân bằng lớp thông qua việc nhập rõ ràng dữ liệu có thể được triển khai ở giai đoạn/bước của Trao đổi thẻ tín dụng
không cân bằng vào mô hình phân loại. GC de Sa và cộng sự. đã tùy hoặc Hệ thống điều khiển máy tính của nhà cung cấp thẻ tín dụng (như
`
chỉnh thuật toán phân loại mạng bayesian (BNC) để phát hiện gian lận
trong Hình 1) và từ các hệ thống kiểm soát này, một thông báo cảnh
thẻ tín dụng [45]. Husejinovic đã giới thiệu một phương pháp học để báo có thể được chuyển lên cấp cao hơn để tạm dừng hoặc dừng giao
phát hiện gian lận thẻ tín dụng bằng cách sử dụng các bộ phân loại dịch tài chính. Các ký hiệu ký hiệu khác nhau được sử dụng trong
cây quyết định Bayesian và C4.5 ngây thơ [46]. Arya và cộng sự. đã thuật toán đề xuất CtRUSBoost đã được xác định trong Bảng 1. e
đề xuất học tập sâu để xác định các trường hợp gian lận trong luồng RUSBoost do Seiffert et al đưa ra. [48, 49] đã được các tác giả sửa
dữ liệu thời gian thực. Mô hình được đề xuất có khả năng thích ứng đổi trong
với sự mất cân bằng dữ liệu cũng như mạnh mẽ với các mô hình giao công trình nghiên cứu này. Các hình chữ nhật bo tròn ở các
dịch bẩm sinh như hành vi mua hàng [4].
bước 2d, 2e, 3a, 3b và 4 thể hiện sự tùy chỉnh do các tác giả đề
xuất ở đây, mang lại kết quả tương đối tốt hơn. Ở bước 1, trọng số
của từng mẫu được khởi tạo thành (1/x), trong đó x là tổng số phiên
2. Phạm vi nghiên cứu bản trong tập dữ liệu huấn luyện. Các giả thuyết yếu, tức là DT và
SVM, được huấn luyện lặp lại trong các bước 2a–2i. Ở bước 2a, việc
Bản thảo này khám phá mối quan tâm về việc phân loại dữ liệu lấy mẫu dưới ngẫu nhiên đã được triển khai để loại bỏ các nhãn lớp
không cân bằng bằng cách hợp nhất các kỹ thuật ở cấp độ dữ liệu và cho đến khi đạt được tỷ lệ lớp thứ yếu cần thiết trong tập dữ liệu
cấp độ thuật toán để phát hiện kẻ lừa đảo từ các tệp nhật ký được huấn luyện (tạm thời) SEGz ′ hiện tại. Ví dụ: nếu tỷ lệ lớp được
tạo cho thẻ tín dụng được sử dụng tại các thiết bị đầu cuối hỗ trợ IoT. yêu cầu là 50:50 thì hầu hết các phiên bản của lớp đều bị loại trừ
Hơn nữa, một thông báo cảnh báo thích hợp có thể được gửi đến chủ theo dự đoán cho đến khi các phiên bản của lớp đa số và thiểu số có
thẻ tín dụng hoặc tổ chức phát hành thẻ để hoàn nguyên/chặn giao thể so sánh được. do đó SEGz sẽ có cách phân bổ trọng số mới là DISz
dịch. Ở đây, phương pháp lấy mẫu ngẫu nhiên (RUS) đã được triển ′. Bước 2b chuyển SEGz và DISz sang cây quyết định, tạo ra giả
khai ở cấp độ dữ liệu và tăng cường ở cấp độ thuật toán. e sự hợp thuyết yếu hz (bước 2c). Ở bước 2d, máy vectơ hỗ trợ đã được sử
nhất của hai thành phần này là RUSBoost [47]. Ở đây, RUS là một kỹ '
dụng để tính toán giả thuyết yếu hsvm ở bước 2e. e giả mất mát εt
thuật lấy mẫu dữ liệu nhằm mục đích giảm thiểu sự bất bình đẳng giữa '
(dựa trên SEG và DISz) đã được xác định ở bước 2f. '
các lớp bằng cách sửa đổi cách phân bổ lớp của tập dữ liệu huấn
luyện. RUS loại bỏ hoàn toàn các cá thể khỏi lớp đa số một cách ngẫu
nhiên trước khi đạt được sự phân bổ lớp hợp lý [48, 49]. z
e
Thẻ tín dụng
GIAO DỊCH người giữ

ĐĂNG NHẬP
Báo động
tin nhắn đã gửi

Thẻ tín dụng
ngân hàng/tổ chức phát hành
Ngẫu nhiên Phân loại của
lấy mẫu dưới Tăng cường Đóng bao giao dịch như
(Nga) bình thường/bất thường
Hình 3: Các bước liên quan đến việc phân loại nhật ký giao dịch mất cân bằng là bình thường hoặc bất thường.
Bảng 1: Các ký hiệu ký hiệu sử dụng trong thuật toán đề xuất CtRUSBoost.
SEG Phân đoạn tập dữ liệu đang được xem xét
hsvm Giá trị giả thuyết thu được thông qua máy vectơ hỗ trợ trong lần lặp thứ z cho phiên bản pk (giá trị này đóng vai trò là giá trị số
z (pk)
đánh giá độ tin cậy)
hz(pk) Giá trị giả thuyết thu được thông qua cây quyết định trong lần lặp thứ z cho phiên bản pk (giá trị này đóng vai trò là xếp hạng độ tin cậy bằng số)
Mất tích lũy giả
εz Tham số cập nhật hệ số trọng lượng
quần què
Phân phối αz của

Hệ trọng
số chuẩn
số lấy
hóa toàn
(z + bộ
1) tập dữ liệu huấn luyện/hoặc giá trị chuẩn hóa cho
Cz
phân bổ
DISz (k) Phân phối trọng số ở lần lặp thứ z lấy tập dữ liệu huấn luyện đầy đủ cho mẫu thứ k
quần què
DISz+1 Phân bố trọng số tại (z + 1) lặp lại lấy toàn bộ tập dữ liệu huấn luyện
DISz ' Phân phối trọng số cho tập dữ liệu huấn luyện tạm thời thứ z
SEGz ' tập dữ liệu đào tạo tạm thời zth
thứ
số Pi tôi
hàng có giá trị của tất cả các cột ngoại trừ cột cuối cùng (tức là nhãn)
quần què
Một nhãn cho cái tôi hàng ngang
qi qr Nhãn giai cấp thiểu số

Z Tổng số lần lặp được sử dụng trong mô hình ML
k hoặc x Tổng số mẫu có trong SEG
P Hàng/bộ dữ liệu trong tập dữ liệu (không bao gồm cột cuối cùng có mục nhập được gắn nhãn)
Q Tổng số nhãn có sẵn trong tập dữ liệu
Ở bước 2f, các giá trị giả thuyết cho các bộ đó chỉ có các giá trị của hsvm. Ở bước 4, giả thuyết cuối cùng H (p) có
z
được xem xét khi có sự phân loại sai. Ở đây, trong được tính toán lấy giá trị lớn nhất thu được của
biểu thức con qk q, qk có nghĩa là nhãn/lớp ban đầu của .
hz và hsvm
z
hàng /bộ thứ k trong tập dữ liệu và q là nhãn/lớp thu được sau khi
sử dụng/triển khai quyết định của người học yếu
4. Kết quả và thử nghiệm
cây. Biểu thức con hz (pk, qk) là độ tin cậy bằng số
giá trị trong lần lặp thứ z của thể hiện pk, trong đó nhãn là qk, e kết quả thu được sau khi sử dụng ba bộ dữ liệu khác nhau,
và biểu thức con hz (pk, q) là giá trị độ tin cậy bằng số viz., (i) Bộ dữ liệu trừu tượng để phát hiện gian lận thẻ tín dụng [50],
trong cùng lần lặp thứ z cho trường hợp pk được xem xét trước đó, (ii) Mặc định của Bộ dữ liệu khách hàng thẻ tín dụng [51] và (iii) Tín dụng
trong đó nhãn không khớp và nhận được là q thay vì qk. Bộ dữ liệu gian lận thẻ [52] được trình bày trong phần này. Các
Ở bước 2g, tham số α được tính là (εz/(1 εz)) kết quả RUSBoost tùy chỉnh được so sánh bằng RUSBoost,
tượng trưng cho việc cập nhật trọng lượng. Ở bước 2h, phân bổ cây quyết định (DT), hồi quy logistic (LR), đa lớp trên mỗi ceptron
trọng số được cập nhật DISz+1. Bước 2i bình thường hóa giá trị (MLP), K-láng giềng gần nhất (KNN), rừng ngẫu nhiên
tính toán ở bước trước. Sau khi hoàn thành Z (RF), AdaBoost và máy vectơ hỗ trợ (SVM).
lặp lại, ở bước 3a, giá trị lớn nhất của hz đã được ree các bộ dữ liệu riêng biệt dựa trên số lượng bộ dữ liệu
được tính trong số những cái được đưa ra bởi cây quyết định dưới đã được thực hiện cho công việc hiện tại. Bộ dữ liệu ít hơn năm
thúc đẩy, trong đó kiến thức/học tập từ trước đó nghìn bộ dữ liệu được coi là nhỏ; bộ dữ liệu với một
phân đoạn dữ liệu đã được sử dụng để nhận giá trị giả thuyết phạm vi trên năm nghìn và dưới mười nghìn là
của phân đoạn tập dữ liệu tiếp theo, nhưng ở bước cuối cùng, tất cả các kết quả được coi là trung bình; và những người có phạm vi trên mười
chưa được hợp nhất để có được cái cuối cùng. Thay vào đó, trận chung kết nghìn mục được coi là lớn. Tất cả các tập dữ liệu
giá trị của giả thuyết đã được lấy từ tập dữ liệu cuối cùng đã được chia thành hai phân vùng, tức là 80% và 20%
bộ phận. Ở bước 3b, các giá trị giả thuyết thu được bằng tập dữ liệu đầy đủ, trong đó phần lớn hơn đã được lấy cho
sử dụng SVM cho từng phân đoạn tập dữ liệu trong Zitering có đào tạo và cái nhỏ hơn để kiểm tra máy
được hoàn thiện bằng cách thực hiện bỏ phiếu hoặc tính trung bình giữa tất cả các mô hình học tập.
4.1. Bộ dữ liệu nhỏ. tập dữ liệu điện tử có tên là Tập dữ liệu trừu tượng cho mô tả một ma trận nhầm lẫn cung cấp độ nhạy, độ đặc hiệu,
Phát hiện gian lận thẻ tín dụng (Bộ dữ liệu A) [50] đã được thực hiện thu hồi và thông tin sai sót. cột e trong ma trận này
từ cơ sở dữ liệu kaggle.com. Các tác giả đã phân loại đây là một đại diện cho các thể hiện trong lớp thực tế, trong khi mỗi hàng
tập dữ liệu nhỏ có ít hơn 5.000 bộ dữ liệu. Tập dữ liệu điện tử bao đại diện cho các trường hợp trong một lớp dự kiến.
gồm việc sử dụng 3.075 khách hàng và 11 thuộc tính. Sau đó Độ nhạy là ước tính tổng số giá trị thực sự tích cực
3.075 mẫu, 2.627 đại diện cho các giao dịch không gian lận trường hợp được kỳ vọng là tích cực. e giá trị độ nhạy lớn hơn
và 448 là giao dịch gian lận (khoảng 6:1). và mười một sẽ có giá trị dương thực sự cao và ít âm tính giả hơn
các biến được lấy trong tập dữ liệu này được mô tả trong Bảng 2. giá trị. Cần có những mô hình có độ nhạy cao cho sức khỏe
và mục đích tài chính. Tính đặc hiệu được định nghĩa là tỷ lệ của
âm tính thực tế, được dự đoán là âm tính. là tỷ lệ cũng có thể

4.2. Bộ dữ liệu trung bình. tập dữ liệu điện tử có tên Mặc định tín dụng
được gọi là tỷ lệ dương tính giả. e giá trị đặc hiệu cao hơn
Bộ dữ liệu Khách hàng Thẻ (Bộ dữ liệu B) [51] cũng đã được lấy
sẽ có nghĩa là âm tính thực cao hơn và dương tính giả thấp hơn
từ cơ sở dữ liệu kaggle.com. bao gồm các chi tiết về
tỷ lệ.
thanh toán mặc định, yếu tố nhân khẩu học, dữ liệu tín dụng, thanh toán
lịch sử và hóa đơn công ty thẻ tín dụng ở Đài Loan từ tháng 4
2005 đến tháng 9 năm 2005. Trong số 30.000 quan sát, 4.4.2. Điểm chính xác và F1. Các phép đo độ chính xác và F được coi là
23.364 là chủ thẻ có khoản thanh toán mặc định là không và 6.636
phù hợp hơn để ước tính
với trạng thái là có (khoảng 4:1). Thanh toán mặc định trong tài chính
hiệu suất của thuật toán phân loại khi tập dữ liệu được
tên miền được gọi là không trả được nợ như tiền lãi
mất cân bằng, trong đó độ chính xác được đặc trưng là dương
hoặc tiền gốc đối với tín dụng hoặc tài sản. Một mặc định có thể dẫn đến
Giá trị dự tính. Độ đo F trong ma trận nhầm lẫn là
khi người mua không thể thanh toán đúng hạn, làm chậm
trung bình điều hòa có trọng số của độ nhạy và độ chính xác [54]:
thanh toán hoặc từ chối hoặc giảm thanh toán [53].
TP
là tập dữ liệu sử dụng khoản thanh toán mặc định biến nhị phân làm
độ chính xác �
biến trả lời. Bảng 3 giải thích 24 biến TP + FP,
được đưa vào Tập dữ liệu B. (1)

2 × độ chính xác × thu hồi
F1 � .
độ chính xác + thu hồi
4.3. Bộ dữ liệu lớn. tập dữ liệu điện tử có tên là Gian lận thẻ tín dụng
Phát hiện (Bộ dữ liệu C) [52] được lấy lại từ cơ sở dữ liệu kag- Độ chính xác là tỷ lệ phần trăm của kết quả dương tính thực sự đối với tất
gle.com. là tập dữ liệu bao gồm các giao dịch mua hàng của chủ thẻ cả các kết quả dương tính. Đối với báo cáo vấn đề của chúng tôi ở đây, độ chính xác sẽ
Châu Âu vào tháng 9 năm 2013. là tập dữ liệu mẫu là thước đo cho các giao dịch lừa đảo mà chúng tôi xác định chính xác
vạch ra các hoạt động kéo dài hai ngày, với 492 vụ gian lận trong tổng số 284.807 được xác định là gian lận trong tất cả các giao dịch, được
tổng số giao dịch. Tập dữ liệu điện tử rất mất cân bằng, trong đó thực chất là lừa đảo. Thu hồi đề cập đến tỷ lệ của tổng thể
loại tích cực (lừa đảo) chiếm 0,172% tổng số giao dịch được coi là. e dự đoán của thuật toán được phân loại chính xác.
chi tiết về các tính năng của tập dữ liệu được đưa ra Hơn nữa, giá trị của F1 cho một điểm duy nhất cân bằng cả khả năng
trong Bảng 4 và bao gồm tất cả các giá trị số. thu hồi và độ chính xác.
Nó chỉ bao gồm các biến số do PCA Ở đây, cây quyết định, hồi quy logistic, per-ceptron đa lớp (MLP),
sự biến đổi. Kaggle không cung cấp bất kỳ tính năng ban đầu nào K-láng giềng gần nhất (KNN), rừng ngẫu nhiên
cũng như các chi tiết bổ sung do lo ngại về quyền riêng tư. Đặc trưng (RF), AdaBoost và các mô hình máy vectơ hỗ trợ (SVM)
V1, V2, . . . và V28 là các thành phần PCA chính với được so sánh độ nhạy, độ đặc hiệu, độ chính xác,
các thuộc tính chưa được chuyển đổi là “thời gian” và “số lượng”. và điểm F1. Cây quyết định là một cây không tham số, được giám sát
hệ thống học tập cho các nhiệm vụ phân loại và hồi quy. cây quyết e
định được thiết kế bằng phương pháp thuật toán

4.4. Các thước đo đánh giá. Các biện pháp đánh giá được sử dụng
nhận ra các cách phân chia dữ liệu dựa trên các điều kiện khác nhau.
để tính toán hiệu quả của mô hình học máy hoặc thống kê. MỘT
Hồi quy logistic là một thuật toán cho máy
ma trận nhầm lẫn cung cấp cho chúng ta ma trận đầu ra mô tả hiệu quả
học dựa trên nguyên lý xác suất. Nó là một
hoàn chỉnh của mô hình. Ở đây, trong mô hình được đề xuất, bối cảnh
thuật toán phân loại được sử dụng để gán các quan sát cho
bảo mật được cho là mạnh mẽ nếu
một tập hợp lớp cụ thể. Sử dụng hàm sigmoid logistic, hồi quy lo-gistic
mô hình có khả năng tìm kiếm/phân loại các giao dịch lừa đảo
biến đổi đầu ra để trả về giá trị xác suất. Perceptron nhiều lớp là
một cách chính xác. số liệu được sử dụng để so sánh các mô hình ML cho
một mạng lưới thần kinh
độ chính xác của chúng là độ nhạy và độ đặc hiệu từ ma trận kết hợp,
liên kết các lớp khác nhau trong biểu đồ có hướng, nghĩa là tín hiệu
độ chính xác, điểm F1, hoạt động của máy thu
đường đi qua các nút chỉ đi một hướng. Trong MLP, mọi
đặc tính (ROC) và khu vực được thu hồi chính xác
nút đang có chức năng kích hoạt phi tuyến, ngoại trừ
(AUPR).
các nút đầu vào. K-hàng xóm gần nhất là một thuật toán duy nhất
giữ tất cả các trường hợp hiện có trong một thước đo tương tự (nghĩa là khoảng cách
4.4.1. Ma trận hỗn loạn. Ma trận nhầm lẫn là sự thể hiện hiệu suất của chức năng) và phân loại các trường hợp mới. Thuật toán rừng ngẫu nhiên
thuật toán trong lĩnh vực liên quan tạo ra cây quyết định trên các mẫu dữ liệu và sau đó
đến học máy. Thuật ngữ “Nhầm lẫn” đã xuất hiện có được dự đoán từ mỗi người và cuối cùng, chọn ra điều tốt nhất
từ thực tế là nếu mô hình học máy gây ra lựa chọn bằng cách bỏ phiếu. Trong AdaBoost, một chuỗi những người học yếu được
dễ nhầm lẫn giữa hai lớp. hinh 4 được liên kết sao cho mỗi bộ phân loại yếu cố gắng nâng cao
(i) Đầu vào: x, SEG, P × Q(với qr Q, |Q| � 2)

(ii) Đầu ra: tối đa [(giá trị tối đa của hz ), (tối đa của hsvm z giá trị)]
Bắt đầu
(1) Khởi tạo DIS1(k) � 1/x cho mọi k

(2) Thực hiện với z � 1 , 2, 3, . . . ,Z
(a) Tạo tập dữ liệu huấn luyện tạm thời SEGz 'với sự phân bố trọng lượng DISz 'bằng cách sử dụng lấy mẫu ngẫu nhiên
(b) Gọi cây quyết định, coi tập mẫu là SEGz 'và phân bố trọng lượng DISz '
(c) Tính giả thuyết hz: P × Q [0, 1]
(d) Gọi máy vectơ hỗ trợ xem xét tập mẫu là SEGz 'và phân bổ trọng lượng dưới dạng DISz '
(e) Tính giả thuyết hsvm z : P × Q [0, 1]
(f ) Tính tổn thất giả cho SEG và DISz

εz (k, q): qk qDISz(k)(1 hz (pk, qk) + hz(pk, q))
(g) Tính thông số để cập nhật hệ số cân:
αz � ( εz/1 εz)
(h) Cập nhật DISz:
z
DISz+1(k) � DISz (k)α(1/2)(1+hz(pk,qk) hz(pk,q: qk q))
(i) Chuẩn hóa DISz+1: Cho Cz � zDISz +1 (k)
DISz+1(k) � ( DISz+1(k)/Cz)
(3) Tìm giá trị của hz và hsvm z
, lớn nhất của hz
(a) Với mỗi giá trị hz, trong đó z � { Z1,} tìm giá trị
2, . . . , (b) Với mỗi giá trị , trong
z của hsvmđó z � { 1, 2, . . . , Z } , áp dụng đóng gói bằng cách thực hiện biểu quyết hoặc tính trung bình giữa tất cả các
giá trị giả thuyết thu được

(4) Tính giả thuyết cuối cùng H (p) là giá trị lớn nhất giữa hzan và hsvm z
Kết thúc
Thuật toán 1: CtRUSBoost (RUSBoost tùy chỉnh).
Bảng 2: Số thuộc tính, tên và định nghĩa của Tập dữ liệu A.
Thuộc tính Sự miêu tả

X1 ID người bán: ID của người bán
X2 Số tiền trung bình/giao dịch/ngày
X3 Tổng số tiền giao dịch
X4 Bị từ chối: giao dịch giảm hoặc giảm (có hoặc không)

X5 Tổng số lần từ chối/ngày: tổng số lượng giao dịch bị từ chối hàng ngày
X6 Là giao dịch nước ngoài: giao dịch được thực hiện có phải là giao dịch nước ngoài hay không
X7 Là quốc gia có rủi ro cao: giao dịch được thực hiện ở các quốc gia có rủi ro cao
X8 Số tiền bồi hoàn trung bình hàng ngày
X9 Khoản bồi hoàn trung bình (được thực hiện trong sáu tháng)
X10 Tần suất bồi hoàn (được thực hiện trong sáu tháng)
X11 Là gian lận: giao dịch có gian lận hay không
phân loại các quan sát được dán nhãn không chính xác bởi 4.4.3. Đặc tính hoạt động của máy thu (ROC). Trong máy
trước bộ phân loại yếu. Máy vectơ hỗ trợ sử dụng một học tập, đo lường hiệu quả là một hoạt động không thể thiếu. ROC là
thủ thuật kernel để chuyển đổi dữ liệu và sau đó xác định được coi là phép đo quan trọng nhất để kiểm tra
ranh giới tối ưu giữa các đầu ra tiềm năng. kết quả điện tử hiệu quả của bất kỳ mô hình phân loại nào. Nó cho biết bao nhiêu
hiển thị so sánh giữa RUSBoost tùy chỉnh, cây quyết định, hồi quy mô hình có thể phân biệt giữa các lớp. e cao hơn
logistic, perceptron đa lớp (MLP), AUC, càng tốt thì dự đoán 0 giây là 0 giây và 1 giây là 1 giây.
K-hàng xóm gần nhất (KNN), rừng ngẫu nhiên (RF), AdaBoost, Đường cong e cho ROC được vẽ với tỷ lệ TP so với tỷ lệ FP, lấy
và các mô hình máy vectơ hỗ trợ (SVM) đã được Tỷ lệ TP và FP tại trục y và trục x tương ứng [55].
được trình bày trong Bảng 5–7. Hình 5–7 mô tả ROC cho RUSBoost tùy chỉnh
Trong Bảng 7, giá trị đã được quan sát cho và các kỹ thuật ngang hàng của nó, tức là RUSBoost, DT, LR, MLP đơn giản,
độ chính xác và điểm F1 là NaN trong SVM vì số 0 KNN, RF AdaBoost và SVM, biểu thị mức độ tối ưu của
chia cho 0 không được xác định là số thực và trong tùy chỉnh được đề xuất trong RUSBoost trên điểm chuẩn
hệ thống máy tính, nó có thể được biểu diễn dưới dạng NaN. tập dữ liệu A, B và C tương ứng.
số 8
Hệ thống thông tin di động
Bảng 3: Số thuộc tính, tên và định nghĩa của Tập dữ liệu B (số tiền tính bằng đô la Đài Loan hoặc Tân Đài tệ).

X1 Số tiền tín dụng
Giới tính của người vay

X2 1 cho nam
2 cho nữ
Cấp độ giáo dục
1 trường sau đại học
2 Đại học
X3
3 trường trung học
4 người khác
5/6 Không rõ
Tình trạng hôn nhân của người vay
1 đã kết hôn
X4
2 đơn
3 người khác
X5 Tuổi của chủ thẻ tín dụng (năm)

Thanh toán đúng hạn � 1
Chậm thanh toán một tháng � 1
Chậm thanh toán hai tháng � 2
X6–X11 PAY_1 đến PAY_6: trạng thái hoàn trả thanh toán từ tháng 9 đến tháng 4 năm 2005 .
.
.
Chậm nộp từ 9 tháng trở lên � 9

X12–X17 BILL_AMT1-6: số tiền hóa đơn từ tháng 4 đến tháng 9 năm 2005
X18–X23 PAY_AMT1-6: khoản thanh toán trước đó vào tháng 4 đến tháng 9 năm 2005
X24 Trạng thái là 1 cho có và 0 cho không trong khoản thanh toán mặc định
Điều kiện thực
Tổng cộng
dân số Tình trạng thực tế tích cực Tình trạng thực tế tiêu cực
Tỷ lệ dương tính thật (TP), độ nhạy Tỷ lệ dương tính giả (FP)

Dự đoán
tình trạng Σ Dương tính thực sự Σ Dương tính giả
= =
tích cực Σ Điều kiện tích cực Σ Điều kiện phủ định
há
gn no
ạ ìđ
r
ự T
t
d
Tỷ lệ âm tính giả (FN) Tỷ lệ âm tính thật (TN), độ đặc hiệu

Dự đoán
tình trạng Σ Âm tính giả Σ Âm tính thật
= =
tiêu cực Σ Điều kiện tích cực Σ Điều kiện phủ định
Hình 4: Công thức độ nhạy, độ đặc hiệu, tỷ lệ FP và tỷ lệ FN trong ma trận nhầm lẫn.
Bảng 4: Số thuộc tính, tên và định nghĩa của Tập dữ liệu C.
V1 . . . Các tham số đã được ẩn danh bằng phân tích thành phần chính (PCA) để bảo vệ danh tính người dùng
Lớp Thời gian can thiệp giữa các giao dịch (tính bằng giây)
lượng Số tiền giao dịch
thời gian V28 Nhãn cuối cùng; 1 � gian lận, 0 � ngược lại
Bên cạnh ROC, các đường cong thu hồi chính xác (PR) cũng 4.4.4. Khu vực thuộc diện Thu hồi Chính xác (AUPR). đường cong ROC
được coi là tốt hơn để đánh giá hiệu quả thuật toán có một số nhược điểm, bao gồm cả việc tách lớp sai lệch. Tại
khi tập mẫu có độ chệch cao. kết quả của đó là lý do tại sao đường cong thu hồi chính xác (PR), biểu thị độ chính xác
công việc hiện tại cũng được trình bày thông qua đường cong AUPR chống lại việc thu hồi và tương đương với tỷ lệ phát hiện sai
thu được trên các mô hình học máy khác nhau. đường cong, đã được chú ý trong những năm gần đây. là đầu ra
Bảng 5: Độ nhạy, độ đặc hiệu, độ chính xác và điểm F1 thu được trên Bộ dữ liệu A đang thực thi RUSBoost, RUSBoost tùy chỉnh, DT, LR, MLP,
KNN, RF, AdaBoost và SVM.
Tên mẫu Nhạy cảm Tính đặc hiệu Độ chính xác Điểm F1
RUSBoost 50,6 99,8 33,4 40,2

RUSBoost tùy chỉnh 96,3 85,6 94,2 88,6
DT 76,5 97,9 72,6 75,4
LR 57,0 99,0 86,0 68,7
MLP 70,4 99,5 95,8 81,1
KNN 80,6 99,9 95,1 87,2
RF 53,2 99,0 82,3 64,5
AdaBoost 73,4 99,0 83,7 78,2
SVM 61,2 99,9 96,8 75,7
Bảng 6: Độ nhạy, độ đặc hiệu, độ chính xác và điểm F1 thu được trên Bộ dữ liệu B thực thi RUSBoost, RUSBoost tùy chỉnh, DT, LR, MLP,
Tên mẫu Nhạy cảm Tính đặc hiệu Độ chính xác Điểm F1
RUSBoost 34,6 98,3 85,9 59,4

DT 40,6 81,0 49,5 50,7
LR 23,6 97,0 69,6 35,0
MLP 38,5 93,2 61,4 47,3
KNN 37,8 89,4 50,0 43,1
RF 5,5 99,2 68,2 10.2
AdaBoost 30,8 95,8 67,3 42,3
SVM 33,2 95,2 67,8 44,5
Bảng 7: Độ nhạy, độ đặc hiệu, độ chính xác và điểm F1 thu được trên Bộ dữ liệu C thực thi RUSBoost, RUSBoost tùy chỉnh, DT, LR, MLP,
Tên mẫu Độ nhạy Độ đặc hiệu Độ chính xác Điểm F1
RUSBoost 34,6 98,3 85,9 59,4

DT 40,6 81,0 49,5 50,7
LR 23,6 97,0 69,6 35,0
MLP 38,5 93,2 61,4 47,3
KNN 37,8 89,4 50,0 43,1
RF 5,5 99,2 68,2 10.2
AdaBoost 30,8 95,8 67,3 42,3
SVM 33,2 95,2 67,8 44,5
số liệu đã được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau như hệ thống chính xác và thu hồi sẽ cung cấp nhãn chính xác
thị giác máy tính, sinh học tính toán, phân tích dữ liệu, kết quả [55]. Hình 8–10 mô tả AUPR cho RUSBoost tùy chỉnh và các
y học và xử lý ngôn ngữ tự nhiên. Là một điểm số duy nhất, kỹ thuật ngang hàng của nó, nghĩa là đơn giản
AUPR tóm tắt đường cong thu hồi chính xác và có thể RUSBoost, DT, LR, MLP, KNN, RF, AdaBoost và SVM,
được sử dụng để dễ dàng so sánh các mô hình phân loại nhị phân khác nhau. chỉ ra sự tối ưu của thuật toán trên điểm chuẩn
e Giá trị AUPR của một bộ phân loại hoàn hảo là 1. e cao tập dữ liệu A, B và C tương ứng.
1.0 1.0
0,8 0,8
0,6 0,6
hơ
gncựỷs
nự
ệ
ư
í
hT
l
d
t
0,4
ỷsT
l
d
t
0,4
hơ
gnc nự
ự ệ
ư
í
h
0,2 0,2
0,0 0,0
0,0 0,2 0,4 0,6 0,8 1.0 0,0 0,2 0,4 0,6 0,8 1.0
Tỷ lệ dương tính giả Tỷ lệ dương tính giả
RUSBoost, AUC = 0,75 RUSBoost, AUC = 0,96
RUSBoost tùy chỉnh, AUC = 0,91 RUSBoost tùy chỉnh, AUC = 1,0
Cây quyết định, AUC = 0,89 Cây quyết định, AUC = 0,82
Hồi quy logistic, AUC = 0,79 Hồi quy logistic, AUC = 0,78
Perceptron đa lớp, AUC = 0,85 Perceptron đa lớp, AUC = 0,85
K-hàng xóm gần nhất, AUC = 0,9 K-hàng xóm gần nhất, AUC = 0,8
Rừng ngẫu nhiên, AUC = 0,77 Rừng ngẫu nhiên, AUC = 0,65
AdaBoost, AUC = 0,87 AdaBoost, AUC = 0,82
Máy vectơ hỗ trợ, AUC = 0,81 Máy vectơ hỗ trợ, AUC = 0,5
Hình 5: Đường cong ROC thu được trong trường hợp Mặc định của Khách hàng Thẻ Tín dụng Hình 7: Đường cong ROC thu được trên tập dữ liệu Tóm tắt cho Tín dụng
Bộ dữ liệu sau khi triển khai RUSBoost, RUSBoost tùy chỉnh, DT, LR, MLP, Phát hiện gian lận thẻ sau khi triển khai RUSBoost, RUSBoost, DT, LR, MLP,
KNN, RF, AdaBoost và SVM. KNN, RF, AdaBoost và SVM tùy chỉnh.
1.0 1.0
0,8 0,8
0,6 0,6
ộĐ
hơ
gnc nự
ự ỷs
ệ
ư
í
h T
l
d
t
0,4 0,4
0,2 0,2
0,0 0,0
0,0 0,2 0,4 0,6 0,8 1.0 0,0 0,2 0,4 0,6 0,8 1.0
Tỷ lệ dương tính giả Nhớ lại
RUSBoost, AUC = 0,67 RUSBoost, AUC = 0,17
RUSBoost tùy chỉnh, AUC = 0,99 RUSBoost tùy chỉnh, AUC = 0,79
Cây quyết định, AUC = 0,69 Cây quyết định, AUC = 0,57
Hồi quy logistic, AUC = 0,6 Hồi quy logistic, AUC = 0,49
Perceptron đa lớp, AUC = 0,66 Perceptron đa lớp, AUC = 0,68
K-hàng xóm gần nhất, AUC = 0,64 K-hàng xóm gần nhất, AUC = 0,77
Rừng ngẫu nhiên, AUC = 0,52 Rừng ngẫu nhiên, AUC = 0,44
AdaBoost, AUC = 0,63 AdaBoost, AUC = 0,62
Máy vectơ hỗ trợ, AUC = 0,64 Máy vectơ hỗ trợ, AUC = 0,6
Hình 6: Đường cong ROC thu được trên Bộ dữ liệu phát hiện gian lận thẻ tín Hình 8: Đường cong AUPR thu được trên Bộ dữ liệu A sau khi triển khai
dụng sau khi triển khai RUSBoost, RUSBoost, DT, LR, MLP, KNN, RF, AdaBoost RUSBoost, RUSBoost, DT, LR, MLP, KNN, RF, AdaBoost và SVM tùy chỉnh.
và SVM tùy chỉnh.
1.0 1.0
0,9
0,8 0,8
0,7
0,6
0,6
ộĐ
ộĐ
0,5
0,4
0,4
0,3
0,2
0,2
0,0 0,2 0,4 0,6 0,8 1.0 0,0 0,2 0,4 0,6 0,8 1.0
Nhớ lại Nhớ lại
RUSBoost, Trung bình độ chính xác = 0,44 RUSBoost, Trung bình độ chính xác = 0,92
RUSBoost tùy chỉnh, trung bình độ chính xác = 0,96 RUSBoost tùy chỉnh, Avg. độ chính xác = 0,99
Cây quyết định, Trung bình độ chính xác = 0,36 Cây quyết định, Trung bình độ chính xác = 0,44
Hồi quy logistic, Trung bình độ chính xác = 0,33 Hồi quy logistic, Trung bình độ chính xác = 0,61
Perceptron đa lớp, trung bình. độ chính xác = 0,37 Perceptron nhiều lớp, Avg. độ chính xác = 0,74
K-hàng xóm gần nhất, Avg. độ chính xác = 0,33 K-hàng xóm gần nhất, Avg. độ chính xác = 0,58
Rừng ngẫu nhiên, Avg. độ chính xác = 0,24 Rừng ngẫu nhiên, Avg. độ chính xác = 0,41
AdaBoost, Trung bình. độ chính xác = 0,36 AdaBoost, Trung bình. độ chính xác = 0,66
Máy vectơ hỗ trợ, Trung bình. độ chính xác = 0,37 Máy vectơ hỗ trợ, Trung bình. độ chính xác = 0,17
Hình 9: Đường cong AUPR thu được trên Bộ dữ liệu B sau khi triển khai Hình 10: Đường cong AUPR thu được trên Bộ dữ liệu C sau khi triển khai
RUSBoost, RUSBoost, DT, LR, MLP, KNN, RF, AdaBoost và SVM tùy chỉnh. RUSBoost, RUSBoost, DT, LR, MLP, KNN, RF, AdaBoost và SVM tùy chỉnh.
5. Kết luận kaggle.com/uciml/default-of-credit-card-clients-dataset

và tập dữ liệu cỡ lớn của kaggle, https://www.kaggle.com/mlg-
Trong công trình nghiên cứu này, thuật toán RUSBoost hiện ulb/creditcardfraud . Các bộ dữ liệu được sử dụng để hỗ trợ
tại đã được tùy chỉnh bằng cách sử dụng kết hợp đóng bao và kết quả của nghiên cứu này được đưa vào bài viết với số tham
tăng tốc. Kết quả thu được sau khi tùy chỉnh RUS-Boost trong chiếu [50–52].
phương pháp được đề xuất là đáng tin cậy và xác thực hơn
khi so sánh với RUSBoost, DT, RF, AdaBoost, SVM, LR, KNN và
Xung đột lợi ích
MLP đơn giản/bình thường. Điểm số thu được cho thuật toán
CtRUSBoost trên ba bộ dữ liệu chuẩn A, B và C lấy từ Các tác giả tuyên bố rằng họ không có xung đột lợi ích.
kaggle.com lần lượt là 96,30, 99,60 và 100 cho độ nhạy;
85,60, 98,70 và 99,80 tương ứng cho độ đặc hiệu; lần lượt
là 94,20, 95,70 và 99,30 về độ chính xác; và lần lượt là Sự nhìn nhận
88,60, 97,60 và 99,60 cho điểm F1. Kết quả thu được từ
là công trình được hỗ trợ bởi Quỹ Nghiên cứu Quốc gia
CtRUSBoost đã vượt trội hơn tất cả các phương pháp tiếp cận
Hàn Quốc (NRF) do chính phủ Hàn Quốc (MSIT) tài trợ (số
ngang hàng được sử dụng trong nghiên cứu này ở mức chênh
2018R1A4A1025632).
lệch lớn, điều đó có nghĩa là nó có thể phát hiện các giao
dịch lừa đảo một cách mạnh mẽ hơn. Trong tương lai, công
Người giới thiệu
việc được đề xuất ở đây có thể được tùy chỉnh thêm bằng cách
thêm các bộ phân loại yếu vào quy trình như K-láng giềng gần
[1] L. Delamaire, H. Abdou và J. Pointon, “Kỹ thuật phát hiện và gian
nhất, hồi quy tuyến tính và perceptron đa lớp.
lận thẻ tín dụng: đánh giá,” Ngân hàng và Hệ thống Ngân hàng,
tập. 4, không. 2, trang 57–68, 2009.
[2] S. Benson Edwin Raj và A. Annie Portia, “Phân tích về các phương
Tính sẵn có của dữ liệu pháp phát hiện gian lận thẻ tín dụng,” trong Kỷ yếu của Hội nghị
Quốc tế về Công nghệ Máy tính, Truyền thông và Điện (ICCCET),
Các bộ dữ liệu được sử dụng trong nghiên cứu hiện tại có
trang 152–156, Tamil Nadu , Ấn Độ, tháng 3 năm 2011.
sẵn tại kaggle.com và các liên kết web tới các bộ dữ liệu
như sau: bộ dữ liệu cỡ nhỏ kaggle, https://www.kaggle.com/ [3] A. Abdallah, MA Maarof và A. Zainal, “Hệ thống phát hiện gian
shubhamjoshi2130of/abstract-data-set-for- phát hiện lận: một cuộc khảo sát,” Tạp chí Ứng dụng Mạng và Máy tính, tập.
gian lận thẻ tín dụng, tập dữ liệu cỡ trung bình kaggle, https://www. 68, trang 90–113, 2016.
[4] M. Arya và G. Hanumant Sastry, khung “DEAL–“thuật toán tổng hợp Kỷ yếu của Hội nghị Quốc tế Hawaii lần thứ 27, trang 621–630,
sâu” để phát hiện gian lận thẻ tín dụng trong luồng dữ liệu thời Wailea, HI, Hoa Kỳ, tháng 1 năm 1994.
gian thực với Google TensorFlow,” Smart Science, tập. 8, không. [21] JR Dorronsoro, F. Ginel, C. Sanchez và C. Santa Cruz, “Phát hiện
2, trang 71–83, 2020. gian lận thần kinh trong hoạt động thẻ tín dụng,” Giao dịch IEEE
[5] KK Sherly và R. Nedunchezhian, “Hệ thống phát hiện gian lận thẻ trên Mạng thần kinh, tập. 8, không. 4, trang 827–834, 1997.
tín dụng thích ứng BOAT,” trong Kỷ yếu của Hội nghị Quốc tế IEEE
`
2010 về Nghiên cứu Máy tính và Trí tuệ Tính toán, trang 1–7, [22] M. Taniguchi, M. Haft, J. Hollmen và V. Tresp, “Phát hiện gian
Coimbatore, Ấn Độ, tháng 12 năm 2010. lận trong mạng truyền thông bằng phương pháp thần kinh và xác
suất,” trong Kỷ yếu của Hội nghị quốc tế về Âm học, Lời nói và Xử
[6] N. Khare, P. Devan, C. Lal Chowdhary và cộng sự, “Tối ưu hóa khỉ lý Tín hiệu, ICASSP'98 (Cat. No. 98CH36181), trang 1241–1244,
nhện và mô hình phân loại lai mạng lưới thần kinh sâu để phát Seattle, WA, USA, tháng 5 năm 1998.
hiện xâm nhập,” Điện tử, tập. 9, không. 4, tr. 692, 2020.
[7] “Cổng thanh toán InterWeave, CreatioMarketplace,” 2020, [23] R. Brause, T. Langsdorf và M. Hepp, “Khai thác dữ liệu thần kinh
https://marketplace.creatio.com/app/interweave-Payment- để phát hiện gian lận thẻ tín dụng,” trong Kỷ yếu của Hội nghị
gateway . quốc tế lần thứ 11 về các công cụ có trí tuệ nhân tạo, trang 103–
[8] SP Mishra và P. Kumari, “Phân tích các kỹ thuật phát hiện gian 106, Chicago, IL, Hoa Kỳ, tháng 11 năm 1999.
lận thẻ tín dụng: góc độ khai thác dữ liệu,” trong Mô hình mới, [24] E. Michael và PR Falcone Sampaio, “thiết kế điện tử của FFML:
trong Khoa học và Quản lý Quyết định, IAS Patnaik, M. Tavana và ngôn ngữ lập mô hình chính sách dựa trên quy tắc để quản lý gian
V. Jain, Eds. , tập. 1005, trang 89–98, Springer, Singapore, Châu lận chủ động trong các luồng dữ liệu tài chính,” Hệ thống chuyên
Á, 2020. gia với ứng dụng, tập. 39, không. 11, trang 9966–9985, 2012.
[9] J. West và M. Bhattacharya, “Phát hiện gian lận tài chính thông [25] S. Maes, K. Tuyls, B. Vanschoenwinkel và B. Manderick, “Phát hiện
minh: đánh giá toàn diện,” Máy tính & Bảo mật, tập. 57, trang 47– gian lận thẻ tín dụng bằng cách sử dụng Bayesian và mạng thần
66, 2016. kinh,” trong Kỷ yếu của Đại hội Naiso Quốc tế lần thứ nhất về
[10] J. Johannes, M. Granitzer, K. Ziegler và cộng sự, “Phân loại Công nghệ Neuro Fuzzy, trang 261–270 , Havana, Cuba, tháng 1 năm
trình tự để phát hiện gian lận thẻ tín dụng,” Hệ thống chuyên gia 2002.
với ứng dụng, tập. 100, trang 234–245, 2018. [26] SJ Stolfo, DW Fan, W. Lee và AL Prodromidi, “Phát hiện gian lận
[11] V. Sharma, R. Kumar, W.-H. Cheng, M. Atiquzzaman, K. Srinivasan thẻ tín dụng bằng cách sử dụng siêu học,” trong Kỷ yếu của Hội
và AY Zomaya, “Phát hiện dị thường theo chiều ngang dựa trên thảo AAAI về Phát hiện gian lận và Quản lý rủi ro, trang 83–90,
thần kinh mờ trong các mạng xã hội trực tuyến,” Giao dịch của Providence , RI, Mỹ, tháng 7 năm 1997.
` `
IEEE về Kiến thức và Kỹ thuật Dữ liệu, tập. 30, không. 11, trang [27] V. Lopez, A. Fern andez, G. Jose, Moreno-Torres và F. Herrera,
2171–2184, 2018. “Phân tích quá trình tiền xử lý so với việc học tập nhạy cảm với
[12] D. Yue, X. Wu, Y. Wang, Li Yue, và C.-H. Chu, “Đánh giá nghiên cứu chi phí để phân loại không cân bằng. các vấn đề mở về đặc điểm dữ
phát hiện gian lận tài chính dựa trên khai thác dữ liệu,” trong liệu nội tại,” Hệ thống chuyên gia với các ứng dụng, tập. 39,
Kỷ yếu của Hội nghị Quốc tế về Truyền thông Không dây, Mạng và không. 7, trang 6585–6608, 2012.
Điện toán Di động, trang 5519–5522, Thượng Hải, Trung Quốc, tháng [28] R.-C. Chen, T. Chen và C.-C. Lin, “Hệ thống vectơ hỗ trợ nhị phân
9 năm 2007. mới để tăng tỷ lệ phát hiện gian lận thẻ tín dụng,” Tạp chí Quốc
[13] Z. Li, V. Sharma và SP Mohanty, “Đảm bảo quyền riêng tư dữ liệu tế về Nhận dạng Mẫu và Trí tuệ Nhân tạo, tập. 20, không. 2, trang
thông qua học tập liên kết: những thách thức và giải pháp,” Tạp 227–239, 2006.
chí Điện tử Tiêu dùng IEEE, tập. 9, không. 3, trang 8–16, 2020. [29] P. Brennan, “Một cuộc khảo sát toàn diện về các phương pháp khắc
[14] N. Laleh và MA Azgomi, “Phân loại gian lận và kỹ thuật phát hiện phục vấn đề mất cân bằng giai cấp trong phát hiện gian lận,”
gian lận,” trong Kỷ yếu của Hội nghị Quốc tế về Hệ thống Thông ThS. trong Luận văn Máy tính, Viện Công nghệ, Blan-chardstown,
tin, Công nghệ và Quản lý, trang 256–267, Ghaziabad, Ấn Độ, Dublin, Ireland, 2012.
tháng 3 năm 2009. [30] NV Chawla, KW Bowyer, LO Hall và WP Kegelmeyer, “SMOTE: kỹ thuật
[15] S. Zhang và J.-H Lee, “Một sơ đồ xác thực và chữ ký nhóm cho điện lấy mẫu quá mức tổng hợp thiểu số,” Tạp chí Nghiên cứu Trí tuệ
toán biên di động dựa trên blockchain,” IEEE Internet of ings Nhân tạo, tập. 16, trang 321–357, 2002.
Journal, tập. 7, không. 5, trang 4557–4567, 2019.
¨
[16] S. Singh, PK Sharma, B. Yoon, M. Shojafar, GH Cho, và I.-H. Ra, [31] A. Dal Pozzolo, C. Olivier, Yann-Ael Le Borgne, S. Waterschoot và
“Sự hội tụ của blockchain và trí tuệ nhân tạo trong mạng IoT cho G. Bontempi, “Bài học rút ra về phát hiện gian lận thẻ tín dụng
thành phố thông minh bền vững,” Các thành phố và xã hội bền từ góc độ người hành nghề,” Hệ thống chuyên gia với ứng dụng,
vững, tập. 63, Điều ID 102364, 2020. tập. 41, không. 10, trang 4915–4928, 2014.
[17] M. Behdad, L. Barone, M. Bennamoun và T. French, “Các kỹ thuật [32] B. Zadrozny, J. Langford và N. Abe, “Học tập nhạy cảm với chi phí
lấy cảm hứng từ thiên nhiên trong bối cảnh phát hiện gian lận,” bằng cách tính trọng số ví dụ tỷ lệ với chi phí,” trong Kỷ yếu
Giao dịch của IEEE về Hệ thống, Con người và Điều khiển học, Phần của Hội nghị quốc tế lần thứ 3 về Khai thác dữ liệu, trang 435–
C (Ứng dụng và Đánh giá), tập. 42, không. 6, trang 1273– 1290, 442, Melbourne, FL, Hoa Kỳ, tháng 11 năm 2003.
2012. [33] PK Chan, W. Fan, A. Prodromidir và S. Stalfo, “Khai thác dữ liệu
[18] S. Tennyson và P. Salsas-Forn, “Kiểm tra khiếu nại trong bảo hiểm phân tán trong phát hiện gian lận thẻ tín dụng,” Hệ thống thông
ô tô di động: mục tiêu ngăn chặn và phát hiện gian lận,” minh IEEE và Ứng dụng eir, tập. 14, không. 6, trang 67–74, 1999.
Tạp chí Rủi ro & Bảo hiểm, tập. 69, không. 3, trang 289–308, 2002.
[19] J. Veeramreddy, VV Rama Prasad và K. Munivara Prasad, “Đánh giá [34] F. Nick, R. Tubb và P. Krause, “Trích xuất quy tắc mạng thần kinh
về các hệ thống phát hiện xâm nhập dựa trên sự bất thường,” để phát hiện gian lận thẻ tín dụng,” trong Kỷ yếu ứng dụng kỹ
Tạp chí quốc tế về ứng dụng máy tính, tập. 28, không. 7, trang 26– thuật của mạng thần kinh, trang 101–110, Corfu, Hy Lạp, Tháng 9
35, 2011. năm 2011.
[20] S. Ghosh và DL Reilly, “Phát hiện gian lận thẻ tín dụng bằng mạng [35] E. Duman và Y. Sahin, “Phát hiện gian lận thẻ tín dụng bằng cây
thần kinh,” trong Kỷ yếu của Khoa học Hệ thống, quyết định và máy vectơ hỗ trợ,” trong Kỷ yếu của
Hội nghị đa quốc tế về kỹ sư và nhà khoa học máy tính (IMECS), tập. [51] UM Learning, “Bộ dữ liệu mặc định của khách hàng thẻ tín dụng,”
1, Hồng Kông, Trung Quốc, tháng 3 năm 2011. 2016, https://www.kaggle.com/uciml/default-of-credit-card-
[36] S. Bhattacharyya, S. Jha, K. arakunnel và JC Westland, “Khai thác dữ
client-dataset .
liệu về gian lận thẻ tín dụng: một nghiên cứu so sánh,” [52] MLG ULB, “Phát hiện gian lận thẻ tín dụng,” 2018, https://
Hệ thống hỗ trợ quyết định, tập. 50, không. 3, trang 602–613, 2011. www.kaggle.com/mlg-ulb/creditcardfraud.
[37] C. Phua, K. Smith-Miles, VC-S. Lee và R. Gayler, “Phát hiện tội phạm [53] J. Chen, “Mặc định,” 2020, https://www.investopedia.com/terms/d/
nhận dạng im lặng,” Giao dịch của IEEE về Kỹ thuật Kiến thức và Dữ default2.asp .
liệu, tập. 24, không. 3, trang 533–546, 2010. [54] J. Akosa, “Độ chính xác dự đoán: thước đo hiệu suất sai lệch đối với
dữ liệu mất cân bằng cao,” trong Kỷ yếu của Diễn đàn Toàn cầu SAS,
[38] E. Duman, A. Buyukkaya và I. Elikucuk, “Một hệ thống phát hiện gian trang 2–5, Orlando, FL, Hoa Kỳ, tháng 4 năm 2017.
lận thẻ tín dụng mới và thành công được triển khai tại một ngân hàng [55] V. Arora, R. Leekha, R. Singh và I. Chana, “Phân loại âm thanh của tim
Thổ Nhĩ Kỳ,” trong Kỷ yếu của Hội nghị quốc tế lần thứ 13 về Hội thảo bằng cách sử dụng máy học và máy ghi âm tim,”
khai thác dữ liệu, trang 162–171 , Dallas, TX, Hoa Kỳ, tháng 12 năm Thư vật lý hiện đại B, tập. 22, không. 26, Điều ID 1950321, 2019.
2013.
[39] Y. Sahin, S. Bulkan và E. Duman, “Phương pháp tiếp cận cây quyết định
nhạy cảm với chi phí để phát hiện gian lận,” Hệ thống chuyên gia với
các ứng dụng, tập. 40, không. 15, trang 5916–5923, 2013.
[40] Q. Lu và C. Ju, “Nghiên cứu mô hình phát hiện gian lận thẻ tín dụng
dựa trên máy vectơ hỗ trợ có trọng số lớp,”

Tạp chí Công nghệ thông tin hội tụ, tập. 6, không. 1, trang 62–68,
2011.
[41] PJ Bentley, J. Kim, G.-H. Jung và J.-U. Choi, “Phát hiện gian lận thẻ
tín dụng theo thuyết Darwin mờ,” trong Kỷ yếu của Hội nghị chuyên đề
mùa thu thường niên lần thứ 14 của Hiệp hội xử lý thông tin Hàn Quốc,
tập. 14, Seoul, Hàn Quốc, Ootober 2000.
[42] AD Pozzolo, O. Caelen, S. Waterschoot và G. Bontempi, “Đua nhau lựa
chọn các phương pháp không cân bằng,” trong Kỷ yếu của Hội nghị Quốc
tế về Kỹ thuật Dữ liệu Thông minh và Học tập Tự động, trang 24–31,
Hợp Phì, Trung Quốc , Tháng 10 năm 2013.
[43] T. Minegishi và A. Niimi, “Đề xuất phát hiện việc sử dụng gian lận thẻ
tín dụng bằng cách xây dựng cây quyết định loại trực tuyến và xác minh
tính tổng quát,” Tạp chí Quốc tế về Nghiên cứu An ninh Thông tin
(IJISR), tập. 1, không. 4, trang 229–235, 2011.
[44] KR Seeja và M. Zareapoo, “FraudMiner: một mô hình phát hiện gian lận
thẻ tín dụng mới dựa trên việc khai thác tập mục thường xuyên,” e
Scientific World Journal, tập. 2014, Điều ID 252797, 2014.
[45] AGC De S'a, ACM Pereira và GL Pappa, “Thuật toán phân loại tùy chỉnh
để phát hiện gian lận thẻ tín dụng,” Ứng dụng Kỹ thuật của Trí tuệ
Nhân tạo, tập. 72, trang 21–29, 2018.
[46] A. Husejinovic, “Phát hiện gian lận thẻ tín dụng bằng cách sử dụng bộ
phân loại cây quyết định Bayesian và C4.5 ngây thơ,” Tạp chí Kỹ thuật
và Khoa học Tự nhiên định kỳ, tập. 8, không. 1, trang 1–5, 2020.
[47] J. Van Hulse, TM Khoshgoftaar và A. Napolitano, “Thuật toán tăng cường
chống nhiễu mới cho dữ liệu bị sai lệch theo lớp,” trong Kỷ yếu của
Hội nghị quốc tế lần thứ 11 về ứng dụng và học máy, trang 551–557,
Boca Raton, FL, Mỹ, tháng 12 năm 2012.
[48] C. Seiffert, TM Khoshgoftaar, J. Van Hulse và A. Napolitano, “RUSBoost:

một cách tiếp cận kết hợp để giảm bớt sự mất cân bằng giai cấp,” Giao
dịch của IEEE về Hệ thống, Con người và Điều khiển học-Phần A: Hệ
thống và Con người, tập . 40, không. 1, trang 185–197, 2009.
[49] C. Seiffert, TM Khoshgoftaar, J. Van Hulse và A. Napolitano, “RUSBoost:

cải thiện hiệu suất phân loại khi dữ liệu huấn luyện bị sai lệch,”
trong Kỷ yếu của Hội nghị quốc tế lần thứ 19 về nhận dạng mẫu, trang
1– 4, Tampa, FL, Mỹ, tháng 12 năm 2008.
[50] S. Joshi, “Bộ dữ liệu trừu tượng để phát hiện gian lận thẻ tín
dụng,” 2020, https://www.kaggle.com/shubhamjoshi2130of/abstract-
data-set-for-credit-card-fraud-Detection .

Bài viết nghiên cứu Tạo điều kiện cho phép người dùng từ nhật ký dữ liệu không cân bằng của

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bài viết nghiên cứu Tạo điều kiện cho phép người dùng từ nhật ký dữ liệu không cân bằng của

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

thông tin di động Hindawi

Bài viết nghiên cứu

Thư từ nên được gửi tới Kyungroul Lee; lisa.sch.k@gmail.com

Biên tập viên học thuật: Zengpeng Li

thẻ này. kẻ lừa đảo của người bán

2 Hệ thống thông tin di động

Thiết bị vuốt dựa trên IoT

Tài khoản ngân hàng của

người bán/nhà cung cấp

Ngân hàng thương mại/nhà cung cấp

cho nhà cung cấp và/hoặc khách hàng

loại thành gian lận ngoại tuyến và trực tuyến [14]:

Hệ thống thông tin di động 3

4 Hệ thống thông tin di động

Hệ thống thông tin di động 5

Thẻ tín dụng

GIAO DỊCH người giữ

tin nhắn đã gửi

ngân hàng/tổ chức phát hành

Ngẫu nhiên Phân loại của

(Nga) bình thường/bất thường

SEG Phân đoạn tập dữ liệu đang được xem xét

Phân phối αz của

Một nhãn cho cái tôi hàng ngang

qi qr Nhãn giai cấp thiểu số

6 Hệ thống thông tin di động

âm tính thực tế, được dự đoán là âm tính. là tỷ lệ cũng có thể

được đưa vào Tập dữ liệu B. (1)

định được thiết kế bằng phương pháp thuật toán

Hệ thống thông tin di động 7

(i) Đầu vào: x, SEG, P × Q(với qr Q, |Q| � 2)

(1) Khởi tạo DIS1(k) � 1/x cho mọi k

(f ) Tính tổn thất giả cho SEG và DISz

giá trị giả thuyết thu được

Thuật toán 1: CtRUSBoost (RUSBoost tùy chỉnh).

Bảng 2: Số thuộc tính, tên và định nghĩa của Tập dữ liệu A.

Thuộc tính Sự miêu tả

X4 Bị từ chối: giao dịch giảm hoặc giảm (có hoặc không)

Thuộc tính Sự miêu tả

Giới tính của người vay

1 trường sau đại học

X5 Tuổi của chủ thẻ tín dụng (năm)

Chậm nộp từ 9 tháng trở lên � 9

Điều kiện thực

Tỷ lệ dương tính thật (TP), độ nhạy Tỷ lệ dương tính giả (FP)

Tỷ lệ âm tính giả (FN) Tỷ lệ âm tính thật (TN), độ đặc hiệu

Bảng 4: Số thuộc tính, tên và định nghĩa của Tập dữ liệu C.

Thuộc tính Sự miêu tả

Hệ thống thông tin di động 9

RUSBoost 50,6 99,8 33,4 40,2

RUSBoost 34,6 98,3 85,9 59,4

Tên mẫu Độ nhạy Độ đặc hiệu Độ chính xác Điểm F1

RUSBoost 34,6 98,3 85,9 59,4

10 Hệ thống thông tin di động

Tỷ lệ dương tính giả Tỷ lệ dương tính giả

RUSBoost, AUC = 0,75 RUSBoost, AUC = 0,96

Perceptron đa lớp, AUC = 0,85 Perceptron đa lớp, AUC = 0,85

AdaBoost, AUC = 0,87 AdaBoost, AUC = 0,82

Tỷ lệ dương tính giả Nhớ lại

RUSBoost, AUC = 0,67 RUSBoost, AUC = 0,17

Perceptron đa lớp, AUC = 0,66 Perceptron đa lớp, AUC = 0,68

AdaBoost, AUC = 0,63 AdaBoost, AUC = 0,62