You are on page 1of 11

Machine Translated by Google

Thông tin tổng hợp 90 (2023) 353–363

Danh sách nội dung có sẵn tại ScienceDirect

Hợp nhất thông tin

trang chủ tạp chí: www.elsevier.com/locate/inffus

Bài viết có độ dài đầy đủ

Sự kết hợp tầm quan trọng thống kê để lựa chọn tính năng trong Deep Neural
Hệ thống phát hiện xâm nhập dựa trên mạng
Ankit Thakkar, Ritika Lohiya
Viện Công nghệ, Đại học Nirma, Ahmedabad, Gujarat 382 481, Ấn Độ

BÀI VIẾT THÔNG TIN TRỪU TƯỢNG

Từ khóa: Hệ thống phát hiện xâm nhập (IDS) là một phần thiết yếu của mạng vì nó góp phần bảo vệ mạng trước các lỗ hổng và mối đe
Hệ thống phát hiện xâm nhập dọa khác nhau. Trong những thập kỷ qua, đã có nghiên cứu toàn diện trong lĩnh vực IDS và nhiều phương pháp tiếp cận khác
Học kĩ càng
nhau đã được phát triển để thiết kế hệ thống phát hiện và phân loại xâm nhập.
Lựa chọn tính năng dựa trên bộ lọc
Với sự gia tăng trong việc sử dụng các kỹ thuật Deep Learning (DL) và khả năng tìm hiểu dữ liệu rộng rãi của chúng, chúng tôi
Mạng lưới thần kinh sâu
mong muốn thiết kế IDS dựa trên Mạng thần kinh sâu (DNN). Trong nghiên cứu này, chúng tôi tập trung vào việc nâng cao hiệu suất
Độ lệch chuẩn
của IDS dựa trên DNN bằng cách đề xuất một kỹ thuật lựa chọn tính năng mới để chọn các tính năng thông qua việc kết hợp tầm quan
Sự kết hợp của tầm quan trọng thống kê
trọng thống kê bằng cách sử dụng Độ lệch chuẩn và Sự khác biệt của Giá trị trung bình và Trung vị. Ở đây, theo cách tiếp cận

được đề xuất, các đặc điểm được cắt bớt dựa trên thứ hạng của chúng bắt nguồn bằng cách sử dụng sự kết hợp có tầm quan trọng thống kê.

Hơn nữa, sự kết hợp tầm quan trọng về mặt thống kê nhằm mục đích rút ra các đặc điểm liên quan có độ rõ ràng và độ lệch
cao, hỗ trợ việc học dữ liệu tốt hơn. Hiệu suất của phương pháp đề xuất được đánh giá bằng cách sử dụng ba bộ dữ liệu
phát hiện xâm nhập là NSL-KDD, UNSW_NB-15 và CIC-IDS-2017. Phân tích hiệu suất được trình bày theo các số liệu đánh giá
khác nhau như độ chính xác, độ chính xác, thu hồi, -score và Tỷ lệ dương tính giả (FPR) và kết quả được so sánh với các
kỹ thuật lựa chọn tính năng hiện có. Ngoài các số liệu đánh giá, so sánh hiệu suất còn được trình bày dưới dạng thời gian
thực hiện. Hơn nữa, kết quả đạt được cũng được kiểm tra thống kê bằng cách sử dụng bài kiểm tra Xếp hạng có chữ ký của

Wilcoxon.

1. Giới thiệu bộ dữ liệu phát hiện Chúng tôi đã áp dụng sự kết hợp tầm quan trọng thống kê bằng

cách sử dụng các biện pháp thống kê để rút ra mối liên hệ và xác định tầm quan

Cơ sở lý luận cơ bản của việc phát triển Hệ thống phát hiện xâm nhập (IDS) là trọng của các tính năng đối với việc lựa chọn tính năng [7]. Để phân loại xâm nhập,

phát hiện và phân loại các mẫu mạng với độ chính xác phân loại chính xác và cảnh DNN yêu cầu một lượng lớn dữ liệu để học và tạo ra các mẫu. Trong lĩnh vực IDS,
báo sai tối thiểu [1,2]. Do đó, các nguyên tắc thiết kế mang tính triết học và phân nhiều bộ dữ liệu phát hiện xâm nhập khác nhau đã được phát triển để phân tích và
tích khác nhau cần được xem xét khi phát triển hệ thống phân loại và phát hiện xâm học hỏi [8]. Các bộ dữ liệu này đã được phát triển bằng cách nắm bắt lưu lượng
nhập. Trong nhiều thập kỷ qua, đã có nhiều nỗ lực khác nhau trong việc thiết kế IDS mạng thô chạy qua môi trường mạng cơ bản. Các công cụ mạng khác nhau như Wireshark
hiệu quả bằng kỹ thuật Deep Learning (DL) [3]. Hơn nữa, các kỹ thuật DL như Mạng
và Nmap được sử dụng để nắm bắt lưu lượng mạng thô [9]. Hơn nữa, dữ liệu đã thu
thần kinh sâu (DNN) đã nổi lên như một trong những giải pháp hàng đầu để xây dựng
thập được lưu trữ dưới dạng tệp pcap hoặc tcpdump, được xử lý để trích xuất các
IDS hiệu quả [4]. Điều này là do, DNN có một thuộc tính đặc trưng hấp dẫn là thực
tính năng mạng từ các gói mạng bao gồm thông tin tiêu đề và tải trọng [10]. Do đó,
hiện học tập từ đầu đến cuối và phân tích chuyên sâu để rút ra các mẫu dữ liệu nhằm
bộ dữ liệu phát hiện xâm nhập được sử dụng để đánh giá hiệu suất bao gồm không
dự đoán và phân loại [5]. Do đó, các kỹ thuật DL như DNN có thể được coi là một
gian tính năng mạng chiều cao để học hỏi. Tuy nhiên, khi xem xét các tính năng của
trong những kỹ thuật thông minh giúp thực hiện việc học ngầm trên dữ liệu nhiều
mạng, có khả năng các bộ dữ liệu phát hiện xâm nhập có thể bao gồm các tính năng
chiều một cách dễ dàng. Ngoài việc xử lý dữ liệu nhiều chiều, DNN còn cung cấp khả
dư thừa và không liên quan có thể ảnh hưởng hoặc không đóng góp vào quá trình dự
năng trừu tượng hóa dữ liệu cấp cao và khả năng khái quát hóa tốt cho vấn đề phân
đoán và phân loại [11].
loại tấn công cơ bản [6].

Trong nghiên cứu này, chúng tôi mong muốn thiết kế một hệ thống phát hiện và
Do đó, xem xét vai trò và tầm quan trọng của kỹ thuật tính năng trong quá
phân loại xâm nhập dựa trên DNN bằng cách áp dụng sự kết hợp có tầm quan trọng
trình phát hiện và phân loại xâm nhập, chúng tôi hướng tới
thống kê bằng cách xem xét các biện pháp thống kê cho kỹ thuật tính năng về xâm nhập.

Đồng tác giả.


Địa chỉ email: ankit.thakkar@nirmauni.ac.in (A. Thakkar), 18ftphde30@nirmauni.ac.in (R. Lohiya).

https://doi.org/10.1016/j.inffus.2022.09.026 Nhận
ngày 23 tháng 2 năm 2022; Nhận theo mẫu sửa đổi ngày 26 tháng 9 năm 2022; Được chấp nhận ngày 28 tháng 9 năm 2022 Có
sẵn trực tuyến ngày 3 tháng 10 năm
2022 1566-2535/© 2022 Elsevier BV Mọi quyền được bảo lưu.
Machine Translated by Google

A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Hình 1. Đóng góp khoa học và tầm quan trọng của kỹ thuật lựa chọn đặc trưng được đề xuất.

để thiết kế một quy trình kỹ thuật tính năng mới chọn lọc các tính năng dựa trên phương pháp được áp dụng để phát hiện và phân loại xâm nhập. Phần 5 trình bày và

việc diễn giải thống kê các tính năng cho bộ dữ liệu phát hiện xâm nhập cơ bản. thảo luận về phân tích kết quả của các kỹ thuật đã thực hiện.

Việc tạo ra một tập hợp con rút gọn của các tính năng diễn giải là một quá trình Phần 6 kết thúc công việc được trình bày trong bài viết này.

quan trọng và do đó, chúng tôi mong muốn thiết kế một kỹ thuật lựa chọn tính năng

dựa trên bộ lọc mới xem xét các biện pháp thống kê độ lệch chuẩn, giá trị trung 2. Công việc liên quan

bình và trung bình để tạo ra tập hợp con tính năng rút gọn cho việc học và nâng cao

hiệu suất của DNN- IDS dựa trên


Trong những năm qua, nhiều phương pháp tiếp cận khác nhau đã được đề xuất để
Không giống như các kỹ thuật lựa chọn tính năng khác, phương pháp lựa chọn tính
phát hiện và phân loại xâm nhập. Trong [14], kỹ thuật lựa chọn tính năng dựa trên
năng dựa trên bộ lọc nhằm mục đích tạo ra tập hợp con tính năng mà không có bất kỳ
trình bao bọc được đề xuất bằng cách sử dụng Thuật toán di truyền (GA) và Hồi quy
ảnh hưởng nào của kỹ thuật phân loại được áp dụng cho việc học và dự đoán [12].
logistic (LR). Ở đây, trong phương pháp đề xuất, GA cùng với LR được áp dụng để

lựa chọn tính năng và phân loại Cây quyết định (DT) được áp dụng để phân loại.
1.1. Đóng góp khoa học và tầm quan trọng của kỹ thuật lựa chọn đặc trưng đề xuất
Hiệu suất của phương pháp đề xuất được đánh giá bằng công cụ Weka với hai bộ dữ

liệu phát hiện xâm nhập là bộ dữ liệu KDD CUP 99 và UNSW_NB-15. Phân tích kết quả

cho thấy kỹ thuật lựa chọn đặc điểm được đề xuất đã đạt được Tỷ lệ phát hiện (DR)
Với mục tiêu thiết kế mô hình dự đoán hiệu quả cho vấn đề phân loại cơ bản, kỹ
99,90% và Tỷ lệ cảnh báo sai (FAR) 0,1% đối với tập dữ liệu KDD CUP 99 với 18 đặc
thuật lựa chọn tính năng có thể được coi là một phương pháp heuristic có thể
điểm và 81,24% DR và 6,39% FAR đối với tập dữ liệu UNSW_NB-15 với 20 tính năng.
không đảm bảo hiệu suất tối ưu, hoàn hảo hoặc hợp lý nhưng là phương tiện thích

hợp để đạt được ngay lập tức và hiệu quả. hiệu quả cho vấn đề phân loại cơ bản

[13]. Do đó, tính khoa học và nghệ thuật của kỹ thuật lựa chọn đặc trưng được đề
Kỹ thuật lựa chọn tính năng Thông tin lẫn nhau linh hoạt (FMI) được đề xuất
xuất dựa trên các phương pháp phỏng đoán, cụ thể là độ lệch chuẩn và sai phân (|
trong [15] để rút ra tập hợp con tính năng rút gọn để phát hiện và phân loại xâm
|) của các đặc trưng trong tập dữ liệu đã cho.
nhập. Ở đây, theo cách tiếp cận được đề xuất, Máy vectơ hỗ trợ bình phương nhỏ

nhất (LS-SVM) được áp dụng để phân loại và các tính năng được chọn bằng FMI xem
Đóng góp khoa học và tầm quan trọng của kỹ thuật lựa chọn tính năng được đề xuất
xét mối tương quan giữa các tính năng của tập dữ liệu. Hơn nữa, FMI là một kỹ
được thể hiện trong Hình 1.
thuật lựa chọn tính năng phi tuyến tính sử dụng mối tương quan làm thước đo để
Những đóng góp chính của công việc đề xuất của chúng tôi được tóm tắt như sau.
lựa chọn tính năng. Để đánh giá hiệu suất của phương pháp đề xuất, ba bộ dữ liệu

phát hiện xâm nhập được sử dụng, cụ thể là bộ dữ liệu Kyoto 2006, KDD CUP 99 và NSL-
• Chúng tôi đã đề xuất một kỹ thuật lựa chọn tính năng mới dựa trên sự kết hợp KDD. Phân tích hiệu suất của phương pháp đề xuất được trình bày dưới dạng DR và
tầm quan trọng về mặt thống kê của các tính năng để phát hiện và phân loại FAR.
xâm nhập.

• DNN được ứng dụng cho quá trình học và phân loại bằng cách sử dụng lại Kỹ thuật Lựa chọn tính năng dựa trên tương quan (CFS) được áp dụng trong [16]
tập hợp con đặc trưng suy ra.
để phát hiện và phân loại xâm nhập. Ở đây, theo cách tiếp cận được đề xuất, bộ
• Để tổng hợp tầm quan trọng về mặt thống kê của các đặc điểm, các thước đo phân loại DT được áp dụng để phân loại sử dụng tập hợp con tính năng rút gọn được
thống kê, cụ thể là độ lệch chuẩn, giá trị trung bình và trung vị sẽ được rút ra bằng CFS. Hiệu quả của phương pháp đề xuất được đánh giá bằng bộ dữ liệu
xem xét.
NSL-KDD gồm 41 đặc trưng.
• Phương pháp đề xuất được đánh giá bằng cách sử dụng ba bộ dữ liệu phát Cách tiếp cận được đề xuất rút ra tập hợp con tính năng rút gọn với 14 tính năng
hiện xâm nhập là NSL-KDD, UNSW_NB-15 và CIC-IDS- được tiếp tục sử dụng để phát hiện và phân loại xâm nhập.
2017.
Phân tích hiệu năng của phương pháp đề xuất được trình bày dưới góc độ độ chính
• Phân tích hiệu quả của phương pháp đề xuất được trình bày dưới dạng các số
xác và từ kết quả có thể suy ra rằng phương pháp đề xuất đạt độ chính xác 90,30%
liệu đánh giá khác nhau như độ chính xác, độ đúng, thu hồi, -score và Tỷ lệ
đối với tập dữ liệu NSL-KDD với 14 đặc trưng.
dương tính giả (FPR).

• Hiệu suất của phương pháp đề xuất được so sánh với các kỹ thuật lựa chọn
Phân tích so sánh của các bộ phân loại khác nhau được thực hiện trong [17]
đặc trưng khác nhau như Chi-Square, Lựa chọn đặc trưng dựa trên tương
bằng công cụ Weka. Ở đây, để phân tích so sánh, các kỹ thuật lựa chọn tính năng
quan (CFS), Loại bỏ đặc tính đệ quy, Thuật toán di truyền (GA), Thông tin
khác nhau được áp dụng, cụ thể là kỹ thuật đánh giá thuộc tính, tham lam từng
lẫn nhau (MI), Relief-f, và Rừng ngẫu nhiên (RF). • Phân tích so sánh với các
bước, IG và kỹ thuật xếp hạng. Hơn nữa, hai tập hợp con tính năng được tạo ra để
kỹ thuật lựa chọn tính
phát hiện và phân loại xâm nhập bằng cách thực hiện số lượng mô phỏng xác định. Từ
năng hiện có được trình bày bằng cách sử dụng các số liệu đánh giá khác nhau
phân tích hiệu suất, người ta suy ra rằng bộ phân loại Rừng ngẫu nhiên (RF) hoạt
đã được xem xét cũng như thời gian thực hiện.
động tốt hơn về mặt hiệu suất tổng thể cho cả hai tập hợp con tính năng dẫn xuất.

Hơn nữa, phân tích kết quả được trình bày dưới dạng thống kê Kappa và độ chính

Phần còn lại của bài viết được tổ chức như sau. Phần 2 trình bày tổng quan về xác để chứng minh hiệu suất của từng tập hợp con tính năng.

các kỹ thuật lựa chọn đặc điểm để phát hiện và phân loại xâm nhập. Phần 3 mô tả kỹ

thuật lựa chọn tính năng được đề xuất cho IDS dựa trên DNN. Phần 4 thảo luận về Kỹ thuật lựa chọn tính năng dựa trên bộ lọc sử dụng IG được đề xuất trong [18]

thực nghiệm để phát hiện và phân loại xâm nhập. Ở đây, trong đề xuất

354
Machine Translated by Google

A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Cách tiếp cận này, việc phân loại được thực hiện bằng cách tích hợp phương pháp 2.1. Phân tích so sánh các phương pháp hiện có cho IDS

tiếp cận dựa trên quy tắc với nhiều bộ phân loại cây. Hiệu suất của phương pháp

đề xuất được đánh giá bằng bộ dữ liệu UNSW_NB-15 với 22 đặc trưng được rút ra
Việc thiết kế và phát triển công việc nghiên cứu đã được thảo luận để phát
bằng kỹ thuật IG. Hơn nữa, phân tích kết quả được trình bày dưới dạng độ chính
hiện và phân loại xâm nhập bằng kỹ thuật tính năng là rất đáng khích lệ. Tuy
xác, -score và FAR.
nhiên, các IDS khác nhau đã được thiết kế bằng cách sử dụng các thuật toán học tập
Lựa chọn tính năng sử dụng RF được áp dụng trong [19], trong đó việc xếp hạng và kỹ thuật lựa chọn tính năng khác nhau để thích ứng với chiến lược học tập duy
tính năng được thực hiện bằng cách sử dụng mức độ quan trọng của tính năng. Ở đây,
nhất để lựa chọn tính năng cũng như phân loại tấn công [26–28]. Tuy nhiên, vẫn
trong nghiên cứu đề xuất, tầm quan trọng của từng đặc điểm được tính toán và các
còn tồn tại những lỗ hổng nghiên cứu với các cơ chế học tập khác nhau để phát hiện
đặc điểm được xếp hạng dựa trên giá trị tầm quan trọng của đặc điểm của chúng. và phân loại xâm nhập, chẳng hạn như,
Điều này ngụ ý rằng tính năng có thứ hạng cao nhất có thể được coi là tính năng

quan trọng nhất để phát hiện và phân loại xâm nhập. Để dự đoán và phân loại, nhiều • Phần lớn công việc nghiên cứu đã thiết kế IDS dựa trên các kỹ thuật lựa chọn

kỹ thuật phân loại khác nhau đã được triển khai, cụ thể là -Láng giềng gần nhất tính năng hiện có bằng cách sử dụng các công cụ trực quan như WeKa [14,17].

(NN), DT, Công cụ ước tính tổng hợp đóng bao (BME), XG-Boost và RF. Hiệu suất

của phương pháp đề xuất được đánh giá bằng cách sử dụng bộ dữ liệu UNSW_NB-15 • Các kỹ thuật hiện có được thiết kế để phát hiện xâm nhập và phân loại bằng

với tập hợp con tính năng giảm bao gồm 11 tính năng. Hơn nữa, phân tích kết quả kỹ thuật lựa chọn tính năng đã được phân tích và so sánh bằng cách sử dụng

được trình bày dưới dạng độ chính xác và -score. các bộ dữ liệu lỗi thời thiếu kịch bản thử nghiệm.

IDS hai tầng tổng hợp được thiết kế trong [20], trong đó, các kỹ thuật lựa
Do đó, có phạm vi để phát triển một kỹ thuật nâng cao để phát hiện và phân loại
chọn tính năng kết hợp được triển khai cùng với phân loại dựa trên biểu quyết đa
xâm nhập. Do đó, chúng tôi mong muốn thiết kế một phương pháp lựa chọn tính năng
số. Ở đây, theo cách tiếp cận được đề xuất, các tính năng được chọn bằng cách sử
mới cho IDS dựa trên DNN sử dụng sự kết hợp tầm quan trọng thống kê bắt nguồn từ
dụng kỹ thuật lai được thiết kế bằng cách sử dụng PSO, GA và Tối ưu hóa đàn kiến
độ lệch chuẩn và chênh lệch tuyệt đối của giá trị trung bình và trung vị để chọn
(ACO). Hơn nữa, để phân loại, phân loại rừng luân phiên và đóng bao được áp dụng
các tính năng có liên quan và đóng góp cho quá trình dự đoán và phân loại. Việc áp
và dự đoán được tạo bằng kỹ thuật bỏ phiếu đa số. Hiệu suất của phương pháp đề
dụng tầm quan trọng thống kê để chọn các tính năng có hiệu quả vì nó tạo ra các
xuất được đánh giá bằng cách sử dụng bộ dữ liệu KDD CUP 99 với tập hợp con tính
tính năng dựa trên lý luận thống kê, giúp nâng cao hiệu suất của IDS dựa trên DNN
năng rút gọn bao gồm 19 tính năng. Hơn nữa, hiệu suất của phương pháp đề xuất
được thiết kế với khả năng phân biệt và sai lệch về tính năng. Vì vậy, những điểm
được xác thực bằng kỹ thuật xác thực chéo 10 lần và phân tích kết quả được trình
mới trong công việc đề xuất của chúng tôi có thể được tóm tắt như sau.
bày dưới dạng độ chính xác, độ chính xác, khả năng thu hồi và FAR.

Mô hình phân loại xâm nhập hai giai đoạn được thiết kế bằng cách sử dụng bộ • Một kỹ thuật lựa chọn tính năng mới dựa trên sự kết hợp tầm quan trọng thống
phân loại RF trong [21]. Ở đây, trong phương pháp đề xuất, IG được áp dụng làm kê của các tính năng được đề xuất để phát hiện và phân loại xâm nhập.
kỹ thuật lựa chọn đặc trưng. Trong giai đoạn đầu tiên, việc phát hiện lớp thiểu số

được thực hiện và trong giai đoạn thứ hai, lớp đa số được phát hiện. • Phân tích dựa trên thử nghiệm về các kỹ thuật lựa chọn tính năng mới được
Dự đoán từ mỗi giai đoạn được kết hợp để tạo ra kết quả phân loại. Hiệu suất của
thực hiện bằng cách sử dụng các bộ dữ liệu và bộ dữ liệu gần đây được sử
phương pháp đề xuất được đánh giá bằng bộ dữ liệu UNSW_NB-15 và kết quả được
dụng trong tài liệu, cụ thể là NSL-KDD, UNSW_NB-15 và CIC-IDS-2017.
trình bày dưới dạng độ chính xác và FAR.
• Chúng tôi đã trình bày phân tích so sánh kỹ thuật lựa chọn đặc trưng được

đề xuất với các kỹ thuật lựa chọn đặc trưng hiện có.
IDS hai giai đoạn dựa trên RepTree được đề xuất trong [22], trong đó IG được

sử dụng làm kỹ thuật lựa chọn tính năng. Ở đây, trong giai đoạn đầu, tập dữ liệu
3. Đề xuất kỹ thuật lựa chọn đặc điểm để phát hiện và phân loại xâm nhập
cơ bản được chia thành ba loại dựa trên loại giao thức và hơn nữa, trong giai

đoạn thứ hai, việc phân loại được thực hiện. Hiệu suất của phương pháp đề xuất

được đánh giá bằng cách sử dụng bộ dữ liệu UNSW_NB-15 với bộ tính năng rút gọn

bao gồm 20 tính năng và kết quả được trình bày dưới dạng độ chính xác. Một kỹ Để phát hiện và phân loại xâm nhập, các kỹ thuật lựa chọn tính năng khác nhau

thuật gia tăng bao gồm thuật toán Extreme Learning Machine (IELM) và Advanced Prin- được áp dụng được phân loại thành ba loại, đó là kỹ thuật lựa chọn tính năng dựa

cipal Component (APCA) được đề xuất trong [23] để phát hiện và phân loại xâm trên bộ lọc, kỹ thuật lựa chọn tính năng dựa trên trình bao bọc và kỹ thuật lựa

nhập. Ở đây, trong phương pháp đề xuất, ELM được áp dụng để phân loại và APCA chọn tính năng nhúng [29] .

được áp dụng để lựa chọn tính năng thích ứng. Hiệu suất của phương pháp đề xuất Trong kỹ thuật lựa chọn tính năng dựa trên bộ lọc, tập hợp con tính năng rút gọn

được đánh giá bằng bộ dữ liệu UNSW_NB-15 và kết quả được trình bày dưới dạng độ được lấy dựa trên các tiêu chí liên quan nhất định xác định tầm quan trọng của các

chính xác, DR và FAR. tính năng liên quan đến việc học và phân loại [30]. Do đó, trong kỹ thuật lựa chọn

đối tượng dựa trên bộ lọc, điểm liên quan được rút ra và các đối tượng được lọc

dựa trên điểm được tính toán [30]. Trong kỹ thuật lựa chọn tính năng dựa trên

Hệ thống phát hiện và phân loại xâm nhập được thiết kế trong [25] sử dụng bộ trình bao bọc, thuật toán phân loại được xem xét và dựa trên kiến thức được xây

phân loại NB và MLP. Ở đây, theo cách tiếp cận được đề xuất, kỹ thuật lựa chọn đối dựng để rút ra tập hợp con tính năng cho việc học và phân loại [31]. Cơ sở tri

tượng kết hợp được áp dụng bao gồm ba kỹ thuật lựa chọn đối tượng là IG, GR và thức về các đặc trưng cho thấy tầm quan trọng của các đặc trưng ở dạng tinh tế

ReliefF. Hiệu suất của phương pháp đề xuất được đánh giá bằng bộ dữ liệu KDD CUP dựa trên thuật toán phân loại cơ bản. Việc lựa chọn tính năng sử dụng các kỹ

99 và phân tích kết quả được trình bày dưới dạng độ chính xác và FAR. Một khung thuật dựa trên trình bao bọc được thực hiện bằng các quy tắc và điều kiện được

tổng thể cùng với việc lựa chọn tính năng được thiết kế trong [24] để phát hiện và xác định trước. Tuy nhiên, hiệu suất của kỹ thuật lựa chọn tính năng dựa trên

phân loại xâm nhập. Ở đây, trong phương pháp đề xuất, GR được áp dụng để lựa chọn trình bao bọc phụ thuộc vào loại thuật toán phân loại được sử dụng [31]. Kỹ thuật

các đặc trưng quan trọng cho việc học và phân loại Bagging được áp dụng để phân lựa chọn tính năng nhúng được thực hiện bằng cách kết hợp hai giai đoạn là giai

loại. Đánh giá hiệu suất của phương pháp đề xuất được thực hiện bằng cách sử đoạn học và giai đoạn lựa chọn tính năng [32]. Điều này ngụ ý rằng kỹ thuật nhúng

dụng bộ dữ liệu NSL-KDD và kết quả được trình bày dưới dạng độ chính xác phân loại sử dụng việc chọn các tính năng riêng biệt theo hai giai đoạn, trong đó kết quả

và FAR. Tóm tắt so sánh các phương pháp ML hiện có cho IDS được trình bày trong của giai đoạn học được sử dụng để thêm hoặc xóa các tính năng trong giai đoạn lựa

Bảng 1 . chọn tính năng [32].

355
Machine Translated by Google

A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Bảng 1

Tóm tắt so sánh các phương pháp Học máy (ML) hiện có cho IDS.

Tham khảo
Kỹ thuật Lựa chọn tính năng Tập dữ liệu Kết quả

[16] DT CFS NSL-KDD Độ chính xác cho NSL-KDD: 90,30%

[15] LS-SVM FMI Kyoto 2006, KDD DR cho KDD CUP 99: 99,46%

CUP 99, và DR cho NSL-KDD: 98,76%


NSL-KDD DR cho Kyoto 2006: 99,64%

[17] RF Trình đánh giá thuộc tính, KDD CÚP 99, Phân tích so sánh được trình bày trong
tham lam từng bước, IG, UNSW_NB-15 định dạng đồ họa để lựa chọn tính năng
và người xếp hạng kỹ thuật được xem xét.

[22] cây đại diện IG NSL-KDD, Độ chính xác cho NSL-KDD: 89,85%
UNSW_NB-15 Độ chính xác cho UNSW_NB-15: 88,95%

[14] DT GA KDD CÚP 99, DR cho KDD CUP 99: 99,90%

UNSW_NB-15 DR cho UNSW_NB-15: 81,24%

[19] kNN, DT, BME, Tầm quan trọng của tính năng UNSW_NB-15 Độ chính xác cho kNN: 71,01%
XGBoost và RF Độ chính xác cho DT: 74,22%
Độ chính xác cho BME: 74,64%
Độ chính xác cho XGBoost: 71,43%
Độ chính xác cho RF: 74,87%

[21] RF IG UNSW_NB-15 Độ chính xác cho UNSW_NB-15: 85,78%

[24] Máy phân loại đóng bao GR NSL-KDD Độ chính xác cho NSL-KDD: 84,25%

[23] IELM APCA NSL-KDD, Độ chính xác cho NSL-KDD: 81,22%


UNSW_NB-15 Độ chính xác cho UNSW_NB-15: 70,51%

[20] Rừng luân canh và PSO, ACO và GA KDD CÚP 99 Độ chính xác cho KDD CUP 99: 72,52%
Máy phân loại đóng bao

[25] NB, MLP Tính năng kết hợp KDD CÚP 99 Độ chính xác cho NB: 93,00%
kỹ thuật lựa chọn Độ chính xác cho MLP: 97,00%

[18] Nhiều dựa trên quy tắc IG UNSW_NB-15 Độ chính xác cho UNSW_NB-15: 84,83%
phân loại cây

3.1. Mối liên hệ giữa phân loại xâm nhập và lựa chọn tính năng hiệu quả. Việc lựa chọn các tính năng liên quan đóng một vai trò quan trọng trong

lấy được thông tin thích hợp từ một số lượng lớn các mẫu dữ liệu.

Bộ dữ liệu phát hiện xâm nhập được phát triển bằng cách đánh hơi các gói mạng Lựa chọn tính năng là một trong những phương pháp quan trọng hướng tới việc lựa chọn

truyền qua môi trường mạng bằng nhiều mạng khác nhau các tính năng từ tập dữ liệu cơ bản có thể đóng góp tốt hơn trong

các công cụ như Wireshark và Nmap [26]. Các gói mạng đã bắt được nâng cao khả năng dự đoán cho bài toán phân loại đã cho.

được tích lũy dưới dạng các tệp mạng thô như tệp pcap hoặc Do đó, lựa chọn tính năng có thể được mô tả như là chiến lược lựa chọn được áp dụng

tập tin tcpdump. Những tập tin này bao gồm nhiều chi tiết khác nhau liên quan đến mạng để loại bỏ các tính năng không liên quan và dư thừa để thể hiện tốt hơn

thông tin liên lạc được trích xuất từ tiêu đề gói mạng và Dữ liệu.

tải trọng gói mạng. Các chi tiết liên quan đến truyền thông mạng Trong nghiên cứu của chúng tôi, một kỹ thuật lựa chọn tính năng dựa trên bộ lọc

từ lưu lượng truy cập mạng được ghi lại đóng vai trò là tính năng mạng cho các thiết kế mới được hủy ký hiệu để lấy các tính năng có liên quan từ bộ dữ liệu phát hiện xâm nhập

ID. Hệ thống phát hiện và phân loại xâm nhập kiểm tra mạng có thể đóng góp nhiều hơn cho quá trình học tập và phân loại.

hoạt động và phân tích dữ liệu để kiểm tra xem dữ liệu được phân tích có Do đó, với mục đích nâng cao hiệu suất của IDS dựa trên DNN,

luồng là lưu lượng mạng bất thường hoặc lưu lượng mạng bình thường [32]. ID một kỹ thuật lựa chọn tính năng mới và sáng suốt có tên là Tính năng

phân tích dữ liệu để kiểm tra xem tính bảo mật, tính toàn vẹn của hệ thống, Lựa chọn thông qua độ lệch chuẩn và sự khác biệt của giá trị trung bình và trung vị

hoặc tính sẵn sàng có bị tổn hại hay không. Trong khi thiết kế IDS, nhiều được đề xuất trong nghiên cứu của chúng tôi. Kỹ thuật lựa chọn đặc trưng được đề xuất

các khía cạnh được xem xét như mạng lưới giám sát, thu thập dữ liệu, rút ra tập hợp tính năng rút gọn với độ rõ ràng và độ lệch cao.

phân tích thống kê dữ liệu được thu thập, phát hiện xâm nhập, đe dọa quản trị viên Việc áp dụng độ lệch chuẩn, giá trị trung bình, số trung vị có hiệu quả

bảo mật về một sự kiện xâm nhập và phản hồi trong việc tìm ra các tính năng vì các biện pháp này thực hiện lý luận định lượng và

xâm nhập [8]. thống kê để rút ra các tính năng có liên quan để phát hiện xâm nhập và

Trong tài liệu, nhiều nhà nghiên cứu khác nhau đã thiết kế phương pháp lai phân loại [33]. Sự kết hợp tầm quan trọng thống kê bằng cách sử dụng thống kê

cách tiếp cận bằng cách kết hợp các kỹ thuật lựa chọn tính năng với kỹ thuật phân các biện pháp nhằm mục đích cải thiện hiệu suất dự đoán và phân loại thông qua so sánh

loại [26]. Đáng chú ý, kỹ thuật lựa chọn tính năng là định lượng và mô tả [33]. Các

được kết hợp để nâng cao hiệu suất của IDS được thiết kế. Tuy nhiên, sự kết hợp giữa chiến lược khái niệm hóa các kỹ thuật lựa chọn tính năng được đề xuất

lựa chọn tính năng và phát hiện xâm nhập được trình bày trong hình 2.

nên tập trung vào việc đạt được độ chính xác phân loại cao hơn với số lượng kết quả

dương tính giả giảm đi. Vì vậy, IDS được thiết kế yêu cầu 3.3. Độ lệch chuẩn

một kỹ thuật lựa chọn tính năng hiệu quả có khả năng trích xuất
Độ lệch chuẩn của các đặc điểm có thể được mô tả như một thước đo thống kê
các tính năng quan trọng từ tập dữ liệu cơ bản. Do đó, đề xuất
chắc chắn rằng nó đo lường mức độ biến đổi hoặc sai lệch trong các đặc điểm so với
Kỹ thuật lựa chọn tính năng nhằm mục đích chọn các tính năng bằng cách xem xét
đặc tính thống kê của các đặc trưng. nghĩa [34]. Độ lệch chuẩn có thể được tính bằng phương trình. (1) [34].

3.2. Khái niệm hóa kỹ thuật lựa chọn tính năng được đề xuất
2
(1)
= √ ( )
Ngày nay, một lượng lớn lưu lượng mạng được tạo ra từ

tài nguyên mạng khác nhau. Các tính năng từ lưu lượng mạng chảy là Ở đây, trong phương trình. (1), biểu thị độ lệch chuẩn, là tổng số

được nghiên cứu để tìm ra các mẫu lưu lượng truy cập mạng bình thường và bất thường. của các mẫu, biểu thị từng giá trị từ tính năng cơ bản và biểu thị giá trị trung

Tuy nhiên, dữ liệu lưu lượng mạng cần được kiểm tra một cách chính xác và bình của tính năng cơ bản.

356
Machine Translated by Google

A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Hình 2. Chiến lược khái niệm hóa kỹ thuật lựa chọn tính năng được đề xuất.

Việc giải thích độ lệch chuẩn cho thấy giá trị độ lệch chuẩn cao cho thấy đặc • Tính độ lệch chuẩn ( ) của các đặc trưng của tập dữ liệu. • Xếp hạng các

điểm đó bị phân tán trên phạm vi giá trị lớn và giá trị độ lệch chuẩn thấp cho thấy đặc điểm dựa trên giá trị độ lệch chuẩn từ cao đến thấp. Gán thứ hạng dẫn xuất
các giá trị đặc điểm nằm gần nhau so với giá trị trung bình [33] . Do đó, lựa chọn bằng độ lệch chuẩn ( ) là • Tính chênh lệch tuyệt đối ( ) của giá trị 1 .

tính năng sử dụng độ lệch chuẩn sẽ chọn các tính năng có giá trị độ lệch chuẩn cao vì trung bình và trung vị của các đặc tính của tập dữ liệu.
khi giá trị tính năng được mở rộng trên phạm vi lớn, có thể đạt được kết quả dự đoán

hiệu quả. Hơn nữa, độ lệch chuẩn thể hiện khả năng phân biệt của các đặc điểm và do • Xếp hạng các đặc điểm dựa trên giá trị chênh lệch từ cao đến thấp.

đó, độ lệch chuẩn của một đặc điểm thể hiện sự khác biệt của nó trên tất cả các mẫu. Gán thứ hạng xuất phát bằng cách sử dụng hiệu ( ) 2 .

Điều này ngụ ý rằng giá trị độ lệch chuẩn cao cho thấy nhiều điểm khác biệt hơn của làm • Tính thứ hạng tính năng kết hợp dưới dạng Xếp hạng tính năng kết hợp =
tính năng này trên tất cả các mẫu [33]. 1 + 2 .

• Thêm đệ quy các tính năng vào tập hợp con tính năng dựa trên thứ hạng tính năng

kết hợp cho đến khi độ chính xác không tốt hơn tập con tính năng dẫn xuất
trước đó.
3.4. Trung bình và trung vị
Thuật toán lựa chọn tính năng đệ quy sử dụng kỹ thuật đề xuất được trình bày trong

Thuật toán 1. Tập hợp con tính năng dẫn xuất được đưa vào mô hình DNN để huấn luyện
Giá trị trung bình và Trung vị có thể được định nghĩa là các biện pháp thống kê
và phân loại.
mô tả được sử dụng để mô tả đặc điểm phân phối dữ liệu [35]. Hơn nữa, các thước đo

thống kê này thể hiện mức độ sai lệch tương đối trong phân bổ dữ liệu [35]. Để lựa

chọn tính năng, chúng tôi đã sử dụng giá trị tuyệt đối của chênh lệch giữa giá trị
trung bình và trung vị để rút ra các tính năng có liên quan từ tập dữ liệu, được biểu 4. Phương pháp thực nghiệm

thị bằng biểu thức. (2).


Công việc đề xuất triển khai DNN để phát hiện và phân loại xâm nhập. Kiến trúc

= | | (2) DNN là cấu trúc mạng thần kinh nhiều lớp, thực hiện các phép biến đổi toán học trên

dữ liệu đầu vào để rút ra và học các mẫu để dự đoán và phân loại [36]. Phương pháp
Ở đây, trong phương trình. (2), biểu thị giá trị tuyệt đối của chênh lệch giữa giá
thử nghiệm của phương pháp đề xuất bao gồm nhiều giai đoạn khác nhau như quyết định
trị trung bình và trung vị của một tính năng nhất định. Việc giải thích sự khác biệt
các bộ dữ liệu phát hiện xâm nhập cần thiết để đánh giá hiệu suất, xử lý trước dữ
của giá trị trung bình và trung vị cho thấy giá trị chênh lệch cao biểu thị độ lệch
liệu để chuyển đổi dữ liệu để dễ thử nghiệm, lựa chọn tính năng thành tập hợp con
trên một phạm vi giá trị lớn và do đó, các đặc điểm có giá trị chênh lệch cao có thể
tính năng rút gọn dẫn xuất để học, huấn luyện DNN với tính năng rút gọn. tập hợp con
được chọn làm các đặc điểm liên quan từ tập dữ liệu để dự đoán và phân loại hiệu quả
tính năng và đánh giá hiệu suất. Sơ đồ của phương pháp đề xuất được thể hiện trong
quá trình [34] .
Hình 3.

3.5. Quy trình lựa chọn tính năng để phát hiện và phân loại xâm nhập

Kết quả của quá trình lựa chọn tính năng là một tập hợp các tính năng liên quan 4.1. Mô tả tập dữ liệu
có liên quan chặt chẽ với nhãn đầu ra của lớp và đóng góp nhiều hơn cho các mô hình

học tập từ dữ liệu. Để định lượng sự đóng góp của một tính năng nhất định trong quá Hiệu suất của phương pháp đề xuất được đánh giá bằng cách sử dụng ba bộ dữ liệu
trình phân loại, chúng tôi giới thiệu thứ hạng tính năng kết hợp thể hiện tầm quan phát hiện xâm nhập là NSL-KDD, UNSW_NB-15 và CIC-IDS-2017. Các bộ dữ liệu này bao gồm
trọng của tính năng đó. Thứ hạng đối tượng kết hợp được tính toán dựa trên thứ hạng nhiều tính năng mạng khác nhau và đã được phát triển trong các môi trường mạng khác
có được bằng cách sử dụng tổng hợp độ lệch chuẩn và chênh lệch của giá trị trung bình nhau [8]. Hơn nữa, các bộ dữ liệu này bao gồm lưu lượng mạng thực tế cũng như
và trung vị. Từ việc mô tả độ lệch chuẩn và sự khác biệt của giá trị trung bình và tổng hợp. Do đó, hiệu suất của phương pháp đề xuất có thể được ủng hộ một cách không
trung vị cho thấy rằng thể chối cãi bằng cách sử dụng lưu lượng mạng đa dạng từ ba bộ dữ liệu khác nhau.

các tính năng có giá trị cao nhất có khả năng nhận biết mạnh mẽ và độ dư thừa tối Một mô tả ngắn gọn về mỗi tập dữ liệu như sau.

thiểu. Do đó, quá trình lựa chọn tính năng được mô tả như sau.

357
Machine Translated by Google

A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Hình 3. Sơ đồ phương pháp đề xuất.

Thuật toán 1 Lựa chọn tính năng đệ quy bằng cách sử dụng kết hợp tiêu chuẩn một tập dữ liệu huấn luyện và kiểm tra riêng biệt với 175.341 và 82.332 mẫu dữ liệu
Độ lệch và sự khác biệt tuyệt đối của giá trị trung bình và trung vị tương ứng có trong tập dữ liệu UNSW_NB-15 [39]. • Bộ dữ liệu CIC-IDS-2017: Đây
1: Xem xét Tập dữ liệu để phát hiện và phân loại xâm nhập trong đó
là một trong những bộ dữ liệu phát hiện xâm nhập lớn nhất và gần đây nhất được phát
= {NSL-KDD, UNSW_NB-15, CIC-IDS-2017}. triển bằng cách đánh hơi các gói mạng thời gian thực chạy qua mạng [40]. Bộ dữ
2: Về đặc điểm của tập dữ liệu , tính độ lệch chuẩn cho từng liệu phát hiện xâm nhập được thiết kế bao gồm nhiều dịch vụ mạng, giao thức và

tính năng sử dụng phương trình (1). danh mục tấn công hiện đại. Bộ dữ liệu bao gồm các mẫu dữ liệu được thu thập trong

3: Sắp xếp các đặc điểm từ cao xuống thấp dựa trên độ lệch chuẩn của chúng khoảng thời gian năm ngày. Hơn nữa, tập dữ liệu được thiết kế bao gồm nhiều tính

và xếp hạng chúng. Coi thứ hạng được chỉ định là 4: Đối 1 . năng mạng đặc biệt được trích xuất bằng công cụ CICFlowMeter [41].
với các tính năng của tập dữ liệu , tính giá trị tuyệt đối của chênh lệch

giữa giá trị trung bình và trung vị của từng đặc điểm sử dụng phương trình (2).

5: Sắp xếp các đặc điểm từ cao xuống thấp dựa trên giá trị tuyệt đối của sự khác biệt và

xếp hạng chúng. Hãy xem xét thứ hạng được chỉ định là và 2 .
Thống kê các bộ dữ liệu phát hiện xâm nhập được sử dụng để thử nghiệm được trình bày

6: Tính thứ hạng tính năng kết hợp bằng cách tính tổng 1 2 .
trong Bảng 2.

7: Với mỗi đặc trưng của tập dữ liệu,

8: Xóa tính năng xếp hạng cao nhất khỏi F và cập nhật thành = 4.2. Xử lý trước dữ liệu

9: Huấn luyện mô hình DNN trên tập huấn luyện với độ đặc điểm và tính toán Các kỹ thuật tiền xử lý dữ liệu được áp dụng để dễ dàng thử nghiệm nhằm chuyển đổi

chính xác của mô hình. dữ liệu để xử lý và học tập một cách trơn tru [36].

10: Lặp lại các bước [8-9], đối với các tính năng cho đến khi mức tăng độ chính xác được Trong nghiên cứu đề xuất, hai kỹ thuật tiền xử lý dữ liệu được áp dụng, đó là mã hóa đặc

ghi lại nhiều hơn độ chính xác được tính toán trước đó. trưng và chuẩn hóa đặc trưng. Mã hóa tính năng được thực hiện để chuyển đổi các tính

11: Lưu trữ các tính năng liên quan dẫn xuất trong tập hợp con cho Tập dữ liệu. năng phân loại thành các tính năng số [4]. Bộ dữ liệu phát hiện xâm nhập được sử dụng để

12: Sử dụng tập hợp con tính năng để đào tạo IDS dựa trên DNN cho tập dữ liệu thử nghiệm bao gồm các tính năng được phân loại như cờ, loại dịch vụ và loại giao thức.

. Các đặc điểm phân loại được chuyển đổi thành các đặc điểm số bằng cách áp dụng kỹ thuật

mã hóa one-hot. Mã hóa một lần là một trong những kỹ thuật mã hóa đặc trưng phổ biến được

áp dụng để số hóa các đặc trưng phân loại [4]. Hơn nữa, sau khi mã hóa tính năng, quá

trình chuẩn hóa tính năng được thực hiện vì bộ dữ liệu có thể bao gồm các tính năng có
• Bộ dữ liệu NSL-KDD: Đây là bộ dữ liệu phát hiện xâm nhập có kích thước và thang giá trị khác nhau. Do đó, để chuẩn hóa tính năng, kỹ thuật vô hướng

được phát triển bằng cách loại bỏ các mẫu bị thiếu và trùng lặp từ bộ dữ liệu KDD tiêu chuẩn được áp dụng để chuẩn hóa các tính năng bằng cách trừ giá trị trung bình và

CUP 99 [37]. Nó bao gồm các loại tính năng mạng khác nhau cũng như các mẫu cho chia tỷ lệ các giá trị tính năng thành đơn vị.

bốn loại tấn công và lưu lượng mạng thông thường [38]. Hơn nữa, một tập dữ liệu

huấn luyện và tập dữ liệu thử nghiệm riêng biệt với 125.973 và 22.544 mẫu dữ liệu
phương sai.
tương ứng có trong tập dữ liệu NSL-KDD [38]. • Bộ dữ liệu UNSW_NB-15: Đây là bộ

dữ liệu phát hiện xâm nhập đã được phát triển bằng công cụ
4.3. Lựa chọn tính năng
IXIA Perfect Storm để nắm bắt các gói mạng đang chạy trong nền tảng thử nghiệm mạng

được thiết kế [39].


Quá trình lựa chọn tính năng được thực hiện để tạo ra tập hợp con tính năng rút gọn

bao gồm các tính năng có liên quan và đóng góp từ tập dữ liệu phát hiện xâm nhập được xem
Tập dữ liệu được phát triển với lưu lượng mạng mô tả các lỗ hổng bảo mật và cách
xét. Các tính năng được chọn bằng cách sử dụng kỹ thuật lựa chọn tính năng được đề xuất
khai thác cùng với lưu lượng mạng thông thường. Các tính năng mạng của tập dữ được mô tả trong Phần 3. Kỹ thuật lựa chọn tính năng được đề xuất được áp dụng trên các

liệu được thiết kế được trích xuất bằng các công cụ phần mềm, cụ thể là Argus và bộ dữ liệu phát hiện xâm nhập, cụ thể là NSL-KDD, UNSW_NB-15 và CIC-IDS-2017. Ứng dụng đề

Bro-IDS [39]. Hơn thế nữa, xuất

358
Machine Translated by Google

A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

ban 2

Thống kê các tập dữ liệu thực nghiệm [8].

Tiêu chí ( )/Bộ dữ liệu ( ) NSL-KDD UNSW_NB-15 CIC-IDS-2017

Loại lưu lượng mạng Thực & Tổng hợp 41 Tổng hợp Thực tế

Số lượng tính năng 42 79

Số loại tấn công 4 9 7


Số lớp học 5 10 15

Số lượng mẫu dữ liệu 148 517 257 673 225 745

Số lượng mẫu trong tập huấn luyện 125 973 175 341 165 730

Số lượng mẫu trong bộ thử nghiệm 22 544 82 332 60 015

bàn số 3

Chi tiết cấu hình và kiến trúc mạng nơ-ron [4].

Tiêu chuẩn Giá trị

Người mẫu tuần tự


Số lớp ẩn [4] 3

Kích thước đầu vào NSL-KDD: 21, UNSW_NB: 21,


CIC-IDS-2017: 64

Số lượng tế bào thần kinh trong các lớp ẩn [4] 1024, 768, 512
Chức năng kích hoạt lớp ẩn [4] ReLU

Chức năng kích hoạt cho lớp đầu ra [4] sigmoid

Kỹ thuật bỏ học Tỷ lệ bỏ học tiêu chuẩn (p = 0,1)

(Có nguồn gốc từ GridSearchCV)

Kích thước lô [4] 1024

Kỷ nguyên [4] 300

Kỹ thuật lựa chọn đặc trưng dẫn đến giảm số lượng đặc trưng còn 21
có trong số 41 tính năng cho bộ dữ liệu NSL-KDD, 21 trong số 42 tính năng
các tính năng cho tập dữ liệu UNSW_NB-15 và 64 tính năng trong số 79 tính năng
Hình 4. Mạng lưới thần kinh sâu.
cho tập dữ liệu CIC-IDS-2017. Tập hợp con tính năng rút gọn được cung cấp đầu vào cho

Mô hình DNN cho việc học và dự đoán.

4.4. Mạng lưới thần kinh sâu để phát hiện và phân loại xâm nhập
= (7)
+
Kiến trúc DNN nhiều lớp được thiết kế để phát hiện xâm nhập
Ở đây, trong các phương trình. (3)–(7), , , thị giá trị dương thực, giá trị đúng
, và biểu
và phân loại. Kiến trúc DNN được thiết kế bao gồm một đầu vào
lớp có kích thước đầu vào bằng số lượng tính năng dẫn xuất âm tính, dương tính giả và âm tính giả tương ứng [26].

bằng cách sử dụng lựa chọn tính năng, ba lớp ẩn dày đặc được kết nối đầy đủ với
số lượng tế bào thần kinh khác nhau để chuyển đổi và học tập dữ liệu, và 5. Phân tích kết quả

một lớp đầu ra với một nơ-ron để phân loại nhị phân. Sự phức tạp
cấu trúc phân lớp của các tế bào thần kinh học các mẫu bằng cách thể hiện từ đầu đến cuối Các thử nghiệm đánh giá phương pháp đề xuất được thực hiện
học và thực hiện dự đoán cho mẫu đầu vào nhất định. Với mỗi trên bộ xử lý CPU Intel(R) Core(TM) i5-8265U với Windows 64-bit
Chức năng kích hoạt ReLU lớp được kết nối đầy đủ được sử dụng để tăng cường 10 và RAM 8,00 GB sử dụng Python. Các thí nghiệm
ảnh hưởng của quá trình học tập [5]. Hơn nữa, thành công với mọi dày đặc được thực hiện trên các bộ dữ liệu phát hiện xâm nhập được xử lý trước, cụ thể là,

lớp, một lớp bỏ học được kết hợp để đạt được sự khái quát hóa và NSL-KDD, UNSW_NB-15 và CIC-IDS-2017 với tập hợp con tính năng bị giảm
tránh sự đồng thích ứng trong mạng lưới thần kinh [42]. Đối với lớp đầu ra, Sigmoid được rút ra bằng cách sử dụng kỹ thuật lựa chọn tính năng được đề xuất. Thí nghiệm là

hàm kích hoạt được sử dụng để dự đoán nhãn đầu ra của lớp. Hơn nữa, hiệu được thực hiện trong mười lần chạy và kết quả đạt được được tính trung bình. Để
suất của cấu trúc DNN được đánh giá bằng cách áp dụng phân tích hiệu suất, chúng tôi đã so sánh lựa chọn tính năng được đề xuất của chúng tôi
hàm mất entropy chéo nhị phân. Cấu trúc của DNN được trình bày kỹ thuật với các kỹ thuật lựa chọn tính năng hiện có được mô tả
trong Hình 4 và chi tiết cấu hình của nó được trình bày trong Bảng 3. như sau.

4.5. Đánh giá hiệu suất • Loại bỏ tính năng đệ quy (RFE): Trong RFE, lựa chọn tính năng
được thực hiện bằng cách loại bỏ đệ quy các tính năng dựa trên tính năng

Hiệu suất của phương pháp đề xuất được trình bày bằng cách sử dụng các tầm quan trọng và rút ra một tập hợp con tính năng bao gồm các
số liệu đánh giá bắt nguồn từ ma trận nhầm lẫn, cụ thể là độ chính xác, các tính năng có điểm quan trọng về tính năng vượt trội [12].

độ chính xác, thu hồi, -score và FPR [26]. Các thước đo đánh giá được • Chi-Square: Trong kỹ thuật lựa chọn đặc trưng Chi-Square đã giảm bớt
được thể hiện bằng cách sử dụng các phương trình. (3)–(7). tập hợp con đặc trưng được bắt nguồn bằng cách thực hiện kiểm tra thống kê chi bình phương

+ đo lường sự phụ thuộc giữa các tính năng [12].


= (3) • Lựa chọn tính năng dựa trên tương quan (CFS): Kỹ thuật CFS dựa trên
+ + +
dựa trên giả thuyết rằng một tập hợp con đặc điểm tốt bao gồm các đặc điểm

= (4) có mối tương quan chặt chẽ với lớp mục tiêu và ở mức thấp
+
mối tương quan với nhau [43]. Do đó, trong các tính năng của CFS là
được lựa chọn dựa trên điểm hệ số tương quan được tính toán của họ.
= (5)
+ • Thuật toán di truyền: Trong kỹ thuật lựa chọn tính năng dựa trên thuật
toán ge-netic, tính năng được chọn dựa trên giá trị thích hợp của chúng
2
= (6) được tính toán bằng cách sử dụng hàm thích nghi được xác định. Trong [44], hàm thích nghi
+

359
Machine Translated by Google

A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Bảng 4
Kết quả cho Bộ dữ liệu NSL-KDD.

Kỹ thuật Lựa chọn tính năng Số tính năng được chọn Sự chính xác Độ chính xác Nhớ lại điểm f FPR Thời gian thực hiện (s)

DNN Loại bỏ tính năng đệ quy (RFE) [12] 13 98,94 99,39 98,75 99,33 0,012 32 519.045

DNN Chi-Square [12] 13 98,92 99,92 98,73 99,32 0,012 31 613.115

DNN Lựa chọn tính năng dựa trên tương quan (CFS) [43] 30 92,65 99,59 91,24 95,23 0,082 25 915.630

DNN Thuật toán di truyền [44] 23 94,90 95,10 94:30 94,70 0,094 35 569.016

DNN Thông tin lẫn nhau 13 98,89 99,90 98,70 99,30 0,0291 33 033.130

DNN Cứu trợ-f 20 81,94 81,91 98,46 89,42 0,0530 36 045.110

DNN Rừng ngẫu nhiên 16 98,88 99,89 98,71 99,30 0,0210 34 761.620

DNN Kỹ thuật lựa chọn tính năng được đề xuất 21 99,84 99,94 98,81 99,37 0,011 22 318.015

Lưu ý: Giá trị in đậm biểu thị hiệu suất tốt nhất cho các thử nghiệm được thực hiện đối với tập dữ liệu NSL-KDD.

Bảng 5

Kết quả cho Bộ dữ liệu UNSW_NB-15.

Kỹ thuật Lựa chọn tính năng Số tính năng được chọn Sự chính xác Độ chính xác Nhớ lại điểm f FPR Thời gian thực hiện (s)

DNN Loại bỏ tính năng đệ quy (RFE) [12] 13 82,21 78,71 98,86 87,64 0,013 22 314.470

DNN Chi-Square [12] 13 82,41 79,02 98,61 87,73 0,013 21 832.195

DNN Lựa chọn tính năng dựa trên tương quan (CFS) [43] 30 75,34 67,43 98,29 79,99 0,017 21 766.215

DNN Thuật toán di truyền [44] 30 76,70 92,70 95,00 93,83 0,069 25 387.412

DNN Thông tin lẫn nhau 21 76,26 72,87 97,92 83,55 0,077 18 190.205

DNN Cứu trợ-f 13 72,34 73,26 89,09 80,40 0,1090 18 643.650

DNN Rừng ngẫu nhiên 17 82,69 79,37 98,41 87,87 0,0518 18 152.130

DNN Kỹ thuật lựa chọn tính năng được đề xuất 21 89.03 95,00 98,95 96,93 0,011 13 913.500

Lưu ý: Giá trị in đậm biểu thị hiệu suất tốt nhất cho các thử nghiệm được thực hiện đối với tập dữ liệu UNSW_NB-15.

được xác định bằng cách sử dụng độ chính xác, -score và FPR, được sử dụng để Các số liệu đánh giá độ chính xác và thu hồi minh họa mức độ liên quan và

tính toán mức độ phù hợp của các tính năng và hơn nữa, các tính năng có mức độ phù hợp cao độ nhạy của kỹ thuật phân loại cơ bản cho một ứng dụng nhất định
các giá trị được chọn để phát hiện và phân loại xâm nhập.
vấn đề. Đối với phương pháp đề xuất, điểm số hứa hẹn về độ chính xác và
• Thông tin lẫn nhau: Trong thông tin lẫn nhau, việc lựa chọn đặc điểm là các số liệu đánh giá thu hồi đều đạt được cho cả ba tập dữ liệu. Vì

được thực hiện bằng cách ước tính sự phụ thuộc giữa các tính năng. Các Tập dữ liệu NSL-KDD, độ chính xác tăng khoảng 0,04%–18% và
việc lựa chọn tính năng dựa trên thủ tục phi tham số, Tỷ lệ thu hồi 0,06%–7% được ghi lại với độ chính xác 99,94% và việc thu hồi
cụ thể là ước tính entropy [45].
98,81% sử dụng kỹ thuật lựa chọn đặc trưng đề xuất. Đối với UNSW_NB-15
• Relief-f: Kỹ thuật lựa chọn tính năng này dựa trên
tập dữ liệu, độ chính xác tăng xấp xỉ 3%–28% và 0,09%–9%
tương tác tính năng, trong đó điểm tính năng được tính cho mỗi
trong việc thu hồi được ghi lại với độ chính xác 95,00% và thu hồi 98,95%
tính năng được xem xét thêm để xếp hạng các tính năng. tính năng
sử dụng kỹ thuật lựa chọn tính năng được đề xuất. Đối với tập dữ liệu CIC-IDS-2017,
điểm thu được bằng cách ước tính sự khác biệt về giá trị đặc điểm giữa
mức tăng xấp xỉ 0,05%–2% về độ chính xác và 0,67%–2% về
các cặp đối tượng lân cận gần nhất [45].
thu hồi được ghi lại với độ chính xác 99,85% và thu hồi 99,94% bằng cách sử dụng
• Rừng ngẫu nhiên: Rừng ngẫu nhiên là một trong những kỹ thuật phân loại
kỹ thuật lựa chọn đặc trưng được đề xuất.
phổ biến có khả năng lựa chọn đặc trưng ngầm.
Thật thú vị khi nghiên cứu hiệu suất của các kỹ thuật phân loại
Trong rừng ngẫu nhiên, các đặc điểm được chọn dựa trên số đo của chúng
với tập dữ liệu không cân bằng sử dụng -score. Điều này là do, -score có thể là
tạp chất, cụ thể là chỉ số Gini. Do đó, trong khi huấn luyện ngẫu nhiên

phân loại rừng, có khả năng xác định bao nhiêu được coi là một trong những thước đo hiệu suất quan trọng và là một

mỗi tính năng làm giảm tạp chất. Một tính năng càng giảm số liệu cân bằng xem xét cả độ chính xác và thu hồi. Đối với NSL-KDD

tạp chất thì càng có ý nghĩa [46]. tập dữ liệu, giá trị điểm 99,37% đạt được với phương pháp đề xuất,

cao hơn khoảng 0,07%–10% so với tính năng khác


Kết quả thử nghiệm NSL-KDD, UNSW_NB-15 và CIC-IDS-2017 lần lượt được trình kỹ thuật chọn lọc. Đối với tập dữ liệu UNSW_NB-15, giá trị điểm 96,93%
bày trong Bảng 4, 5 và 6. Nó có thể kết thúc rồi đạt được với phương pháp đề xuất, khoảng 3%–17%
từ những kết quả mà kỹ thuật lựa chọn đặc trưng đề xuất đạt được
hơn so với các kỹ thuật lựa chọn tính năng khác. Đối với CIC-IDS-2017
kết quả tốt hơn so với kỹ thuật lựa chọn tính năng hiện có với
tập dữ liệu, giá trị điểm 99,89% đạt được với phương pháp đề xuất,
IDS dựa trên DNN cho cả ba bộ dữ liệu phát hiện xâm nhập. Đối với tập dữ liệu
cao hơn khoảng 0,59%–2% so với tính năng khác
NSL-KDD, phương pháp đề xuất đạt độ chính xác 99,84% với
kỹ thuật chọn lọc. Hơn nữa, phương pháp lựa chọn tính năng được đề xuất
tập hợp con đặc trưng rút gọn dẫn xuất. Do đó, mức tăng gần đúng
đã vượt trội hơn về FPR tối thiểu cho IDS dựa trên DNN
độ chính xác 1%–18% được ghi lại với lựa chọn tính năng được đề xuất
so với các kỹ thuật lựa chọn đặc trưng khác.
kỹ thuật cho IDS dựa trên DNN sử dụng bộ dữ liệu NSL-KDD. Đối với tập dữ liệu
Ngoài các số liệu đánh giá, phương pháp đề xuất cũng có thể
UNSW_NB-15, phương pháp đề xuất đạt độ chính xác 89,03% với
được so sánh dựa trên thời gian thực hiện được ghi lại bao gồm tiền xử lý, lựa
tập hợp con đặc trưng rút gọn dẫn xuất. Do đó, mức tăng gần đúng của

Độ chính xác 7%–17% được ghi lại với lựa chọn tính năng được đề xuất chọn tính năng, đào tạo và phân loại. Việc thực hiện

kỹ thuật cho IDS dựa trên DNN sử dụng bộ dữ liệu UNSW_NB-15. Đối với tập dữ thời gian cho cả ba bộ dữ liệu phát hiện xâm nhập được trình bày trong Bảng 4–
6. Có thể suy ra từ thời gian thực hiện với kết quả
liệu CIC-IDS-2017, phương pháp đề xuất đạt độ chính xác 99,80%

với tập hợp con tính năng rút gọn. Do đó, mức tăng gần đúng của tập hợp con tính năng IDS dựa trên DNN được đề xuất đã ghi lại ít hoạt động thực thi hơn

Độ chính xác 0,9%–2% được ghi lại với lựa chọn tính năng được đề xuất thời gian mặc dù số lượng tính năng cao hơn một số tính năng

kỹ thuật cho IDS dựa trên DNN sử dụng bộ dữ liệu CIC-IDS-2017. các kỹ thuật hiện có đã được thực hiện.

360
Machine Translated by Google

A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Bảng 6
Kết quả cho Bộ dữ liệu CIC-IDS-2017.

Kỹ thuật Lựa chọn tính năng Số tính năng được chọn Sự chính xác Độ chính xác Nhớ lại điểm f FPR Thời gian thực hiện (s)

DNN Loại bỏ tính năng đệ quy (RFE) [12] 13 98,81 98,00 98,00 98,00 0,041 35 214.235

DNN Chi-Square [12] 13 98,15 98,20 98,93 98,56 0,062 35 517.115

DNN Lựa chọn tính năng dựa trên tương quan (CFS) [43] 54 97,78 97,77 97,00 97,38 0,094 32 261.510

DNN Thuật toán di truyền [44] 38 98,00 98,89 97,77 98,32 0,069 40 552.215

DNN Thông tin lẫn nhau 35 98,00 98,17 99,82 98,98 0,0178 32 031.522

DNN Cứu trợ-f 35 98,99 99,07 99,07 99,07 0,0801 32 045.130

DNN Rừng ngẫu nhiên 37 98,90 99,90 98,70 99,30 0,0601 32 029.250

DNN Kỹ thuật lựa chọn tính năng được đề xuất 64 99,80 99,85 99,94 99,89 0,012 27 719.360

Lưu ý: Giá trị in đậm biểu thị hiệu suất tốt nhất cho các thử nghiệm được thực hiện cho tập dữ liệu CIC-IDS-2017.

5.1. So sánh với các nghiên cứu hiện tại và phạm vi tương lai 5.2. Phân tích độ phức tạp

Trong phần này, chúng ta thảo luận về độ phức tạp về thời gian của Thuật toán 1. Đối với
Giả thuyết về kỹ thuật lựa chọn đặc điểm cho thấy đặc điểm đó
phân tích độ phức tạp về thời gian, giả sử đó là số lượng dữ liệu
lựa chọn là một phần thiết yếu của mô hình học tập nhằm tạo điều kiện thuận lợi cho mẫu trong tập dữ liệu cơ bản, là số lượng đối tượng, số lượng đối tượng là

mô hình để trích xuất và tìm hiểu các tính năng và do đó làm giảm độ phức tạp trong tập hợp con đối tượng là số lượng các đối tượng
, lồng nhau

của mô hình [26]. Kỹ thuật tính năng có thể được thực hiện bằng cách chọn hoặc tập hợp con của các tính năng. Ý nghĩa tính toán của Thuật toán 1 là

trích xuất các tính năng có liên quan từ tập dữ liệu. Trong cách tiếp cận đề xuất của chúng tôi để lấy tập hợp con tính năng nhằm nâng cao quy trình IDS dựa trên DNN

bằng cách giảm thiểu lỗi khái quát hóa và tăng khả năng dự đoán
chúng tôi mong muốn tập trung vào việc nâng cao hiệu suất của IDS dựa trên DNN bằng cách
khả năng.
đề xuất một kỹ thuật lựa chọn tính năng mới để chọn các tính năng thông qua
Việc lựa chọn tính năng được đề xuất yêu cầu tính toán độ lệch chuẩn và độ chênh
tổng hợp tầm quan trọng thống kê bằng cách sử dụng Độ lệch chuẩn và Sự khác biệt
lệch của giá trị trung bình và trung vị cho từng tính năng. Thời gian
của Trung bình và Trung vị. Phân tích kết quả của phương pháp được đề xuất cho
độ phức tạp của việc tính toán độ lệch chuẩn, giá trị trung bình, trung vị và thứ
thấy rằng phương pháp được đề xuất hoạt động tốt hơn đối với tính năng hiện có hạng tổng hợp của tất cả các đặc tính là ( ). Độ phức tạp thời gian của đệ quy
2
kỹ thuật lựa chọn được xem xét để so sánh hiệu suất. Riêng biệt ) [52]. Kể từ đây,
loại bỏ một tính năng khỏi tập hợp con tính năng là (
2
từ phân tích so sánh với kỹ thuật lựa chọn tính năng hiện có, chúng tôi 2
độ phức tạp về thời gian của Thuật toán 1 là [ ( ), ( )].
cũng đã trình bày phân tích so sánh với công việc nghiên cứu hiện có
2

trong lĩnh vực phát hiện và phân loại xâm nhập như trong Bảng 7.
5.3. Phân tích tiêu thụ năng lượng

Xem xét và so sánh với công trình nghiên cứu và

kết quả đạt được sau những hiểu biết chính có thể được rút ra. Để lập hồ sơ phân tích mức tiêu thụ năng lượng cho các bộ dữ liệu khác nhau,

thật thú vị khi lưu ý rằng mức tiêu thụ năng lượng cho một nhiệm vụ nhất định

• Từ phân tích kết quả có thể suy ra rằng kỹ thuật DL hoạt động tốt hơn so với đề cập đến việc sử dụng năng lượng cốt lõi trong thời gian thực hiện nhiệm vụ [53].

kỹ thuật ML để phát hiện xâm nhập Điều này ngụ ý rằng mức tiêu thụ năng lượng tỷ lệ thuận với

và phân loại. Có nhiều yếu tố khác nhau góp phần vào thời gian thực hiện trong thời gian năng lượng được tiêu thụ. Từ

Bảng 4–6, có thể suy ra rằng phương pháp đề xuất ghi lại ít hơn
hiệu suất tốt hơn của IDS dựa trên DL chẳng hạn như hiệu quả xử lý
thời gian thực hiện so với các kỹ thuật lựa chọn tính năng hiện có
dữ liệu chiều cao, khả năng học tập tính năng tốt hơn và
cho cả ba bộ dữ liệu phát hiện xâm nhập được xem xét về hiệu suất
chiến lược học tập hiệu quả. Phương pháp đề xuất có thể
sự đánh giá. Vì vậy, từ kết quả phân tích có thể suy ra rằng
đạt được hiệu suất được cải thiện cho tập dữ liệu NSL-KDD với
phương pháp đề xuất tiêu thụ ít năng lượng hơn so với các phương pháp hiện có khác
độ chính xác tăng xấp xỉ 26,27% so với [47]. kỹ thuật lựa chọn tính năng được xem xét để phân tích so sánh.
• So sánh kết quả của phương pháp đề xuất với các DL khác

kỹ thuật được trình bày trong [48,49], có thể suy ra rằng 5.4. Ý nghĩa thống kê và thảo luận

phương pháp đề xuất đã đạt được kết quả tốt hơn cho tập dữ liệu NSL-KDD
Các kết quả đạt được cũng được xác nhận thống kê bằng Wilcoxon
về độ chính xác, trong đó độ chính xác tăng lên được báo cáo
bài kiểm tra xếp hạng có chữ ký cho tất cả các biện pháp thực hiện được xem xét cho
tương ứng khoảng 9% và 1% so với [48,49] .
thử nghiệm. Ý nghĩa của kết quả đạt được có thể được thể hiện
Hơn nữa, phương pháp đề xuất đã đạt được hiệu suất được cải thiện về mặt
sử dụng -value, trong đó -value phải nhỏ hơn 0,05 [54]. Nó có thể
FPR cho tập dữ liệu NSL-KDD với khoảng được suy ra từ Bảng 8, rằng -giá trị thu được cho cả ba
giảm lần lượt là 7% và 6% so với [48,49] . tập dữ liệu được xem xét để thử nghiệm nhỏ hơn 0,05. Vì thế
• Hơn nữa, hiệu suất tương đương đạt được đối với các hiệu suất khác kết quả đạt được có ý nghĩa thống kê.

các số liệu đo lường như độ chính xác, khả năng thu hồi và -score. Xem xét vai trò và tầm quan trọng của kỹ thuật tính năng trong quá trình phát

hiện và phân loại xâm nhập, việc lựa chọn tính năng được đề xuất
Tuy nhiên, đối với hiệu suất được ghi cho tập dữ liệu UNSW_NB-15 kỹ thuật đệ quy rút ra các tính năng dựa trên các thuộc tính thống kê của chúng.

trong [48,49] tốt hơn về các số liệu hiệu suất đa dạng như Trọng tâm của phương pháp lựa chọn tính năng được đề xuất là đệ quy

độ chính xác, độ chính xác, thu hồi và -score. Điều này là do dựa trên lấy được các tính năng quan trọng từ tập dữ liệu cơ bản dựa trên

phân tích thăm dò của bộ dữ liệu UNSW_NB-15 bao gồm số lượng lớn thứ hạng tổng hợp được tính toán. Thủ tục xếp hạng một tính năng giả định

rằng các tính năng trong tập dữ liệu cơ bản là độc lập với nhau
các giá trị ngoại lệ và dữ liệu sai lệch, có thể được CNN xử lý hiệu quả
khác. Tuy nhiên, thường có mối tương quan giữa các tính năng cần
và kiến trúc LSTM [50]. Tuy nhiên, các phương pháp tiếp cận được đề xuất ghi lại
được coi là áp đặt tính dư thừa của tính năng trong khi lựa chọn tính năng.
hiệu suất tốt hơn về mặt FPR cho tập dữ liệu UNSW_NB-15 so với [48,49]. Vì vậy,
Do đó, xếp hạng đa tính năng có thể được coi là có mối tương quan
trong tương lai, sẽ có nhiều hứa hẹn để xem xét
cũng như tính năng kết hợp để rút ra tập hợp con tính năng rút gọn. Như vậy,
phân tích khả năng phục hồi của IDS bằng cách tối ưu hóa kiến trúc mạng thần kinh bằng điều này có thể phục vụ như một hướng nghiên cứu quan trọng trong tương lai có thể
các thuật toán lấy cảm hứng từ thiên nhiên hoặc bằng cách sử dụng lấy cảm hứng từ thiên nhiên được xem xét phạm vi tiềm năng trong lĩnh vực kỹ thuật tính năng cho

các thuật toán như các kỹ thuật lựa chọn đặc trưng. phát hiện và phân loại xâm nhập.

361
Machine Translated by Google

A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Bảng 7

So sánh với các nghiên cứu hiện có.

Tham chiếu
Kỹ thuật Lựa chọn Tập dữ liệu Phân tích kết quả
tính năng

[51] Cây quyết định Hệ số KDD CÚP 99 Độ chính xác: 95,03%, Tỷ lệ phát hiện: 95,23%, FPR: 1,65%
(DT) tương quan

tuyến tính

[47] Bộ phân CFS-Bát NSL-KDD Kết quả cho NSL-KDD: Độ chính xác 73,57%, Tỷ lệ phát hiện 73,6% và FPR là 12,92%
loại cây tập hợp thuật toán

[48] Tối ưu hóa Thứ bậc NSL-KDD, Bộ dữ liệu NSL-KDD Độ chính xác: 90,67%, Độ chính xác: 86,71%, Thu hồi: 95,19%,
CNN đa quy mô ISCX, -score: 91,46%, FPR: 8,86% và Thời gian đào tạo: 5118 giây. Bộ
LSTM UNSW_NB-15 dữ liệu ISCX Độ chính xác: 95,33%, Độ chính xác: 100%, Thu hồi: 94,77%, -score: 97,61%,

FPR: 7,84% và Thời gian đào tạo: 54 480 giây. Bộ dữ liệu

UNSW_NB-15 Độ chính xác: 96,33%, Độ chính xác: 100%, Thu hồi: 95,87%, -score: 98,13%,

FPR: 5,87% và Thời gian đào tạo: 30 665 giây.

[49] Góa phụ đen Đàn ong nhân NSL-KDD, Độ chính xác của tập dữ liệu NSL-KDD: 98,67%, Độ chính xác: 97,48%, Thu hồi: 100%,

được tối ưu hóa tạo UNSW_NB- -score: 98,73%, FPR: 7,50% và Thời gian đào tạo: 4675,45 giây.
LSTM chuyển đổi 15, ISCX, Độ chính xác của tập dữ liệu UNSW_NB-15: 98,66%, Độ chính xác: 100%, Thu hồi: 98,77%,
CIC-IDS-2018 -score: 98,77%, FPR: 4,48% và Thời gian đào tạo: 26 721,2 giây.

Độ chính xác của tập dữ liệu ISCX: 97,00%, Độ chính xác: 100%, Thu hồi: 95,78%, -score:

99,67%, FPR: 5,76% và Thời gian đào tạo: 48 761,05 giây. Độ

chính xác của tập dữ liệu CSE-CIC-IDS-2018: 98,25%, Độ chính xác: 97,48%, Thu hồi:

98,67%, -score: 98,18%, FPR: 2,52% và Thời gian đào tạo: 22 713,02 giây.

nghiên cứu của chúng tôi


DNN Lựa chọn NSL-KDD, Độ chính xác của tập dữ liệu NSL-KDD: 99,84%, Độ chính xác: 99,94%, Thu hồi: 98,81%,
tính UNSW_NB-15, -điểm: 99,37%, FPR: 1,1% và Thời gian thực hiện: 22 318,015 giây. Độ
năng được đề xuất chính xác của tập dữ liệu UNSW_NB-15: 89,03%, Độ chính xác: 95,00%, Thu hồi: 98,95%,
CIC-IDS-2017 -score: 96,93%, FPR: 1,1% và Thời gian thực hiện: 13 913,50 giây.

Độ chính xác của tập dữ liệu CIC-IDS-2017: 99,80%, Độ chính xác: 99,85%, Thu hồi: 99,94%,

-score: 99,89%, FPR: 1,2% và Thời gian thực hiện: 27 719,36 giây.

Bảng 8 Kết Người giới thiệu

quả kiểm tra cấp bậc có chữ ký của Wilcoxon.

Tập dữ liệu -giá trị


[1] A. Thakkar, R. Lohiya, Vai trò của bầy đàn và các thuật toán tiến hóa đối với hệ thống phát

NSL-KDD 0,0027 hiện xâm nhập: Một cuộc khảo sát, Swarm Evol. Máy tính. 53 (2020) 100631.

UNSW_NB-15 0,0053 [2] R. Lohiya, A. Thakkar, Lĩnh vực ứng dụng, bộ dữ liệu đánh giá và thách thức nghiên cứu về IoT:

CIC-IDS-2017 0,0054 Đánh giá có hệ thống, IEEE Internet Things J. (2020).

[3] A. Thakkar, R. Lohiya, Đánh giá về quan điểm học máy và học sâu của IDS cho IoT: Các cập nhật

gần đây, các vấn đề và thách thức bảo mật, Arch. Máy tính. Phương pháp Eng. (2020) 1–33,

http://dx.doi.org/10.1007/s11831-020-09496-0.

6. Nhận xét kết luận


[4] A. Thakkar, R. Lohiya, Phân tích sự kết hợp các kỹ thuật chính quy hóa trong hệ thống phát hiện

xâm nhập dựa trên học sâu, Int. J. Trí tuệ. Hệ thống. (2021).
Nghiên cứu đề xuất một kỹ thuật lựa chọn tính năng mới dựa trên sự [5] MA Chang, D. Bottini, L. Jian, P. Kumar, A. Panda, S. Shenker, Cách đào tạo DNN của bạn: Phiên

kết hợp tầm quan trọng thống kê bằng cách sử dụng độ lệch chuẩn và sự bản nhà điều hành mạng, 2020, bản in trước arXiv arXiv:2004.10275 .

[6] R. Lohiya, A. Thakkar, Phát hiện xâm nhập bằng cách sử dụng mạng thần kinh sâu với lớp phản
khác biệt của giá trị trung bình và trung vị để nâng cao hiệu suất
chỉnh lưu, trong: Mạng truyền thông và máy tính mềm ứng dụng, Springer, 2021, trang 89–105.
phát hiện và phân loại xâm nhập. Kỹ thuật lựa chọn tính năng được đề
xuất nhằm mục đích tạo ra tập hợp con tính năng rút gọn bao gồm các [7] FE White, Từ điển tổng hợp dữ liệu, Báo cáo kỹ thuật, Giám đốc chung của Phòng thí nghiệm

tính năng có các thuộc tính như độ phân biệt và độ lệch cao. Để dự Washington DC, 1991.

đoán và phân loại, kỹ thuật Mạng thần kinh sâu (DNN) được áp dụng để [8] A. Thakkar, R. Lohiya, Đánh giá về sự tiến bộ trong phát hiện xâm nhập

bộ dữ liệu, Máy tính thủ tục. Khoa học. 167 (2020) 636–645.
xem xét tập hợp con tính năng rút gọn để học và lấy các mẫu trong dữ
[9] G. Bagyalakshmi, G. Rajkumar, N. Arunkumar, M. Easwaran, K. Narasimhan, V.
liệu. Đánh giá hiệu suất của phương pháp đề xuất được thực hiện bằng
Elamaran, M. Solarte, I. Hernández, G. Ramirez-Gonzalez, Phân tích lỗ hổng mạng trên cơ sở dữ
cách sử dụng ba bộ dữ liệu phát hiện xâm nhập là NSL-KDD, UNSW_NB-15 liệu hình ảnh/tín hiệu não bằng cách sử dụng các công cụ nmap và wireshark, IEEE Access 6

và CIC-IDS-2017. Hiệu suất của phương pháp đề xuất được thể hiện (2018) 57144–57151.

[10] A. Gharib, I. Sharafaldin, AH Lashkari, AA Ghorbani, Khung đánh giá cho bộ dữ liệu phát hiện xâm
dưới dạng độ chính xác, độ chính xác, thu hồi, -score, Tỷ lệ dương
nhập, trong: Hội nghị quốc tế về khoa học và bảo mật thông tin năm 2016 (ICISS), IEEE, 2016,
tính giả (FPR) và thời gian thực hiện. Từ các thử nghiệm được thực
trang 1–6.
hiện, có thể suy ra rằng phương pháp đề xuất đạt được hiệu suất tốt [11] G. Creech, J. Hu, Tạo tập dữ liệu thử nghiệm IDS mới: Đã đến lúc gỡ bỏ bộ sưu tập KDD, trong:
hơn so với các kỹ thuật lựa chọn tính năng hiện có cho cả ba bộ dữ Hội nghị Mạng và Truyền thông Không dây IEEE 2013 (WCNC), IEEE, 2013, trang 4487–4492.
liệu phát hiện xâm nhập với thời gian thực hiện giảm đi.
[12] A. Thakkar, R. Lohiya, Phân loại tấn công bằng kỹ thuật lựa chọn tính năng: một nghiên cứu so
Do đó, các tính năng dẫn xuất sử dụng kỹ thuật lựa chọn tính năng được
sánh, J. Ambient Intell. Nhân hóa. Máy tính. 12 (1) (2021) 1249–1266.
đề xuất có thể nâng cao hiệu suất của IDS dựa trên DNN.

[13] O. Almomani, Mô hình lựa chọn tính năng cho hệ thống phát hiện xâm nhập mạng dựa trên thuật toán

Tuyên bố về lợi ích cạnh tranh PSO, GWO, FFA và GA, Symmetry 12 (6) (2020) 1046.

[14] C. Khammassi, S. Krichen, Phương pháp bao bọc GA-LR để lựa chọn tính năng trong phát hiện xâm

nhập mạng, Comput. An toàn. 70 (2017) 255–277.


Các tác giả tuyên bố rằng họ không có lợi ích tài chính hoặc mối
[15] MA Ambusaidi, X. He, P. Nanda, Z. Tan, Xây dựng hệ thống phát hiện xâm nhập bằng thuật toán lựa
quan hệ cá nhân cạnh tranh nào có thể ảnh hưởng đến công việc được
chọn tính năng dựa trên bộ lọc, IEEE Trans. Máy tính. 65 (10) (2016) 2986–2998.
báo cáo trong bài viết này.
[16] B. Ingre, A. Yadav, Phân tích hiệu suất của bộ dữ liệu NSL-KDD bằng ANN, trong: Hội nghị quốc tế

2015 về Hệ thống kỹ thuật truyền thông và xử lý tín hiệu, IEEE, 2015, trang 92–96.
Tính khả dụng của dữ liệu

[17] T. Janarthanan, S. Zargari, Lựa chọn tính năng trong bộ dữ liệu UNSW-NB15 và KDDCUP'99, trong:
Các tác giả không thể hoặc đã chọn không chỉ định dữ liệu nào đã Hội nghị chuyên đề quốc tế lần thứ 26 về Điện tử công nghiệp (ISIE) năm 2017 của IEEE, IEEE,
được sử dụng. 2017, trang 1881–1886.

362
Machine Translated by Google

A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

[18] V. Kumar, D. Sinha, AK Das, SC Pandey, RT Goswami, Hệ thống phát hiện xâm nhập dựa trên quy tắc [37] U. Repository, tập dữ liệu NSL-KDD, 2009, URL https://www.unb.ca/cic/datasets/

tích hợp: phân tích trên tập dữ liệu UNSW-NB15 và tập dữ liệu trực tuyến thời gian thực, Cluster nsl.html (truy cập ngày 22 tháng 4 năm 2019).

Comput. 23 (2) (2020) 1397–1418. [38] L. Dhanabal, S. Shantharajah, Nghiên cứu về bộ dữ liệu NSL-KDD cho hệ thống phát hiện xâm nhập dựa
[19] NM Khan, N. Madhav C, A. Negi, IS Thaseen, Phân tích về cải thiện hiệu suất của các mô hình học
trên thuật toán phân loại, Int. J. Khuyến cáo. Res. Máy tính. Cộng đồng.
máy bằng kỹ thuật lựa chọn tính năng, trong: Hội nghị quốc tế về ứng dụng và thiết kế hệ thống
Anh. 4 (6) (2015) 446–452.
thông minh, Springer, 2018, trang 69 –77.
[39] N. Moustafa, J. Slay, UNSW-NB15: bộ dữ liệu toàn diện cho các hệ thống phát hiện xâm nhập mạng (bộ

dữ liệu mạng UNSW-NB15), trong: Hội nghị Hệ thống Thông tin và Truyền thông Quân sự 2015 (MilCIS),
[20] BA Tama, M. Comuzzi, K.-H. Rhee, TSE-IDS: Bộ phân loại hai giai đoạn dành cho hệ thống phát hiện
IEEE, 2015, trang.
xâm nhập dựa trên sự bất thường thông minh, IEEE Access 7 (2019) 94497–94507.
1–6.

[21] W. Zong, Y.-W. Chow, W. Susilo, Cách tiếp cận phân loại hai giai đoạn để phát hiện xâm nhập mạng, [40] I. Sharafaldin, AH Lashkari, AA Ghorbani, Hướng tới tạo ra bộ dữ liệu phát hiện xâm nhập mới và

trong: Hội nghị quốc tế về thực tiễn và kinh nghiệm bảo mật thông tin, Springer, 2018, trang 329– mô tả đặc tính lưu lượng truy cập xâm nhập, trong: ICISSP, 2018, trang.

340. 108–116.

[22] M. Belouch, S. El Hadaj, M. Idhamad, Phương pháp phân loại hai giai đoạn sử dụng thuật toán [41] R. Panigrahi, S. Borah, Phân tích chi tiết về bộ dữ liệu CICIDS2017 để thiết kế hệ thống phát hiện
Reptree để phát hiện xâm nhập mạng, Int. J. Khuyến cáo. Máy tính. Khoa học. ứng dụng. 8 (6) xâm nhập, Int. J. Anh. Technol. 7 (3,24) (2018) 479–482.
(2017) 389–394.
[42] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov, Dropout: một cách đơn
[23] J. Gao, S. Chai, B. Zhang, Y. Xia, Nghiên cứu phát hiện xâm nhập mạng dựa trên máy học cực đoan
giản để ngăn chặn tình trạng mạng lưới thần kinh bị trang bị quá mức, J. Mach. Học hỏi. Res. 15
gia tăng và phân tích thành phần chính thích ứng, Năng lượng 12 (7) (2019) 1223.
(1) (2014) 1929–1958.

[43] N. Gopika, MEA Meena Kowshalaya, Thuật toán lựa chọn tính năng dựa trên tương quan cho học máy,
[24] NT Pham, E. Foo, S. Suriadi, H. Jeffrey, HFM Lahza, Cải thiện hiệu suất của hệ thống phát hiện xâm
trong: Hội nghị quốc tế lần thứ 3 về Hệ thống điện tử và truyền thông (ICCES) năm 2018, IEEE,
nhập bằng cách sử dụng các phương pháp tổng hợp và lựa chọn tính năng, trong: Kỷ yếu của Tuần

lễ Khoa học Máy tính Australasian Multiconference, 2018, trang 1 –6. 2018, trang 692–695.

[44] Z. Liu, Y. Shi, Một IDS lai sử dụng phương pháp lựa chọn tính năng dựa trên GA và ngẫu nhiên

[25] AA Salih, MB Abdulrazaq, Kết hợp lựa chọn các tính năng tốt nhất bằng cách sử dụng ba bộ phân loại rừng, Int. J. Mach. Học hỏi. Máy tính. 12 (2) (2022).

trong hệ thống phát hiện xâm nhập, trong: Hội nghị quốc tế về Khoa học và Kỹ thuật tiên tiến năm [45] Y. Zhang, X. Ren, J. Zhang, Phương pháp phát hiện xâm nhập dựa trên việc thu thập thông tin và

2019 (ICOASE), IEEE, 2019, trang 94–99. lựa chọn tính năng hỗ trợ, trong: Hội nghị chung quốc tế về mạng thần kinh năm 2019 (IJCNN),
[26] A. Thakkar, R. Lohiya, Khảo sát về hệ thống phát hiện xâm nhập: lựa chọn tính năng, mô hình, thước IEEE, 2019, trang 1–5.
đo hiệu suất, quan điểm ứng dụng, thách thức và hướng nghiên cứu trong tương lai, Artif. Trí
[46] X. Li, W. Chen, Q. Zhang, L. Wu, Xây dựng hệ thống phát hiện xâm nhập mã hóa tự động dựa trên lựa
tuệ. Mục sư (2021) 1–111.
chọn tính năng rừng ngẫu nhiên, Comput. An toàn. 95 (2020)
[27] Y. Xin, L. Kong, Z. Liu, Y. Chen, Y. Li, H. Zhu, M. Gao, H. Hou, C. Wang, Phương pháp học máy và
101851.
học sâu cho an ninh mạng, IEEE Access (2018).
[47] Y. Chu, G. Cheng, S. Jiang, M. Dai, Xây dựng hệ thống phát hiện xâm nhập hiệu quả dựa trên lựa
[28] AL Buczak, E. Guven, Khảo sát về các phương pháp khai thác dữ liệu và học máy để phát hiện xâm
chọn tính năng và phân loại tổng thể, Comput. Mạng. 174 (2020) 107247.
nhập an ninh mạng, IEEE Commun. Sống sót. Gia sư. 18 (2) (2016) 1153–1176.

[29] L.-H. Li, R. Ahmad, W.-C. Tsai, AK Sharma, DNN dựa trên lựa chọn tính năng cho hệ thống phát hiện [48] PR Kanna, P. Santhi, Phương pháp học sâu thống nhất dành cho hệ thống phát hiện xâm nhập hiệu quả

xâm nhập, trong: 2021 Hội nghị quốc tế lần thứ 15 về quản lý và truyền thông thông tin phổ biến bằng cách sử dụng các tính năng không gian–thời gian tích hợp, Knowl.-Based Syst. 226 (2021)

(IMCOM), IEEE, 2021, trang 1–8. 107132.

[30] T.-S. Chou, KK Yen, J. Luo, Thiết kế phát hiện xâm nhập mạng bằng cách sử dụng lựa chọn tính năng [49] PR Kanna, P. Santhi, Phát hiện xâm nhập lai bằng cách sử dụng mạng lưới thần kinh bộ nhớ dài hạn
của mô hình điện toán mềm, Int. J. Máy tính. Trí tuệ. 4 (3) (2008) 196–208.
tích chập được tối ưu hóa dựa trên MapReduce, Expert Syst. ứng dụng. 194 (2022) 116545.

[31] S. Zaman, F. Karray, Lựa chọn tính năng cho hệ thống phát hiện xâm nhập dựa trên máy vectơ hỗ
[50] N. Sharma, NS Yadav, S. Sharma, Phân loại tập dữ liệu UNSW-NB15 bằng cách sử dụng phân tích dữ
trợ, trong: Hội nghị Mạng và Truyền thông Người tiêu dùng, 2009. CCNC 2009. IEEE lần thứ 6,
liệu khám phá bằng phương pháp học tập tổng hợp, EAI Endorsed Trans. Ấn Độ.
IEEE, 2009, trang 1–8.
Mạng. Trí tuệ. Hệ thống. 8 (29) (2021) e4.
[32] S. Aljawarneh, M. Aldwairi, MB Yassein, Hệ thống phát hiện xâm nhập dựa trên bất thường thông qua
[51] S. Mohammadi, H. Mirvaziri, M. Ghazizadeh-Ahsaee, H. Karimipour, Phát hiện xâm nhập mạng bằng thuật
phân tích lựa chọn tính năng và xây dựng mô hình hiệu quả lai, J.

Máy tính. Khoa học. 25 (2018) 152–160. toán lựa chọn tính năng kết hợp, J. Inf. An toàn. ứng dụng. 44 (2019) 80–88.

[33] J. Xie, M. Wang, S. Xu, Z. Huang, PW Grant, Các thuật toán lựa chọn tính năng không giám sát dựa

trên độ lệch chuẩn và độ tương tự cosin để phân tích dữ liệu gen, Front. Genet. 12 (2021). [52] X. Ding, F. Yang, F. Ma, Lựa chọn mô hình hiệu quả để loại bỏ tính năng đệ quy dựa trên hàm phân

biệt tuyến tính, J. Biomed. Thông báo. 129 (2022)

[34] R. de Nijs, TL Klausen, Về sự khác biệt được mong đợi giữa giá trị trung bình và trung vị, 104070.

Điện tử. J. Ứng dụng. Nhà thống kê. Hậu môn. 6 (1) (2013) 110–117.
[53] S. Hajiamini, BA Shirazi, Một nghiên cứu về phương pháp DVFS cho các hệ thống đa lõi có tính năng
[35] T. Phạm-Gia, TL Hùng, Độ lệch tuyệt đối trung bình và trung vị, Math.
đảo, trong: Những tiến bộ trong máy tính, Tập. 119, Elsevier, 2020, tr.
Máy tính. Mô hình 34 (7–8) (2001) 921–936.
35–71.
[36] P. Chen, Y. Guo, J. Zhang, Y. Wang, H. Hu, Một phương pháp tiền xử lý mới để phát hiện xâm nhập
[54] S. Taheri, G. Hesamian, Tổng quát về bài kiểm tra cấp bậc có chữ ký của wilcoxon và
dựa trên DNN, trong: 2020 Hội nghị quốc tế về máy tính và truyền thông IEEE lần thứ 6 (ICCC),
ứng dụng của nó, Statist. Giấy tờ 54 (2) (2013) 457–470.
IEEE , 2020, trang 2059–2064.

363

You might also like