You are on page 1of 11

Translated from English to Vietnamese - www.onlinedoctranslator.

com

Thông tin tổng hợp 90 (2023) 353–363

Danh sách nội dung có sẵn tạiKhoa họcTrực tiếp

Hợp nhất thông tin

Trang chủ của tạp chí:www.elsevier.com/locate/inffus

Bài viết có độ dài đầy đủ

Sự kết hợp tầm quan trọng về mặt thống kê để lựa chọn tính năng trong Hệ thống
phát hiện xâm nhập dựa trên mạng thần kinh sâu
Ankit Thakkar, Ritika Lohiya∗
Viện Công nghệ, Đại học Nirma, Ahmedabad, Gujarat 382 481, Ấn Độ

ARTICLEINFO TRỪU TƯỢNG

Từ khóa: Hệ thống phát hiện xâm nhập (IDS) là một phần thiết yếu của mạng vì nó góp phần bảo vệ mạng trước các lỗ hổng và mối đe
Hệ thống phát hiện xâm nhập dọa khác nhau. Trong những thập kỷ qua, đã có nghiên cứu toàn diện trong lĩnh vực IDS và nhiều phương pháp tiếp cận khác
Deep Learning nhau đã được phát triển để thiết kế hệ thống phát hiện và phân loại xâm nhập. Với sự gia tăng trong việc sử dụng các kỹ thuật
Lựa chọn tính năng dựa trên bộ
Deep Learning (DL) và khả năng tìm hiểu dữ liệu rộng rãi của chúng, chúng tôi mong muốn thiết kế IDS dựa trên Mạng thần
lọc Mạng lưới thần kinh sâu
kinh sâu (DNN). Trong nghiên cứu này, chúng tôi tập trung vào việc nâng cao hiệu suất của IDS dựa trên DNN bằng cách đề
Độ lệch chuẩn
xuất một kỹ thuật lựa chọn tính năng mới để chọn các tính năng thông qua việc kết hợp tầm quan trọng thống kê bằng cách
Sự kết hợp của tầm quan trọng thống kê
sử dụng Độ lệch chuẩn và Sự khác biệt của Giá trị trung bình và Trung vị. Ở đây, theo cách tiếp cận được đề xuất, các đặc điểm
được cắt bớt dựa trên thứ hạng của chúng bắt nguồn bằng cách sử dụng sự kết hợp có tầm quan trọng thống kê. Hơn nữa, sự
kết hợp tầm quan trọng về mặt thống kê nhằm mục đích rút ra các đặc điểm liên quan có độ rõ ràng và độ lệch cao, hỗ trợ
việc học dữ liệu tốt hơn. Hiệu suất của phương pháp đề xuất được đánh giá bằng cách sử dụng ba bộ dữ liệu phát hiện xâm
nhập là NSL-KDD, UNSW_NB-15 và CIC-IDS-2017. Phân tích hiệu suất được trình bày dưới dạng các số liệu đánh giá khác nhau
như độ chính xác, độ chính xác, khả năng thu hồi, -điểm và Tỷ lệ dương tính giả (FPR) và kết quả được so sánh với các kỹ thuật
lựa chọn tính năng hiện có. Ngoài các số liệu đánh giá, so sánh hiệu suất còn được trình bày dưới dạng thời gian thực hiện.
Hơn nữa, kết quả đạt được cũng được kiểm tra thống kê bằng cách sử dụng bài kiểm tra Xếp hạng có chữ ký của Wilcoxon.

1. Giới thiệu bộ dữ liệu phát hiện Chúng tôi đã áp dụng sự kết hợp tầm quan trọng
thống kê bằng cách sử dụng các biện pháp thống kê để rút ra mối liên
Cơ sở lý luận cơ bản của việc phát triển Hệ thống phát hiện xâm hệ và xác định tầm quan trọng của các tính năng đối với việc lựa chọn
nhập (IDS) là phát hiện và phân loại các mẫu mạng với độ chính xác tính năng [7]. Để phân loại xâm nhập, DNN yêu cầu một lượng lớn dữ
phân loại chính xác và cảnh báo sai tối thiểu [1,2]. Do đó, các nguyên liệu để học và tạo ra các mẫu. Trong lĩnh vực IDS, nhiều bộ dữ liệu phát
tắc thiết kế mang tính triết học và phân tích khác nhau cần được xem hiện xâm nhập khác nhau đã được phát triển để phân tích và học hỏi [
xét khi phát triển hệ thống phân loại và phát hiện xâm nhập. Trong số 8]. Các bộ dữ liệu này đã được phát triển bằng cách nắm bắt lưu
nhiều thập kỷ qua, đã có nhiều nỗ lực khác nhau trong việc thiết kế IDS lượng mạng thô chạy qua môi trường mạng cơ bản. Nhiều công cụ
hiệu quả bằng kỹ thuật Deep Learning (DL) [3]. Hơn nữa, các kỹ thuật mạng khác nhau như Wireshark và Nmap được sử dụng để nắm bắt lưu
DL như Mạng thần kinh sâu (DNN) đã nổi lên như một trong những giải lượng mạng thô [9]. Hơn nữa, dữ liệu đã thu thập được lưu trữ dưới
pháp hàng đầu để xây dựng IDS hiệu quả [4]. Điều này là do, DNN có
dạng tệp pcap hoặc tcpdump, được xử lý để trích xuất các tính năng
một thuộc tính đặc trưng hấp dẫn là thực hiện học tập từ đầu đến cuối
mạng từ các gói mạng bao gồm thông tin tiêu đề và tải trọng [10]. Do
và phân tích chuyên sâu để rút ra các mẫu dữ liệu nhằm dự đoán và
đó, bộ dữ liệu phát hiện xâm nhập được sử dụng để đánh giá hiệu suất
phân loại [5]. Do đó, các kỹ thuật DL như DNN có thể được coi là một
bao gồm không gian tính năng mạng chiều cao để học hỏi. Tuy nhiên,
trong những kỹ thuật thông minh giúp thực hiện việc học ngầm trên dữ
khi xem xét các tính năng của mạng, có khả năng các bộ dữ liệu phát
liệu nhiều chiều một cách dễ dàng. Ngoài việc xử lý dữ liệu nhiều chiều,
hiện xâm nhập có thể bao gồm các tính năng dư thừa và không liên
DNN còn cung cấp khả năng trừu tượng hóa dữ liệu cấp cao và khả
quan có thể ảnh hưởng hoặc không góp phần vào quá trình dự đoán và
năng khái quát hóa tốt cho vấn đề phân loại tấn công cơ bản [6].
Trong nghiên cứu này, chúng tôi mong muốn thiết kế một hệ thống phát hiện và
phân loại [11].
phân loại xâm nhập dựa trên DNN bằng cách áp dụng sự kết hợp có tầm quan trọng
Do đó, xem xét vai trò và tầm quan trọng của kỹ thuật tính năng
thống kê bằng cách xem xét các biện pháp thống kê cho kỹ thuật tính năng về xâm nhập. trong quá trình phát hiện và phân loại xâm nhập, chúng tôi hướng tới

∗ Đồng tác giả.


Địa chỉ email:ankit.thakkar@nirmauni.ac.in (A. Thakkar),18ftphde30@nirmauni.ac.in (R. Lohiya).

https://doi.org/10.1016/j.inffus.2022.09.026
Nhận ngày 23 tháng 2 năm 2022; Nhận theo mẫu sửa đổi ngày 26 tháng 9 năm 2022; Được chấp nhận ngày 28 tháng 9 năm 2022
Có sẵn trực tuyến ngày 3 tháng 10 năm 2022
1566-2535/© 2022 Elsevier B.V. Mọi quyền được bảo lưu.
A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Hình 1.Đóng góp khoa học và tầm quan trọng của kỹ thuật lựa chọn đặc trưng đề xuất.

để thiết kế một quy trình kỹ thuật tính năng mới chọn lọc các tính năng dựa trên phương pháp được áp dụng để phát hiện và phân loại xâm nhập. Phần5trình
việc diễn giải thống kê các tính năng cho bộ dữ liệu phát hiện xâm nhập cơ bản. bày và thảo luận phân tích kết quả của các kỹ thuật đã thực hiện. Phần6kết
Việc tạo ra một tập hợp con rút gọn của các tính năng diễn giải là một quá trình thúc công việc được trình bày trong bài viết này.
quan trọng và do đó, chúng tôi mong muốn thiết kế một kỹ thuật lựa chọn tính
năng dựa trên bộ lọc mới xem xét các biện pháp thống kê độ lệch chuẩn, giá trị 2. Công việc liên quan
trung bình và trung bình để tạo ra tập hợp con tính năng rút gọn cho việc học và
nâng cao hiệu suất của IDS dựa trên DNN . Không giống như các kỹ thuật lựa chọn Trong những năm qua, nhiều phương pháp tiếp cận khác nhau đã được
tính năng khác, phương pháp lựa chọn tính năng dựa trên bộ lọc nhằm mục đích đề xuất để phát hiện và phân loại xâm nhập. TRONG [14], một kỹ thuật lựa
tạo ra tập hợp con tính năng mà không có bất kỳ ảnh hưởng nào của kỹ thuật
chọn tính năng dựa trên trình bao bọc được đề xuất bằng Thuật toán di
phân loại được áp dụng cho việc học và dự đoán [12].
truyền (GA) và Hồi quy logistic (LR). Ở đây, trong phương pháp đề xuất, GA
cùng với LR được áp dụng để lựa chọn tính năng và phân loại Cây quyết định
1.1. Đóng góp khoa học và tầm quan trọng của kỹ thuật lựa chọn đặc trưng
(DT) được áp dụng để phân loại. Hiệu suất của phương pháp đề xuất được
đề xuất
đánh giá bằng công cụ Weka với hai bộ dữ liệu phát hiện xâm nhập là bộ dữ
liệu KDD CUP 99 và UNSW_NB-15. Kết quả phân tích cho thấy kỹ thuật lựa
Với mục tiêu thiết kế mô hình dự đoán hiệu quả cho vấn đề phân
chọn đặc trưng đề xuất đạt tỷ lệ phát hiện (DR) là 99,90% và tỷ lệ cảnh báo
loại cơ bản, kỹ thuật lựa chọn tính năng có thể được coi là một phương
sai (FAR) là 0,1% đối với tập dữ liệu KDD CUP 99 với 18 đặc điểm và 81,24%
pháp heuristic có thể không đảm bảo hiệu suất tối ưu, hoàn hảo hoặc
DR và 6,39% FAR đối với tập dữ liệu UNSW_NB-15 với 20 đặc điểm. .
hợp lý nhưng là phương tiện thích hợp để đạt được hiệu suất ngay lập
tức và hiệu quả cho phân loại cơ bản. vấn đề [13]. Do đó, tính khoa học
Kỹ thuật lựa chọn tính năng Thông tin lẫn nhau linh hoạt (FMI) được đề
và nghệ thuật của kỹ thuật lựa chọn đặc trưng được đề xuất dựa trên
xuất trong [15] để rút ra tập hợp con tính năng rút gọn để phát hiện và phân
các phương pháp phỏng đoán, cụ thể là độ lệch chuẩn và sai phân (|
loại xâm nhập. Ở đây, theo cách tiếp cận được đề xuất, Máy vectơ hỗ trợ
− |) của các tính năng trong tập dữ liệu đã cho. Đóng góp khoa học
bình phương nhỏ nhất (LS-SVM) được áp dụng để phân loại và các tính năng
và tầm quan trọng của kỹ thuật lựa chọn đặc trưng đề xuất được thể
được chọn bằng FMI xem xét mối tương quan giữa các tính năng của tập dữ
hiện ởHình 1.
liệu. Hơn nữa, FMI là một kỹ thuật lựa chọn tính năng phi tuyến tính sử dụng
Những đóng góp chính của công việc đề xuất của chúng tôi được tóm tắt như
mối tương quan làm thước đo để lựa chọn tính năng. Để đánh giá hiệu suất
sau.
của phương pháp đề xuất, ba bộ dữ liệu phát hiện xâm nhập được sử dụng,
• Chúng tôi đã đề xuất một kỹ thuật lựa chọn tính năng mới dựa trên sự kết cụ thể là bộ dữ liệu Kyoto 2006, KDD CUP 99 và NSL-KDD. Phân tích hiệu suất
hợp tầm quan trọng về mặt thống kê của các tính năng để phát hiện và của phương pháp đề xuất được trình bày dưới dạng DR và FAR.
phân loại xâm nhập.
• DNN được áp dụng cho quá trình học và phân loại bằng cách sử dụng tập hợp con Kỹ thuật lựa chọn tính năng dựa trên tương quan (CFS) được áp dụng
tính năng rút gọn. trong [16] để phát hiện và phân loại xâm nhập. Ở đây, theo cách tiếp cận
• Để tổng hợp tầm quan trọng về mặt thống kê của các đặc điểm, các được đề xuất, bộ phân loại DT được áp dụng để phân loại sử dụng tập hợp
biện pháp thống kê, cụ thể là độ lệch chuẩn, giá trị trung bình và trung con tính năng rút gọn được rút ra bằng CFS. Hiệu quả của phương pháp đề
vị sẽ được xem xét. xuất được đánh giá bằng bộ dữ liệu NSL-KDD gồm 41 đặc trưng. Cách tiếp
• Phương pháp đề xuất được đánh giá bằng cách sử dụng ba bộ dữ cận được đề xuất rút ra tập hợp con tính năng rút gọn gồm 14 tính năng
liệu phát hiện xâm nhập là NSL-KDD, UNSW_NB-15 và CIC- được sử dụng tiếp để phát hiện và phân loại xâm nhập. Phân tích hiệu năng
IDS-2017. của phương pháp đề xuất được trình bày dưới góc độ độ chính xác và từ kết
• Phân tích hiệu suất của phương pháp đề xuất được trình bày dưới dạng các quả có thể suy ra rằng phương pháp đề xuất đạt độ chính xác 90,30% đối với
số liệu đánh giá khác nhau như độ chính xác, độ chính xác, khả năng thu
tập dữ liệu NSL-KDD với 14 đặc trưng.
hồi, -điểm và Tỷ lệ dương tính giả (FPR).
• Hiệu suất của phương pháp đề xuất được so sánh với các kỹ thuật Phân tích so sánh của các phân loại khác nhau được thực hiện trong [17]
lựa chọn tính năng khác nhau như Chi-Square, Lựa chọn tính
sử dụng công cụ Weka. Ở đây, để phân tích so sánh, các kỹ thuật lựa chọn
năng dựa trên tương quan (CFS), Loại bỏ tính năng đệ quy, Thuật
tính năng khác nhau được áp dụng, cụ thể là kỹ thuật đánh giá thuộc tính,
toán di truyền (GA), Thông tin lẫn nhau (MI), Relief-f và Rừng ngẫu
tham lam từng bước, IG và kỹ thuật xếp hạng. Hơn nữa, hai tập hợp con tính
nhiên (RF ).
năng được tạo ra để phát hiện và phân loại xâm nhập bằng cách thực hiện
• Phân tích so sánh với các kỹ thuật lựa chọn tính năng hiện có
số lượng mô phỏng xác định. Từ phân tích hiệu suất, người ta suy ra rằng bộ
được trình bày bằng các số liệu đánh giá khác nhau đã được
phân loại Rừng ngẫu nhiên (RF) hoạt động tốt hơn về mặt tổng thể
xem xét cũng như thời gian thực hiện.
hiệu suất cho cả hai tập hợp con tính năng dẫn xuất. Hơn nữa, phân tích kết quả
Phần còn lại của bài viết được tổ chức như sau. Phần2 được trình bày dưới dạng thống kê Kappa và độ chính xác để chứng minh
trình bày tổng quan về các kỹ thuật lựa chọn tính năng để phát hiện và hiệu suất của từng tập hợp con tính năng.
phân loại xâm nhập. Phần3mô tả kỹ thuật lựa chọn tính năng được đề Kỹ thuật lựa chọn đặc trưng dựa trên bộ lọc sử dụng IG được đề xuất
xuất cho IDS dựa trên DNN. Phần4thảo luận về thực nghiệm trong [18] để phát hiện và phân loại xâm nhập. Ở đây, trong đề xuất

354
A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Cách tiếp cận này, việc phân loại được thực hiện bằng cách tích hợp cách 2.1. Phân tích so sánh các phương pháp hiện có cho IDS
tiếp cận dựa trên quy tắc với nhiều bộ phân loại cây. Hiệu suất của phương
pháp đề xuất được đánh giá bằng bộ dữ liệu UNSW_NB-15 với 22 đặc trưng Việc thiết kế và phát triển công việc nghiên cứu đã được thảo luận để phát
được rút ra bằng kỹ thuật IG. Hơn nữa, kết quả phân tích được trình bày về hiện và phân loại xâm nhập bằng cách sử dụng kỹ thuật tính năng là rất đáng
độ chính xác, -điểm số và FAR. khích lệ. Tuy nhiên, các IDS khác nhau đã được thiết kế bằng cách sử dụng các
Lựa chọn tính năng sử dụng RF được áp dụng trong [19], trong đó việc xếp thuật toán học tập và kỹ thuật lựa chọn tính năng khác nhau để thích ứng với
hạng tính năng được thực hiện bằng cách sử dụng mức độ quan trọng của tính chiến lược học tập duy nhất để lựa chọn tính năng cũng như phân loại tấn công [
năng. Ở đây, trong nghiên cứu đề xuất, tầm quan trọng của từng đặc điểm được 26–28]. Tuy nhiên, vẫn còn tồn tại những lỗ hổng nghiên cứu với các cơ chế học
tính toán và các đặc điểm được xếp hạng dựa trên giá trị tầm quan trọng của đặc tập khác nhau để phát hiện và phân loại xâm nhập, chẳng hạn như,
điểm của chúng. Điều này ngụ ý rằng tính năng có thứ hạng cao nhất có thể được
coi là tính năng quan trọng nhất để phát hiện và phân loại xâm nhập. Để dự đoán • Phần lớn công việc nghiên cứu đã thiết kế IDS dựa trên các kỹ thuật lựa
và phân loại, nhiều kỹ thuật phân loại khác nhau đã được triển khai, cụ thể là, chọn tính năng hiện có bằng cách sử dụng các công cụ trực quan hóa như
-Hàng xom gần nhất ( NN), DT, Công cụ ước tính tổng hợp đóng bao (BME), XG- WeKa [14,17].
Boost và RF. Hiệu suất của phương pháp đề xuất được đánh giá bằng cách sử • Các kỹ thuật hiện có được thiết kế để phát hiện và phân loại xâm nhập
dụng bộ dữ liệu UNSW_NB-15 với tập hợp con tính năng giảm bao gồm 11 tính bằng kỹ thuật lựa chọn tính năng đã được phân tích và so sánh bằng
năng. Hơn nữa, kết quả phân tích được trình bày về độ chính xác và -điểm. cách sử dụng các bộ dữ liệu lỗi thời thiếu kịch bản thử nghiệm.

Một IDS hai tầng tổng hợp được thiết kế theo [20], trong đó, kỹ thuật lựa
Do đó, có phạm vi để phát triển một kỹ thuật nâng cao để phát hiện và
chọn tính năng kết hợp được triển khai cùng với phân loại dựa trên biểu
phân loại xâm nhập. Do đó, chúng tôi mong muốn thiết kế một phương
quyết đa số. Ở đây, theo phương pháp đề xuất, các tính năng được chọn
pháp lựa chọn tính năng mới cho IDS dựa trên DNN sử dụng sự kết hợp tầm
bằng kỹ thuật lai được thiết kế bằng cách sử dụng PSO, GA và Tối ưu hóa
quan trọng thống kê bắt nguồn từ độ lệch chuẩn và chênh lệch tuyệt đối của
đàn kiến (ACO). Hơn nữa, để phân loại, phân loại rừng luân phiên và đóng
giá trị trung bình và trung vị để chọn các tính năng có liên quan và đóng góp
bao được áp dụng và dự đoán được tạo bằng kỹ thuật bỏ phiếu đa số. Hiệu
cho quá trình dự đoán và phân loại. Việc áp dụng tầm quan trọng thống kê
suất của phương pháp đề xuất được đánh giá bằng cách sử dụng bộ dữ liệu
để chọn các tính năng có hiệu quả vì nó lấy được các tính năng dựa trên lý
KDD CUP 99 với tập hợp con tính năng rút gọn bao gồm 19 tính năng. Hơn
luận thống kê, giúp nâng cao hiệu suất của IDS dựa trên DNN được thiết kế
nữa, hiệu suất của phương pháp đề xuất được xác thực bằng kỹ thuật xác
với khả năng phân biệt và độ lệch của tính năng. Vì vậy, những điểm mới
thực chéo 10 lần và phân tích kết quả được trình bày dưới dạng độ chính
trong công việc đề xuất của chúng tôi có thể được tóm tắt như sau.
xác, độ chính xác, khả năng thu hồi và FAR.

Mô hình phân loại xâm nhập hai giai đoạn được thiết kế bằng cách sử • Một kỹ thuật lựa chọn tính năng mới dựa trên sự kết hợp tầm quan
dụng bộ phân loại RF trong [21]. Ở đây, trong phương pháp đề xuất, IG được trọng thống kê của các tính năng được đề xuất để phát hiện và phân
áp dụng làm kỹ thuật lựa chọn đặc trưng. Trong giai đoạn đầu tiên, việc phát loại xâm nhập.
hiện lớp thiểu số được thực hiện và trong giai đoạn thứ hai, lớp đa số được • Phân tích dựa trên thử nghiệm về các kỹ thuật lựa chọn tính năng mới được thực
phát hiện. Dự đoán từ mỗi giai đoạn được kết hợp để tạo ra kết quả phân hiện bằng cách sử dụng các bộ dữ liệu và bộ dữ liệu gần đây được sử dụng trong
loại. Hiệu suất của phương pháp đề xuất được đánh giá bằng bộ dữ liệu tài liệu, cụ thể là NSL-KDD, UNSW_NB-15 và CIC-IDS-2017.
UNSW_NB-15 và kết quả được trình bày dưới dạng độ chính xác và FAR. • Chúng tôi đã trình bày phân tích so sánh kỹ thuật lựa chọn tính
năng được đề xuất với các kỹ thuật lựa chọn tính năng hiện có.
IDS hai giai đoạn dựa trên RepTree được đề xuất trong [22], trong
đó IG được sử dụng làm kỹ thuật lựa chọn tính năng. Ở đây, trong giai
3. Đề xuất kỹ thuật lựa chọn đặc điểm để phát hiện và phân loại
đoạn đầu, tập dữ liệu cơ bản được chia thành ba loại dựa trên loại giao
xâm nhập
thức và hơn nữa, việc phân loại ở giai đoạn thứ hai được thực hiện.
Hiệu suất của phương pháp đề xuất được đánh giá bằng cách sử dụng
bộ dữ liệu UNSW_NB-15 với bộ tính năng rút gọn bao gồm 20 tính năng Để phát hiện và phân loại xâm nhập, các kỹ thuật lựa chọn tính năng
và kết quả được trình bày dưới dạng độ chính xác. Một kỹ thuật gia khác nhau được áp dụng được phân loại thành ba loại, đó là kỹ thuật lựa
tăng bao gồm thuật toán Extreme Learning Machine (IELM) và Thành chọn tính năng dựa trên bộ lọc, kỹ thuật lựa chọn tính năng dựa trên trình
phần chính nâng cao (APCA) được đề xuất trong [23] để phát hiện và bao bọc và kỹ thuật lựa chọn tính năng nhúng [29]. Trong kỹ thuật lựa chọn
phân loại xâm nhập. Ở đây, trong phương pháp đề xuất, ELM được áp tính năng dựa trên bộ lọc, tập hợp con tính năng rút gọn được lấy dựa trên
dụng để phân loại và APCA được áp dụng để lựa chọn tính năng thích các tiêu chí liên quan nhất định xác định tầm quan trọng của các tính năng
ứng. Hiệu suất của phương pháp đề xuất được đánh giá bằng bộ dữ liên quan đến việc học và phân loại [30]. Do đó, trong kỹ thuật lựa chọn đối
liệu UNSW_NB-15 và kết quả được trình bày dưới dạng độ chính xác, DR tượng dựa trên bộ lọc, điểm liên quan được rút ra và các đối tượng được lọc
và FAR. dựa trên điểm được tính toán [30]. Trong kỹ thuật lựa chọn tính năng dựa
Hệ thống phát hiện và phân loại xâm nhập được thiết kế trong [25] sử trên trình bao bọc, thuật toán phân loại được xem xét và dựa trên kiến thức
dụng bộ phân loại NB và MLP. Ở đây, theo cách tiếp cận được đề xuất, kỹ được xây dựng để rút ra tập hợp con tính năng cho việc học và phân loại [31
thuật lựa chọn đối tượng kết hợp được áp dụng bao gồm ba kỹ thuật lựa ]. Cơ sở tri thức về các đặc điểm cho thấy tầm quan trọng của các đặc điểm ở
chọn đối tượng là IG, GR và ReliefF. Hiệu suất của phương pháp đề xuất dạng tinh tế dựa trên thuật toán phân loại cơ bản. Việc lựa chọn tính năng
được đánh giá bằng bộ dữ liệu KDD CUP 99 và phân tích kết quả được trình sử dụng các kỹ thuật dựa trên trình bao bọc được thực hiện bằng các quy tắc
bày dưới dạng độ chính xác và FAR. Một khung tổng hợp cùng với lựa chọn và điều kiện được xác định trước. Tuy nhiên, hiệu suất của kỹ thuật lựa chọn
tính năng được thiết kế trong [24] để phát hiện và phân loại xâm nhập. Ở tính năng dựa trên trình bao bọc phụ thuộc vào loại thuật toán phân loại
đây, trong phương pháp đề xuất, GR được áp dụng để lựa chọn các đặc được sử dụng [31]. Kỹ thuật lựa chọn tính năng nhúng được thực hiện bằng
trưng quan trọng cho việc học và phân loại Bagging được áp dụng để phân cách kết hợp hai giai đoạn là giai đoạn học và giai đoạn lựa chọn tính năng [
loại. Đánh giá hiệu suất của phương pháp đề xuất được thực hiện bằng cách 32]. Điều này ngụ ý rằng kỹ thuật nhúng sử dụng việc chọn các tính năng
sử dụng bộ dữ liệu NSL-KDD và kết quả được trình bày dưới dạng độ chính riêng biệt theo hai giai đoạn, trong đó kết quả của giai đoạn học tập được sử
xác phân loại và FAR. Tóm tắt so sánh các phương pháp ML hiện có cho IDS dụng để thêm hoặc xóa các tính năng trong giai đoạn lựa chọn tính năng [32
được trình bày trong BảngBảng 1. ].

355
A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Bảng 1
Tóm tắt so sánh các phương pháp Học máy (ML) hiện có cho IDS.
Tham chiếu Kỹ thuật Lựa chọn tính năng Tập dữ liệu Kết quả

[16] DT CFS NSL-KDD ⋅ Độ chính xác cho NSL-KDD: 90,30%


[15] LS-SVM FMI Kyoto 2006, KDD ⋅ DR cho KDD CUP 99: 99,46%
CUP 99, và ⋅ DR cho NSL-KDD: 98,76%
NSL-KDD ⋅ DR cho Kyoto 2006: 99,64%
[17] RF Trình đánh giá thuộc tính, KDD CÚP 99, Phân tích so sánh được trình bày dưới
tham lam từng bước, IG, UNSW_NB-15 dạng đồ họa cho kỹ thuật lựa chọn tính
và người xếp hạng năng được xem xét.

[22] cây đại diện IG NSL-KDD, ⋅ Độ chính xác cho NSL-KDD: 89,85%
UNSW_NB-15 ⋅ Độ chính xác cho UNSW_NB-15: 88,95%
[14] DT GA KDD CÚP 99, ⋅ DR cho KDD CUP 99: 99,90%
UNSW_NB-15 ⋅ DR cho UNSW_NB-15: 81,24%
[19] kNN, DT, BME, Tầm quan trọng của tính năng UNSW_NB-15 ⋅ Độ chính xác cho kNN: 71,01% Độ
XGBoost và RF chính xác cho DT: 74,22% Độ chính xác
cho BME: 74,64% Độ chính xác cho
XGBoost: 71,43% Độ chính xác cho RF:
74,87%

[21] RF IG UNSW_NB-15 ⋅ Độ chính xác cho UNSW_NB-15: 85,78%


[24] Máy phân loại đóng bao GR NSL-KDD Độ chính xác cho NSL-KDD: 84,25%

[23] IELM APCA NSL-KDD, ⋅ Độ chính xác cho NSL-KDD: 81,22%


UNSW_NB-15 ⋅ Độ chính xác cho UNSW_NB-15: 70,51%
[20] Rừng luân canh và PSO, ACO và GA KDD CÚP 99 ⋅ Độ chính xác cho KDD CUP 99: 72,52%
Máy phân loại đóng bao

[25] NB, MLP Tính năng kết hợp KDD CÚP 99 ⋅ Độ chính xác cho NB: 93,00%
kỹ thuật lựa chọn ⋅ Độ chính xác cho MLP: 97,00%

[18] Nhiều dựa trên quy tắc IG UNSW_NB-15 ⋅ Độ chính xác cho UNSW_NB-15: 84,83%
phân loại cây

3.1. Mối liên hệ giữa phân loại xâm nhập và lựa chọn tính năng hiệu quả. Việc lựa chọn các đặc điểm liên quan đóng một vai trò quan trọng
trong việc lấy được thông tin thích hợp từ một số lượng lớn mẫu dữ liệu. Lựa
Bộ dữ liệu phát hiện xâm nhập được phát triển bằng cách đánh hơi các chọn tính năng là một trong những phương pháp quan trọng hướng tới việc
gói mạng truyền qua môi trường mạng bằng nhiều công cụ mạng khác nhau chọn các tính năng từ tập dữ liệu cơ bản có thể đóng góp tốt hơn trong việc
như Wireshark và Nmap [26]. Các gói mạng đã bắt được được tích lũy dưới nâng cao khả năng dự đoán cho vấn đề phân loại nhất định. Do đó, lựa chọn
dạng các tệp mạng thô như tệp pcap hoặc tệp tcpdump. Các tệp này bao tính năng có thể được mô tả là chiến lược lựa chọn được áp dụng để loại bỏ
gồm nhiều chi tiết khác nhau liên quan đến giao tiếp mạng được trích xuất các tính năng không liên quan và dư thừa để thể hiện dữ liệu tốt hơn.
từ tiêu đề gói mạng và tải trọng gói mạng. Các chi tiết liên quan đến giao
tiếp mạng từ lưu lượng truy cập mạng được ghi lại đóng vai trò là các tính Trong nghiên cứu của chúng tôi, một kỹ thuật lựa chọn tính năng dựa
năng mạng cho IDS được thiết kế. Hệ thống phát hiện và phân loại xâm trên bộ lọc mới được thiết kế để rút ra các tính năng có liên quan từ tập dữ
nhập kiểm tra các hoạt động mạng và phân tích dữ liệu để kiểm tra xem liệu phát hiện xâm nhập có thể đóng góp nhiều hơn cho quá trình học tập và
luồng dữ liệu được phân tích là lưu lượng mạng bất thường hay lưu lượng phân loại. Do đó, với mục đích nâng cao hiệu suất của IDS dựa trên DNN,
mạng bình thường [32]. IDS phân tích dữ liệu để kiểm tra xem tính bảo mật, một kỹ thuật lựa chọn tính năng mới và rõ ràng có tên là Lựa chọn tính năng
tính toàn vẹn hoặc tính khả dụng của hệ thống có bị xâm phạm hay không. thông qua độ lệch chuẩn và sự khác biệt của giá trị trung bình và trung bình
Trong khi thiết kế IDS, nhiều khía cạnh khác nhau được xem xét như giám được đề xuất trong nghiên cứu của chúng tôi. Kỹ thuật lựa chọn tính năng
sát mạng, thu thập dữ liệu, phân tích thống kê dữ liệu được thu thập, phát được đề xuất tạo ra tập hợp con tính năng giảm có độ rõ ràng và độ lệch
hiện xâm nhập, đe dọa quản trị viên bảo mật về một sự kiện xâm nhập và cao. Việc áp dụng độ lệch chuẩn, giá trị trung bình và trung vị có hiệu quả
phản hồi các hành vi xâm nhập [số 8]. trong việc rút ra các đặc điểm vì các biện pháp này thực hiện lý luận định
lượng và thống kê để rút ra các đặc điểm liên quan để phát hiện và phân loại
Trong tài liệu, nhiều nhà nghiên cứu đã thiết kế các phương pháp lai xâm nhập [33]. Sự hợp nhất tầm quan trọng thống kê bằng cách sử dụng các
bằng cách kết hợp các kỹ thuật lựa chọn đặc điểm với kỹ thuật phân loại biện pháp thống kê nhằm mục đích cải thiện hiệu suất dự đoán và phân loại
[26]. Đáng chú ý là kỹ thuật lựa chọn tính năng được kết hợp để nâng thông qua so sánh định lượng và mô tả [33]. Chiến lược khái niệm hóa các kỹ
cao hiệu suất của IDS được thiết kế. Tuy nhiên, sự kết hợp giữa lựa thuật lựa chọn tính năng được đề xuất được trình bày trongHình 2.
chọn tính năng và phát hiện xâm nhập sẽ tập trung vào việc tăng độ
chính xác phân loại với số lượng kết quả dương tính giả giảm đi. Do đó,
IDS được thiết kế yêu cầu kỹ thuật lựa chọn tính năng hiệu quả có khả 3.3. Độ lệch chuẩn
năng trích xuất các tính năng quan trọng từ tập dữ liệu cơ bản. Do đó,
kỹ thuật lựa chọn đặc trưng được đề xuất nhằm mục đích lựa chọn các Độ lệch chuẩn của các đặc điểm có thể được mô tả như một thước đo thống kê
đặc trưng bằng cách xem xét các đặc tính thống kê của các đặc trưng. để đo mức độ biến thiên hoặc độ lệch của các đặc điểm so với giá trị trung bình [34
]. Độ lệch chuẩn có thể được tính bằng phương trình.(1)[34].


3.2. Khái niệm hóa kỹ thuật lựa chọn tính năng được đề xuất ∑
( − )2
= (1)
Ngày nay, lượng lưu lượng mạng khổng lồ được tạo ra từ nhiều tài nguyên
mạng khác nhau. Các tính năng từ luồng lưu lượng truy cập mạng được nghiên Ở đây, trong phương trình.(1), đại diện cho độ lệch chuẩn, là tổng số
cứu để tìm ra các mẫu lưu lượng truy cập mạng bình thường và bất thường. Tuy mẫu, đại diện cho từng giá trị từ tính năng cơ bản và đại diện cho ý
nhiên, dữ liệu lưu lượng mạng cần được kiểm tra một cách chính xác và nghĩa của tính năng cơ bản.

356
A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Hình 2.Chiến lược khái niệm hóa của kỹ thuật lựa chọn tính năng được đề xuất.

Việc giải thích độ lệch chuẩn cho thấy giá trị độ lệch chuẩn cao cho • Tính độ lệch chuẩn ( ) của các tính năng của tập dữ liệu.
biết đặc điểm đó bị phân tán trên phạm vi giá trị lớn và giá trị độ lệch • Xếp hạng các đặc điểm dựa trên giá trị độ lệch chuẩn từ cao xuống
chuẩn thấp cho biết các giá trị đặc điểm nằm gần nhau so với giá trị thấp. Chỉ định thứ hạng xuất phát bằng độ lệch chuẩn ( ) BẰNG 1.

trung bình [33]. Do đó, lựa chọn tính năng sử dụng độ lệch chuẩn sẽ • Tính chênh lệch tuyệt đối ( ) của giá trị trung bình và trung vị của các đặc
chọn các tính năng có giá trị độ lệch chuẩn cao vì khi giá trị tính năng điểm của tập dữ liệu.
được mở rộng trên phạm vi lớn, có thể đạt được kết quả dự đoán hiệu • Xếp hạng các đặc điểm dựa trên giá trị khác biệt từ cao xuống thấp. Chỉ định thứ
quả. Hơn nữa, độ lệch chuẩn thể hiện khả năng phân biệt của các đặc hạng xuất phát bằng cách sử dụng chênh lệch ( ) BẰNG 2.

điểm và do đó, độ lệch chuẩn của một đặc điểm thể hiện sự khác biệt • Tính thứ hạng tính năng kết hợp dưới dạng Xếp hạng tính năng kết
của nó trên tất cả các mẫu. Điều này ngụ ý rằng giá trị độ lệch chuẩn hợp = 1+ 2.
cao cho thấy nhiều điểm khác biệt hơn của tính năng này trên tất cả các • Thêm đệ quy các tính năng vào tập hợp con tính năng dựa trên thứ hạng tính
mẫu [33]. năng kết hợp cho đến khi độ chính xác không tốt hơn tập hợp con tính năng dẫn
xuất trước đó.
3.4. Trung bình và trung vị
Thuật toán lựa chọn đặc trưng đệ quy sử dụng kỹ thuật đề xuất được trình bày
trong phần Thuật toán1. Tập hợp con tính năng dẫn xuất được cung cấp đầu vào
Giá trị trung bình và Trung vị có thể được định nghĩa là các thước đo
cho mô hình DNN để đào tạo và phân loại.
thống kê mô tả được sử dụng để mô tả đặc điểm phân bổ dữ liệu [35]. Hơn
nữa, các biện pháp thống kê này thể hiện mức độ sai lệch tương đối trong
phân bổ dữ liệu [35]. Để lựa chọn tính năng, chúng tôi đã sử dụng giá trị
tuyệt đối của chênh lệch giữa giá trị trung bình và trung vị để rút ra các tính
4. Phương pháp thực nghiệm
năng có liên quan từ tập dữ liệu, được biểu thị bằng biểu thức.(2).
Công việc đề xuất triển khai DNN để phát hiện và phân loại xâm
=| − | (2) nhập. Kiến trúc DNN là cấu trúc mạng thần kinh nhiều lớp, thực hiện
các phép biến đổi toán học trên dữ liệu đầu vào để rút ra và học các
Ở đây, trong phương trình.(2), đại diện cho giá trị tuyệt đối của sự khác biệt giữa
mẫu để dự đoán và phân loại [36]. Các
giá trị trung bình và trung vị cho mộtn tính năng. TÔI giải thích sự khác biệt của
Phương pháp thực nghiệm của phương pháp đề xuất bao gồm nhiều phương pháp khác nhau
Giá trị trung bình và trung vị cho thấy giá trị chênh lệch cao biểu thị độ lệch
các giai đoạn như quyết định các bộ dữ liệu phát hiện xâm nhập cần
trên một phạm vi giá trị lớn và do đó, các đặc điểm có giá trị chênh lệch cao thiết để đánh giá hiệu suất, xử lý trước dữ liệu để chuyển đổi dữ liệu để
có thể được chọn làm các đặc điểm liên quan từ tập dữ liệu để dự đoán và dễ thử nghiệm, lựa chọn tính năng thành tập hợp con tính năng rút
phân loại hiệu quả quá trình [34]. gọn để học, đào tạo DNN với tập hợp con tính năng rút gọn và
đánh giá hiệu suất. Sơ đồ của phương pháp đề xuất được thể hiện
3.5. Quy trình lựa chọn tính năng để phát hiện và phân loại xâm nhập trongHình 3.

Các kết quả o fea sự lựa chọnquá trình xử lý là một tập hợp của rcao cấp đặc trưng 4. 1. Cơ sở dữ liệu t mô tả sự
có liên quan chặt chẽ với nhãn đầu ra của lớp và đóng góp nhiều hơn
hướng tới các mô hình học tập từ dữ liệu. Để qu chống lại csự đóng góp của Một Hiệu suất của phương pháp đề xuất được đánh giá bằng cách sử dụng ba
tính năng đã cho trong cquá trình phân loại, chúng tôi giới thiệu c xếp hạng tính năng kết sự xâm nhập bộ dữ liệu phát hiện, cụ thể là NSL-KDD, UNSW_NB-15 và CIC-
hợp lạiquà tặng em sự coi thườngcủa một kỳ tích res. Xếp hạng tính năng kết hợp là com IDS-2017. Những bộ dữ liệu này bao gồm nhiều tính năng mạng và
đặt cơ sở ed đã chạy ks bắt nguồn sử dụng sự kết hợp của đã được d được phát triển trong các môi trường mạng khác nhau [số 8].
độ lệch một d khác nhau ý nghĩa của nó và y học tiêu chuẩn an. Từ mô tả của qua , những dữ liệu này Moreasets bao gồm mạng thực tế cũng như mạng tổng hợp
độ lệch chuẩn và sự khác biệt của giá trị trung bình và trung vị được tiết lộ rằng giao thông. Do đó, hiệu suất của phương pháp đề xuất có thể
các tính năng có giá trị cao nhất có khả năng nhận biết mạnh mẽ và độ dư ủng hộ một cách chính đáng việc sử dụng lưu lượng truy cập mạng đa dạng từ ba bộ dữ
thừa tối thiểu. Do đó, quá trình lựa chọn tính năng được mô tả như sau. liệu khác nhau. Một mô tả ngắn gọn về mỗi tập dữ liệu như sau.

357
A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Hình 3.Sơ đồ phương pháp đề xuất.

Thuật toán 1Lựa chọn tính năng đệ quy bằng cách sử dụng sự kết hợp của độ lệch chuẩn một tập dữ liệu huấn luyện và kiểm tra riêng biệt với 175.341 và
và sự khác biệt tuyệt đối của giá trị trung bình và trung vị 82.332 mẫu dữ liệu tương ứng có trong tập dữ liệu UNSW_NB-15 [39].
1: Xem xét tập dữ liệu để phát hiện và phân loại xâm nhập • Bộ dữ liệu CIC-IDS-2017: Đây là một trong những bộ dữ liệu phát hiện
= {NSL-KDD, UNSW_NB-15, CIC-IDS-2017}. xâm nhập lớn nhất và gần đây nhất được phát triển bằng cách đánh
2: Về đặc điểm của tập dữ liệu , tính độ lệch chuẩn cho mỗi hơi các gói mạng thời gian thực chạy qua mạng [40]. Bộ dữ liệu phát
tính năng sử dụng phương trình(1). hiện xâm nhập được thiết kế bao gồm nhiều dịch vụ mạng, giao thức
3: Sắp xếp các đặc điểm từ cao xuống thấp dựa trên độ lệch chuẩn của chúng và danh mục tấn công hiện đại. Bộ dữ liệu bao gồm các mẫu dữ liệu
và xếp hạng chúng. Hãy coi thứ hạng được chỉ định là 1. được thu thập trong khoảng thời gian năm ngày. Hơn nữa, tập dữ liệu
4: Về đặc điểm của tập dữ liệu , tính giá trị tuyệt đối của chênh lệch được thiết kế bao gồm nhiều tính năng mạng đặc biệt được trích xuất
giữa giá trị trung bình và trung vị của từng đặc điểm bằng phương trình(2). 5: bằng công cụ CICFlowMeter [41].
Sắp xếp đặc điểm từ cao xuống thấp dựa trên giá trị tuyệt đối của
khác biệt và xếp hạng chúng. Hãy coi thứ hạng được chỉ định là 2. 6: Thống kê các bộ dữ liệu phát hiện xâm nhập được sử dụng để thử nghiệm được
Tính thứ hạng tính năng kết hợp bằng cách tính tổng 1Và 2. 7: Đối với trình bày trongban 2.
từng tính năng ∈ của tập dữ liệu LÀM,
8: Loại bỏ tính năng xếp hạng cao nhất từ F và cập nhật BẰNG = 4.2. Xử lý trước dữ liệu
∪ .
9: Huấn luyện mô hình DNN trên tập huấn luyện với đặc điểm và tính toán Các kỹ thuật tiền xử lý dữ liệu được áp dụng để dễ dàng thử nghiệm
độ chính xác của mô hình. nhằm chuyển đổi dữ liệu để xử lý và học tập suôn sẻ [36]. Trong công việc đề
10: Lặp lại các bước [8-9], đối với các tính năng cho đến khi độ chính xác tăng lên xuất, hai kỹ thuật tiền xử lý dữ liệu được áp dụng, đó là mã hóa đặc trưng và
được ghi lại nhiều hơn độ chính xác tính toán trước đó. chuẩn hóa đặc trưng. Mã hóa tính năng được thực hiện để chuyển đổi các
11: Lưu trữ các tính năng liên quan dẫn xuất trong tập hợp con cho Tập dữ liệu . tính năng phân loại thành các tính năng số [4]. Bộ dữ liệu phát hiện xâm
12: Sử dụng tập hợp con tính năng để đào tạo IDS dựa trên DNN cho tập dữ liệu nhập được sử dụng để thử nghiệm bao gồm các tính năng được phân loại
. như cờ, loại dịch vụ và loại giao thức. Các đặc điểm phân loại được chuyển
đổi thành các đặc điểm số bằng cách áp dụng kỹ thuật mã hóa one-hot. Mã
hóa một lần là một trong những kỹ thuật mã hóa đặc trưng phổ biến được
áp dụng để số hóa các đặc trưng phân loại [4]. Hơn nữa, sau khi mã hóa tính
• NSL-KD D Bộ dữ liệu: Đây là bộ dữ liệu phát hiện xâm nhập đã năng, quá trình chuẩn hóa tính năng được thực hiện vì các bộ dữ liệu có thể
được phát triển bằng cách loại bỏ các mẫu bị thiếu và trùng lặp bao gồm các tính năng
từ KDD CU Tập dữ liệu P 99 [37]. Nó bao gồmkhác nhau t loại có độ sáng khác nhau nâng cao và quy mô của các giá trị. Do đó, đối với đối tượng
của mạng f các món ăn cũng như mẫu cho lưu bốn tấn công k danh mục tiêu chuẩn bình thường hóa thứ 2, kỹ thuật vô hướng được áp dụng để chuẩn hóa g giá trị

và bình thường lượng mạng [38]. Kiểm tra Moreov er, một cái đĩa tôiđào tạo nct tính năng bằng phép trừ trung bình và chia tỷ lệ các giá trị đối tượng thành đơn vị
phương sai.
tập dữ liệu và tập dữ liệu với125.973 và có mặt 22.544 ngày mẫu ata,
tương ứng, trong tập dữ liệu NSL-KDD [38].
4.3. Lựa chọn tính năng
• LHQSW_ NB-15 Bộ dữ liệu: Đây là một thiết bị phát hiện xâm nhập dữ liệu phản hồi tài sản có
được phát triển bằng công cụ IXIA Perfect Storm để ghi lại các gói mạng
Quá trình lựa chọn tính năng được thực hiện để tạo ra tập hợp con tính
đang chạy trong nền tảng thử nghiệm mạng được thiết kế [39]. Tập dữ liệu
năng rút gọn bao gồm các tính năng có liên quan và đóng góp từ tập dữ liệu
được phát triển với lưu lượng mạng mô tả các lỗ hổng bảo mật và các hoạt phát hiện xâm nhập được xem xét. Các tính năng được chọn bằng kỹ thuật
động khai thác cùng với lưu lượng mạng thông thường. Các tính năng lựa chọn tính năng được đề xuất được mô tả trong Phần3. Kỹ thuật lựa chọn
mạng của tập dữ liệu được thiết kế được trích xuất bằng các công cụ phần tính năng được đề xuất được áp dụng trên các bộ dữ liệu phát hiện xâm
mềm, cụ thể là Argus và Bro-IDS [39]. Hơn thế nữa, nhập, cụ thể là NSL-KDD, UNSW_NB-15 và CIC-IDS-2017. Ứng dụng đề xuất

358
A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

ban 2
Thống kê các tập dữ liệu thực nghiệm [số 8].
Tiêu chuẩn (↓)/Tập dữ liệu (→) NSL-KDD UNSW_NB-15 CIC-IDS-2017
Loại lưu lượng mạng Số Thực & Tổng hợp Tổng hợp Thực tế

lượng tính năng 41 42 79


Số loại tấn công Số lớp 4 9 7
5 10 15
Số mẫu dữ liệu Số mẫu trong tập 148 517 257 673 225 745
huấn luyện Số mẫu trong tập kiểm 125 973 175 341 165 730
tra 22 544 82 332 60 015

bàn số 3
Chi tiết cấu hình và kiến trúc mạng thần kinh [4].
Tiêu chuẩn Giá trị
Người mẫu tuần tự
Số lớp ẩn [4] 3
Kích thước đầu vào NSL-KDD: 21, UNSW_NB: 21,
CIC-IDS-2017: 64
Số lượng tế bào thần kinh trong các lớp 1024, 768, 512
ẩn [4] Chức năng kích hoạt cho lớp ẩn [4] ReLU
Chức năng kích hoạt cho lớp đầu ra [4] sigmoid
Kỹ thuật bỏ học Tỷ lệ bỏ học tiêu chuẩn (p = 0,1)
(Có nguồn gốc từ GridSearchCV)

Kích thước lô [4] 1024


Kỷ nguyên [4] 300

Kỹ thuật lựa chọn tính năng dẫn đến việc giảm số lượng tính năng của 21 tính
năng trong số 41 tính năng cho tập dữ liệu NSL-KDD, 21 tính năng trong số 42 tính
năng cho tập dữ liệu UNSW_NB-15 và 64 tính năng trong số 79 tính năng cho tập Hình 4.Mạng lưới thần kinh sâu.
dữ liệu CIC-IDS-2017. Tập hợp con tính năng rút gọn được cung cấp đầu vào cho
mô hình DNN để học và dự đoán.

4.4. Mạng lưới thần kinh sâu để phát hiện và phân loại xâm nhập
= (7)
+
Kiến trúc DNN nhiều lớp được thiết kế để phát hiện và phân loại xâm
nhập. Kiến trúc DNN được thiết kế bao gồm một lớp đầu vào có kích thước Ở đây, trong các phương trình.(3)–(7), , , , Và tương ứng là dương
đầu vào bằng số lượng tính năng có được bằng cách sử dụng lựa chọn tính tính thực, âm tính thực, dương tính giả và âm tính giả [26].
năng, ba lớp ẩn dày đặc được kết nối đầy đủ với số lượng nơ-ron khác nhau
để chuyển đổi và học tập dữ liệu và một lớp đầu ra có một nơ-ron để phân 5. Phân tích kết quả
loại nhị phân. . Cấu trúc phân lớp phức tạp của các nơ-ron học các mẫu bằng
cách thể hiện quá trình học tập từ đầu đến cuối và thực hiện dự đoán cho Các thử nghiệm đánh giá phương pháp đề xuất được thực hiện trên bộ
mẫu đầu vào nhất định. Với mỗi lớp được kết nối đầy đủ, chức năng kích xử lý CPU Intel(R) Core(TM) i5-8265U với hệ điều hành Windows 10 64-bit và
hoạt ReLU được sử dụng để tăng cường hiệu quả của quá trình học tập [5]. RAM 8,00 GB sử dụng Python. Các thử nghiệm được thực hiện trên các bộ
Hơn nữa, sau mỗi lớp dày đặc, một lớp bỏ học được kết hợp để đạt được sự dữ liệu phát hiện xâm nhập được xử lý trước, cụ thể là NSL-KDD,
khái quát hóa và tránh sự đồng thích ứng trong mạng lưới thần kinh [42]. UNSW_NB-15 và CIC-IDS-2017 với tập hợp con tính năng được rút gọn bằng
Đối với lớp đầu ra, hàm kích hoạt Sigmoid được sử dụng để dự đoán nhãn kỹ thuật lựa chọn tính năng được đề xuất. Các thí nghiệm được thực hiện
đầu ra của lớp. Hơn nữa, hiệu suất của cấu trúc DNN được đánh giá bằng trong mười lần chạy và kết quả đạt được được tính trung bình. Để phân tích
cách áp dụng hàm mất entropy chéo nhị phân. Cấu trúc của DNN được trình hiệu suất, chúng tôi đã so sánh kỹ thuật lựa chọn tính năng được đề xuất
bày trongHình 4và chi tiết cấu hình của nó được trình bày trongbàn số 3. của chúng tôi với các kỹ thuật lựa chọn tính năng hiện có được mô tả như
sau.

4.5. Đánh giá hiệu suất • Loại bỏ tính năng đệ quy (RFE): Trong RFE, lựa chọn tính năng được thực
hiện bằng cách loại bỏ đệ quy các tính năng dựa trên tầm quan trọng của
Hiệu suất của phương pháp đề xuất được trình bày bằng cách sử dụng các số tính năng và lấy ra một tập hợp con tính năng bao gồm các tính năng có liên
liệu đánh giá khác nhau bắt nguồn từ ma trận nhầm lẫn, cụ thể là độ chính xác, độ quan với điểm quan trọng tính năng vượt trội [12].
chính xác, thu hồi, -điểm số và FPR [26]. Các số liệu đánh giá được thể hiện bằng • Chi-Square: Trong kỹ thuật lựa chọn tính năng Chi-Square, tập hợp con tính
các phương trình.(3)–(7). năng giảm được bắt nguồn bằng cách thực hiện kiểm tra thống kê chi bình

+ phương để đo lường sự phụ thuộc giữa các tính năng [12].


= (3) • Lựa chọn tính năng dựa trên tương quan (CFS): Kỹ thuật CFS dựa trên
+ + +
giả thuyết rằng một tập hợp con tính năng tốt bao gồm các tính năng
= (4) có mối tương quan chặt chẽ với lớp mục tiêu và có mối tương quan
+ thấp với nhau [43]. Do đó, các tính năng trong CFS được chọn dựa trên
điểm hệ số tương quan được tính toán của chúng.
= (5) • Thuật toán di truyền: Trong kỹ thuật lựa chọn tính năng dựa trên thuật toán di
+
truyền, tính năng được chọn dựa trên các giá trị thích hợp của chúng được tính
2∗ ∗
− = (6) toán bằng hàm thích nghi xác định. TRONG [44], chức năng thể dục
+

359
A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Bảng 4
Kết quả cho Bộ dữ liệu NSL-KDD.
Lựa chọn tính năng kỹ thuật Số tính năng được chọn Sự chính xác Độ chính xác Nhớ lại điểm f FPR Thời gian thực hiện (s)

DNN Loại bỏ tính năng đệ quy (RFE) [12] 13 98,94 99,39 98,75 99,33 0,012 32 519.045
DNN Chi-Square [12] 13 98,92 99,92 98,73 99,32 0,012 31 613.115
DNN Lựa chọn tính năng dựa trên tương quan (CFS) [43] 30 92,65 99,59 91,24 95,23 0,082 25 915.630
DNN Thuật toán di truyền [44] 23 94,90 95,10 94:30 94,70 0,094 35 569.016
DNN Thông tin lẫn nhau 13 98,89 99,90 98,70 99,30 0,0291 33 033.130
DNN Cứu trợ-f 20 81,94 81,91 98,46 89,42 0,0530 36 045.110
DNN Rừng ngẫu nhiên 16 98,88 99,89 98,71 99,30 0,0210 34 761.620
DNN Kỹ thuật lựa chọn tính năng được đề xuất 21 99,84 99,94 98,81 99,37 0,011 22318.015

Lưu ý: Giá trị in đậm biểu thị hiệu suất tốt nhất cho các thử nghiệm được thực hiện đối với tập dữ liệu NSL-KDD.

Bảng 5
Kết quả cho Bộ dữ liệu UNSW_NB-15.
Lựa chọn tính năng kỹ thuật Số tính năng được chọn Sự chính xác Độ chính xác Nhớ lại điểm f FPR Thời gian thực hiện (s)

DNN Loại bỏ tính năng đệ quy (RFE) [12] 13 82,21 78,71 98,86 87,64 0,013 22 314.470
DNN Chi-Square [12] 13 82,41 79,02 98,61 87,73 0,013 21 832.195
DNN Lựa chọn tính năng dựa trên tương quan (CFS) [43] 30 75,34 67,43 98,29 79,99 0,017 21 766.215
DNN Thuật toán di truyền [44] 30 76,70 92,70 95,00 93,83 0,069 25 387.412
DNN Thông tin lẫn nhau 21 76,26 72,87 97,92 83,55 0,077 18 190.205
DNN Cứu trợ-f 13 72,34 73,26 89,09 80,40 0,1090 18 643.650
DNN Rừng ngẫu nhiên 17 82,69 79,37 98,41 87,87 0,0518 18 152.130
DNN Kỹ thuật lựa chọn tính năng được đề xuất 21 89.03 95,00 98,95 96,93 0,011 13913.500

Lưu ý: Giá trị in đậm biểu thị hiệu suất tốt nhất cho các thử nghiệm được thực hiện đối với tập dữ liệu UNSW_NB-15.

được xác định bằng cách sử dụng độ chính xác, -điểm và FPR, được sử dụng để Các số liệu đánh giá độ chính xác và thu hồi minh họa mức độ liên quan và độ
tính toán mức độ phù hợp của các tính năng và hơn nữa, các tính năng có giá trị nhạy của kỹ thuật phân loại cơ bản đối với một vấn đề ứng dụng nhất định. Đối với
mức độ phù hợp cao được chọn để phát hiện và phân loại xâm nhập. phương pháp được đề xuất, sẽ đạt được điểm số đầy hứa hẹn về các số liệu đánh
• Thông tin lẫn nhau: Trong thông tin lẫn nhau, việc lựa chọn tính giá độ chính xác và thu hồi cho cả ba bộ dữ liệu. Đối với tập dữ liệu NSL-KDD, mức
năng được thực hiện bằng cách ước tính sự phụ thuộc giữa các tăng xấp xỉ 0,04%–18% về độ chính xác và 0,06%–7% về khả năng thu hồi được ghi
tính năng. Việc lựa chọn đặc trưng dựa trên quy trình phi tham lại với độ chính xác là 99,94% và mức thu hồi là 98,81% bằng cách sử dụng kỹ
số, cụ thể là ước tính entropy [45]. thuật lựa chọn tính năng được đề xuất. Đối với tập dữ liệu UNSW_NB-15, mức tăng
• Relief-f: Kỹ thuật lựa chọn tính năng này dựa trên các tương tác tính xấp xỉ 3%–28% về độ chính xác và 0,09%–9% về khả năng thu hồi được ghi lại với
năng nhạy cảm, trong đó điểm tính năng được tính cho từng tính
độ chính xác là 95,00% và mức thu hồi là 98,95% bằng cách sử dụng kỹ thuật lựa
năng được xem xét thêm để xếp hạng tính năng. Điểm tính năng có
chọn tính năng được đề xuất. Đối với tập dữ liệu CIC-IDS-2017, mức tăng xấp xỉ
được bằng cách ước tính sự khác biệt về giá trị tính năng giữa các cặp
0,05%–2% về độ chính xác và 0,67%–2% về khả năng thu hồi được ghi lại với độ
phiên bản lân cận gần nhất [45].
chính xác là 99,85% và mức thu hồi là 99,94% bằng cách sử dụng kỹ thuật lựa chọn
• Rừng ngẫu nhiên: Rừng ngẫu nhiên là một trong những kỹ thuật
tính năng được đề xuất.
phân loại phổ biến có khả năng lựa chọn tính năng tiềm ẩn. Trong
rừng ngẫu nhiên, các đặc điểm được chọn dựa trên thước đo độ Thật thú vị khi nghiên cứu hiệu suất của các kỹ thuật phân loại với
tạp chất của chúng, cụ thể là chỉ số Gini. Do đó, trong khi đào tạo tập dữ liệu không cân bằng bằng cách sử dụng -điểm. Điều này là bởi
trình phân loại rừng ngẫu nhiên, có khả năng xác định mức độ vì, -điểm có thể được coi là một trong những thước đo hiệu suất quan
mà mỗi tính năng làm giảm tạp chất. Đặc tính càng làm giảm tạp trọng, là thước đo cân bằng xem xét cả độ chính xác và khả năng thu
chất thì càng có ý nghĩa [46]. hồi. Đối với tập dữ liệu NSL-KDD, 99,37% -giá trị điểm đạt được bằng
cách tiếp cận được đề xuất, cao hơn khoảng 0,07%–10% so với kỹ thuật
Kết quả thử nghiệm NSL-KDD, UNSW_NB-15 và CIC-IDS-2017 được lựa chọn tính năng khác. Đối với tập dữ liệu UNSW_NB-15, 96,93% -giá
trình bày trongBảng 4,5, Và6, tương ứng. Từ kết quả có thể suy ra rằng trị điểm đạt được bằng cách tiếp cận được đề xuất, cao hơn khoảng
kỹ thuật lựa chọn tính năng được đề xuất đã đạt được kết quả tốt hơn 3%–17% so với kỹ thuật lựa chọn tính năng khác. Đối với tập dữ liệu
so với kỹ thuật lựa chọn tính năng hiện có với IDS dựa trên DNN cho cả CIC-IDS-2017, 99,89% -giá trị điểm đạt được bằng cách tiếp cận được đề
ba bộ dữ liệu phát hiện xâm nhập. Đối với tập dữ liệu NSL-KDD, phương
xuất, cao hơn khoảng 0,59%–2% so với kỹ thuật lựa chọn tính năng
pháp đề xuất đạt độ chính xác 99,84% với tập hợp con tính năng rút
khác. Hơn nữa, phương pháp lựa chọn tính năng được đề xuất đã vượt
gọn. Do đó, độ chính xác tăng xấp xỉ 1%–18% được ghi nhận bằng kỹ
trội hơn về FPR tối thiểu cho IDS dựa trên DNN so với các kỹ thuật lựa
thuật lựa chọn tính năng được đề xuất cho IDS dựa trên DNN sử dụng
chọn tính năng khác.
bộ dữ liệu NSL-KDD. Đối với tập dữ liệu UNSW_NB-15, phương pháp đề
xuất đạt được độ chính xác 89,03% với tập hợp con tính năng rút gọn. Ngoài các số liệu đánh giá, phương pháp đề xuất cũng có thể được
Do đó, độ chính xác tăng xấp xỉ 7%–17% được ghi nhận bằng kỹ thuật so sánh dựa trên thời gian thực hiện được ghi lại bao gồm tiền xử lý,
lựa chọn tính năng được đề xuất cho IDS dựa trên DNN sử dụng tập dữ lựa chọn tính năng, đào tạo và phân loại. Thời gian thực hiện cho cả ba
liệu UNSW_NB-15. Đối với tập dữ liệu CIC-IDS-2017, phương pháp đề bộ dữ liệu phát hiện xâm nhập được trình bày trongBảng 4–6. Có thể
xuất đạt được độ chính xác 99,80% với tập hợp con tính năng được suy ra từ thời gian thực hiện rằng với tập hợp con tính năng dẫn xuất,
giảm bớt. Do đó, độ chính xác tăng xấp xỉ 0,9%–2% được ghi nhận bằng IDS dựa trên DNN được đề xuất đã ghi lại thời gian thực hiện ít hơn
kỹ thuật lựa chọn tính năng được đề xuất cho IDS dựa trên DNN sử mặc dù số lượng tính năng cao hơn một số kỹ thuật hiện có đã được
dụng bộ dữ liệu CIC-IDS-2017. triển khai.

360
A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Bảng 6
Kết quả cho Bộ dữ liệu CIC-IDS-2017.
Lựa chọn tính năng kỹ thuật Số tính năng được chọn Sự chính xác Độ chính xác Nhớ lại điểm f FPR Thời gian thực hiện (s)

DNN Loại bỏ tính năng đệ quy (RFE) [12] 13 98,81 98,00 98,00 98,00 0,041 35 214.235
DNN Chi-Square [12] 13 98,15 98,20 98,93 98,56 0,062 35 517.115
DNN Lựa chọn tính năng dựa trên tương quan (CFS) [43] 54 97,78 97,77 97,00 97,38 0,094 32 261.510
DNN Thuật toán di truyền [44] 38 98,00 98,89 97,77 98,32 0,069 40 552.215
DNN Thông tin lẫn nhau 35 98,00 98,17 99,82 98,98 0,0178 32 031.522
DNN Cứu trợ-f 35 98,99 99,07 99,07 99,07 0,0801 32 045.130
DNN Rừng ngẫu nhiên 37 98,90 99,90 98,70 99,30 0,0601 32 029.250
DNN Kỹ thuật lựa chọn tính năng được đề xuất 64 99,80 99,85 99,94 99,89 0,012 27719.360

Lưu ý: Giá trị in đậm biểu thị hiệu suất tốt nhất cho các thử nghiệm được thực hiện cho tập dữ liệu CIC-IDS-2017.

5.1. So sánh với các nghiên cứu hiện tại và phạm vi tương lai 5.2. Phân tích độ phức tạp

Trong phần này, chúng ta thảo luận về độ phức tạp về thời gian của
Giả thuyết về kỹ thuật lựa chọn đặc trưng cho thấy rằng lựa chọn đặc trưng là Thuật toán1. Để phân tích độ phức tạp về thời gian, giả sử rằng là số
một phần thiết yếu của mô hình học tập tạo điều kiện cho mô hình trích xuất và lượng mẫu dữ liệu trong tập dữ liệu cơ bản, là số đặc điểm, là số lượng
học các đặc trưng và do đó làm giảm độ phức tạp của mô hình [26]. Kỹ thuật tính tính năng trong tập hợp con tính năng , là số tập con của các đối tượng
năng có thể được thực hiện bằng cách chọn hoặc trích xuất các tính năng có liên lồng nhau. Ý nghĩa tính toán của thuật toán1là để rút ra tập hợp con
quan từ tập dữ liệu. Theo cách tiếp cận được đề xuất, chúng tôi hướng đến việc đặc trưng để nâng cao quy trình IDS dựa trên DNN bằng cách giảm
tập trung vào việc nâng cao hiệu suất của IDS dựa trên DNN bằng cách đề xuất thiểu lỗi tổng quát hóa và tăng khả năng dự đoán.
một kỹ thuật lựa chọn tính năng mới để chọn các tính năng thông qua việc kết hợp
Việc lựa chọn tính năng được đề xuất yêu cầu tính toán độ lệch chuẩn và
tầm quan trọng thống kê bằng cách sử dụng Độ lệch chuẩn và Sự khác biệt của
chênh lệch giá trị trung bình và trung vị cho từng tính năng. Độ phức tạp về thời
Giá trị trung bình và Trung vị. Phân tích kết quả của phương pháp đề xuất cho biết
gian của việc tính toán độ lệch chuẩn, giá trị trung bình, trung vị và thứ hạng tổng
phương pháp đề xuất hoạt động tốt hơn so với các kỹ thuật lựa chọn tính năng hợp của tất cả các đặc tính là ( ). Độ phức tạp thời gian của đệ quy
hiện có được xem xét để so sánh hiệu suất. Ngoài phân tích so sánh với kỹ thuật loại bỏ một tính năng khỏi tập hợp con tính năng là ( 2 ) [52]. Kể từ đây,
2
lựa chọn tính năng hiện có, chúng tôi cũng đã trình bày phân tích so sánh với công
độ phức tạp thời gian của thuật toán1là [ ( ), ( 2
2
) ].
việc nghiên cứu hiện có trong lĩnh vực phát hiện và phân loại xâm nhập như trình
bày trongBảng 7. 5.3. Phân tích tiêu thụ năng lượng
Việc xem xét và so sánh với công việc nghiên cứu và kết quả đạt được của họ
dựa trên những hiểu biết sâu sắc chính có thể được rút ra. Để lập hồ sơ phân tích mức tiêu thụ năng lượng cho các bộ dữ liệu
khác nhau, điều thú vị cần lưu ý là mức tiêu thụ năng lượng cho một tác
• Có thể suy ra từ phân tích kết quả rằng kỹ thuật DL hoạt động tốt vụ nhất định đề cập đến mức sử dụng năng lượng cốt lõi trong thời
hơn so với kỹ thuật ML trong việc phát hiện và phân loại xâm gian thực hiện tác vụ [53]. Điều này ngụ ý rằng mức tiêu thụ năng
nhập. Có nhiều yếu tố khác nhau góp phần mang lại hiệu suất tốt lượng tỷ lệ thuận với thời gian thực hiện mà năng lượng được tiêu thụ.
Từ Bảng 4–6, có thể suy ra rằng phương pháp đề xuất ghi lại thời gian
hơn cho IDS dựa trên DL, chẳng hạn như hiệu quả xử lý dữ liệu
thực hiện ít hơn so với các kỹ thuật lựa chọn tính năng hiện có cho cả
nhiều chiều, khả năng học tính năng tốt hơn và chiến lược học
ba bộ dữ liệu phát hiện xâm nhập được xem xét để đánh giá hiệu suất.
hiệu quả. Phương pháp đề xuất có thể đạt được hiệu suất được
Do đó, từ phân tích kết quả, có thể suy ra rằng phương pháp đề xuất
cải thiện cho tập dữ liệu NSL-KDD với độ chính xác tăng xấp xỉ tiêu thụ ít năng lượng hơn so với các kỹ thuật lựa chọn tính năng hiện
26,27% so với [47]. có khác được xem xét để phân tích so sánh.
• So sánh kết quả của phương pháp đề xuất với các kỹ thuật DL
khác được trình bày trong [48,49], có thể suy ra rằng phương 5.4. Ý nghĩa thống kê và thảo luận
pháp đề xuất đã đạt được kết quả tốt hơn cho bộ dữ liệu NSL-KDD
Các kết quả đạt được cũng được xác nhận về mặt thống kê bằng cách sử
về độ chính xác, trong đó mức tăng độ chính xác được báo cáo là
dụng bài kiểm tra cấp bậc có chữ ký của Wilcoxon cho tất cả các thước đo
khoảng 9% và 1% so với [48,49], tương ứng. Hơn nữa, phương
hiệu suất được xem xét cho thử nghiệm. Ý nghĩa của kết quả đạt được có thể
pháp đề xuất đã đạt được hiệu suất được cải thiện về mặt FPR cho
được thể hiện bằng cách sử dụng -giá trị, trong đó -giá trị phải nhỏ hơn 0,05
bộ dữ liệu NSL-KDD với mức giảm xấp xỉ 7% và 6% so với [48,49], [54]. Nó có thể được suy ra từBảng 8, rằng -giá trị thu được cho cả ba tập dữ
tương ứng. liệu được xem xét để thử nghiệm nhỏ hơn 0,05. Vì vậy, kết quả đạt được có ý
• Hơn nữa, hiệu suất có thể so sánh được đạt được đối với các số liệu hiệu nghĩa thống kê.
suất khác như độ chính xác, khả năng thu hồi và -điểm. Xem xét vai trò và tầm quan trọng của kỹ thuật tính năng trong quá trình
phát hiện và phân loại xâm nhập, kỹ thuật lựa chọn tính năng được đề xuất
Tuy nhiên, đối với hiệu suất được ghi cho tập dữ liệu UNSW_NB-15 trong sẽ rút ra các tính năng một cách đệ quy dựa trên các thuộc tính thống kê của
[48,49] tốt hơn về các số liệu hiệu suất khác nhau như độ chính xác, độ chính chúng. Trọng tâm của phương pháp lựa chọn tính năng được đề xuất là lấy
xác, khả năng thu hồi và -điểm. Điều này là do dựa trên phân tích thăm dò đệ quy các tính năng quan trọng từ tập dữ liệu cơ bản dựa trên thứ hạng kết
của tập dữ liệu UNSW_NB-15 bao gồm số lượng lớn dữ liệu ngoại lệ và sai hợp được tính toán của chúng. Quy trình xếp hạng một tính năng giả định
lệch, có thể được xử lý hiệu quả bởi kiến trúc CNN và LSTM [50]. Tuy nhiên, rằng các tính năng trong tập dữ liệu cơ bản là độc lập với nhau. Tuy nhiên,
thường có những mối tương quan giữa các tính năng cần được xem xét để
phương pháp đề xuất ghi lại hiệu suất tốt hơn về FPR cho tập dữ liệu
áp đặt tính dư thừa của tính năng trong khi lựa chọn tính năng. Do đó, xếp
UNSW_NB-15 so với [48,49]. Do đó, trong tương lai, sẽ rất hứa hẹn khi xem
hạng đa tính năng có thể được coi là có mối tương quan cũng như tính năng
xét phân tích khả năng phục hồi của IDS bằng cách tối ưu hóa kiến trúc kết hợp để rút ra tập hợp con tính năng giảm. Vì vậy, đây có thể coi là một
mạng thần kinh bằng thuật toán lấy cảm hứng từ thiên nhiên hoặc bằng hướng nghiên cứu quan trọng trong tương lai, có thể được coi là phạm vi
cách sử dụng thuật toán lấy cảm hứng từ thiên nhiên làm kỹ thuật lựa chọn triển vọng trong lĩnh vực kỹ thuật tính năng để phát hiện và phân loại xâm
tính năng. nhập.

361
A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

Bảng 7
So sánh với các nghiên cứu hiện có.
Tham chiếu Kỹ thuật Tính năng Tập dữ liệu Phân tích kết quả
lựa chọn
[51] Cây quyết định tuyến tính KDD CÚP 99 Độ chính xác: 95,03%, Tỷ lệ phát hiện: 95,23%, FPR: 1,65%
(DT) sự tương quan

hệ số
[47] hòa tấu CFS-Bát NSL-KDD Kết quả cho NSL-KDD: Độ chính xác 73,57%, Tỷ lệ phát hiện 73,6% và FPR là
phân loại cây thuật toán 12,92%
[48] Tối ưu hóa Thứ bậc NSL-KDD, ⋅ Bộ dữ liệu NSL-KDD Độ chính xác: 90,67%, Độ chính xác: 86,71%, Thu hồi: 95,19%,
CNN đa quy mô ISCX, -điểm: 91,46%, FPR: 8,86% và Thời gian đào tạo: 5118 giây.
LSTM UNSW_NB-15 ⋅ Bộ dữ liệu ISCX Độ chính xác: 95,33%, Độ chính xác: 100%, Thu hồi: 94,77%, -điểm:
97,61%, FPR: 7,84% và Thời gian đào tạo: 54 480 giây.
⋅ Bộ dữ liệu UNSW_NB-15 Độ chính xác: 96,33%, Độ chính xác: 100%, Thu hồi: 95,87%,
-điểm: 98,13%, FPR: 5,87% và Thời gian đào tạo: 30 665 giây.

[49] Góa phụ đen ong nhân tạo NSL-KDD, ⋅ Độ chính xác của tập dữ liệu NSL-KDD: 98,67%, Độ chính xác: 97,48%, Thu hồi:
tối ưu hóa thuộc địa UNSW_NB- 100%, -điểm: 98,73%, FPR: 7,50% và Thời gian đào tạo: 4675,45 giây.
LSTM chuyển đổi 15, ISCX, ⋅ Độ chính xác của tập dữ liệu UNSW_NB-15: 98,66%, Độ chính xác: 100%, Thu hồi:
CIC-IDS-2018 98,77%, -điểm: 98,77%, FPR: 4,48% và Thời gian đào tạo: 26 721,2 giây.
⋅ Độ chính xác của tập dữ liệu ISCX: 97,00%, Độ chính xác: 100%, Thu hồi: 95,78%, -điểm:
99,67%, FPR: 5,76% và Thời gian đào tạo: 48 761,05 giây.
⋅ Độ chính xác của tập dữ liệu CSE-CIC-IDS-2018: 98,25%, Độ chính xác: 97,48%, Thu hồi:
98,67%, -điểm: 98,18%, FPR: 2,52% và Thời gian đào tạo: 22 713,02 giây.
nghiên cứu của chúng tôi DNN Đề xuất NSL-KDD, ⋅ Độ chính xác của tập dữ liệu NSL-KDD: 99,84%, Độ chính xác: 99,94%, Thu hồi: 98,81%, -
tính năng UNSW_NB- điểm: 99,37%, FPR: 1,1% và Thời gian thực hiện: 22 318,015 giây.
lựa chọn 15, ⋅ Độ chính xác của tập dữ liệu UNSW_NB-15: 89,03%, Độ chính xác: 95,00%, Thu hồi: 98,95%, -
CIC-IDS-2017 điểm: 96,93%, FPR: 1,1% và Thời gian thực hiện: 13 913,50 giây.
⋅ Độ chính xác của tập dữ liệu CIC-IDS-2017: 99,80%, Độ chính xác: 99,85%, Thu hồi:
99,94%, -điểm: 99,89%, FPR: 1,2% và Thời gian thực hiện: 27 719,36 giây.

Bảng 8 Người giới thiệu


Kết quả kiểm tra cấp bậc có chữ ký của Wilcoxon.

Tập dữ liệu -giá trị [1]A. Thakkar, R. Lohiya, Vai trò của bầy đàn và các thuật toán tiến hóa đối với hệ thống phát
NSL-KDD 0,0027 hiện xâm nhập: Một cuộc khảo sát, Swarm Evol. Máy tính. 53 (2020) 100631.
UNSW_NB-15 0,0053 [2]R. Lohiya, A. Thakkar, Lĩnh vực ứng dụng, bộ dữ liệu đánh giá và thách thức nghiên
CIC-IDS-2017 0,0054 cứu về IoT: Đánh giá có hệ thống, IEEE Internet Things J. (2020).
[3] A. Thakkar, R. Lohiya, Đánh giá về quan điểm học máy và học sâu của IDS cho IoT:
Các cập nhật gần đây, các vấn đề và thách thức bảo mật, Arch. Máy tính. Phương
pháp Eng. (2020) 1–33,http://dx.doi.org/10.1007/s11831- 020-09496-0.

6. Nhận xét kết luận


[4]A. Thakkar, R. Lohiya, Phân tích sự kết hợp các kỹ thuật chính quy hóa trong hệ thống phát
hiện xâm nhập dựa trên học sâu, Int. J. Trí tuệ. Hệ thống. (2021).
Nghiên cứu đề xuất một kỹ thuật lựa chọn tính năng mới dựa trên [5] M.A. Chang, D. Bottini, L. Jian, P. Kumar, A. Panda, S. Shenker, Cách đào tạo DNN của
sự kết hợp tầm quan trọng thống kê bằng cách sử dụng độ lệch chuẩn bạn: Phiên bản nhà điều hành mạng, 2020, bản in trước arXivarXiv:2004.10275.
[6]R. Lohiya, A. Thakkar, Phát hiện xâm nhập bằng cách sử dụng mạng thần kinh sâu
và sự khác biệt của giá trị trung bình và trung vị để nâng cao hiệu suất
với lớp phản chỉnh lưu, trong: Mạng truyền thông và máy tính mềm ứng dụng,
phát hiện và phân loại xâm nhập. Kỹ thuật lựa chọn tính năng được đề Springer, 2021, trang 89–105.
xuất nhằm mục đích tạo ra tập hợp con tính năng rút gọn bao gồm các [7]F.E. White, Từ điển tổng hợp dữ liệu, Báo cáo kỹ thuật, Giám đốc chung của Phòng thí
tính năng có các thuộc tính như độ phân biệt và độ lệch cao. Để dự nghiệm Washington DC, 1991.
đoán và phân loại, kỹ thuật Mạng thần kinh sâu (DNN) được áp dụng để [số 8]A. Thakkar, R. Lohiya, Đánh giá về sự tiến bộ trong bộ dữ liệu phát hiện xâm nhập,
Procedia Comput. Khoa học. 167 (2020) 636–645.
xem xét tập hợp con tính năng giảm để học và lấy các mẫu trong dữ
[9]G. Bagyalakshmi, G. Rajkumar, N. Arunkumar, M. Easwaran, K. Narasimhan, V. Elamaran, M.
liệu. Đánh giá hiệu suất của phương pháp đề xuất được thực hiện bằng Solarte, I. Hernández, G. Ramirez-Gonzalez, Phân tích lỗ hổng mạng trên cơ sở dữ liệu
cách sử dụng ba bộ dữ liệu phát hiện xâm nhập là NSL-KDD, hình ảnh/tín hiệu não bằng cách sử dụng nmap và công cụ Wireshark, IEEE Access 6
UNSW_NB-15 và CIC-IDS-2017. Hiệu quả của phương pháp đề xuất (2018) 57144–57151.
[10]A. Gharib, I. Sharafaldin, A.H. Lashkari, A.A. Ghorbani, Khung đánh giá cho bộ dữ liệu
được thể hiện ở các khía cạnh về độ chính xác, độ chính xác, khả năng
phát hiện xâm nhập, trong: Hội nghị quốc tế về khoa học và bảo mật thông tin
thu hồi, -điểm, Tỷ lệ dương tính giả (FPR) và thời gian thực hiện. Từ các (ICISS) năm 2016, IEEE, 2016, trang 1–6.
thử nghiệm được thực hiện, có thể suy ra rằng phương pháp đề xuất [11]G. Creech, J. Hu, Tạo tập dữ liệu thử nghiệm IDS mới: Đã đến lúc gỡ bỏ bộ sưu tập
đạt được hiệu suất tốt hơn so với các kỹ thuật lựa chọn tính năng hiện KDD, trong: Hội nghị Mạng và Truyền thông Không dây IEEE 2013 (WCNC), IEEE,
có cho cả ba bộ dữ liệu phát hiện xâm nhập với thời gian thực hiện 2013, trang 4487–4492.
[12]A. Thakkar, R. Lohiya, Phân loại tấn công bằng kỹ thuật lựa chọn tính năng: một
giảm đi. Do đó, các tính năng dẫn xuất sử dụng kỹ thuật lựa chọn tính
nghiên cứu so sánh, J. Ambient Intell. Nhân hóa. Máy tính. 12 (1) (2021) 1249–1266.
năng được đề xuất có thể nâng cao hiệu suất của IDS dựa trên DNN.
[13]O. Almomani, Mô hình lựa chọn tính năng cho hệ thống phát hiện xâm nhập mạng
Tuyên bố về lợi ích cạnh tranh dựa trên thuật toán PSO, GWO, FFA và GA, Symmetry 12(6) (2020) 1046.
[14]C. Khammassi, S. Krichen, Phương pháp bao bọc GA-LR để lựa chọn tính năng trong
phát hiện xâm nhập mạng, Comput. An toàn. 70 (2017) 255–277.
Các tác giả tuyên bố rằng họ không có lợi ích tài chính hoặc mối
[15]M.A. Ambusaidi, X. He, P. Nanda, Z. Tan, Xây dựng hệ thống phát hiện xâm nhập
quan hệ cá nhân cạnh tranh nào có thể ảnh hưởng đến công việc được bằng thuật toán lựa chọn tính năng dựa trên bộ lọc, IEEE Trans. Máy tính. 65 (10)
báo cáo trong bài viết này. (2016) 2986–2998.
[16]B. Ingre, A. Yadav, Phân tích hiệu suất của bộ dữ liệu NSL-KDD bằng ANN, trong: Hội
nghị quốc tế 2015 về Hệ thống kỹ thuật truyền thông và xử lý tín hiệu, IEEE, 2015,
Tính khả dụng của dữ liệu
trang 92–96.
[17]T. Janarthanan, S. Zargari, Lựa chọn tính năng trong bộ dữ liệu UNSW-NB15 và KDDCUP'99,
Các tác giả không thể hoặc đã chọn không chỉ định dữ liệu nào đã trong: 2017 Hội nghị chuyên đề quốc tế lần thứ 26 của IEEE về Điện tử công nghiệp (ISIE),
được sử dụng. IEEE, 2017, trang 1881–1886.

362
A. Thakkar và R. Lohiya Thông tin tổng hợp 90 (2023) 353–363

[18]V. Kumar, D. Sinha, A.K. Das, S.C. Pandey, R.T. Goswami, Hệ thống phát hiện xâm nhập dựa [37] U. Repository, tập dữ liệu NSL-KDD, 2009, URLhttps://www.unb.ca/cic/datasets/ nsl.html(truy
trên quy tắc tích hợp: phân tích trên tập dữ liệu UNSW-NB15 và tập dữ liệu trực tuyến theo cập ngày 22 tháng 4 năm 2019).
thời gian thực, Cluster Comput. 23 (2) (2020) 1397–1418. [38]L. Dhanabal, S. Shantharajah, Nghiên cứu về bộ dữ liệu NSL-KDD cho hệ thống phát hiện xâm
[19]N.M. Khan, N. Madhav C, A. Negi, I.S. Thaseen, Phân tích về cải thiện hiệu suất của nhập dựa trên thuật toán phân loại, Int. J. Khuyến cáo. Res. Máy tính. Cộng đồng.
các mô hình học máy bằng kỹ thuật lựa chọn tính năng, trong: Hội nghị quốc tế về
Anh. 4 (6) (2015) 446–452.
ứng dụng và thiết kế hệ thống thông minh, Springer, 2018, trang 69–77.
[39]N. Moustafa, J. Slay, UNSW-NB15: bộ dữ liệu toàn diện cho các hệ thống phát hiện
xâm nhập mạng (bộ dữ liệu mạng UNSW-NB15), trong: Hội nghị Hệ thống Thông
[20]BA. Tama, M. Comuzzi, K.-H. Rhee, TSE-IDS: Bộ phân loại hai giai đoạn dành cho hệ thống
phát hiện xâm nhập dựa trên sự bất thường thông minh, IEEE Access 7 (2019) 94497–
tin và Truyền thông Quân sự 2015 (MilCIS), IEEE, 2015, tr.
94507. 1–6.
[21]W. Zong, Y.-W. Chow, W. Susilo, Cách tiếp cận phân loại hai giai đoạn để phát hiện [40]I. Sharafaldin, A.H. Lashkari, A.A. Ghorbani, Hướng tới tạo ra bộ dữ liệu phát hiện xâm nhập
xâm nhập mạng, trong: Hội nghị quốc tế về thực tiễn và kinh nghiệm bảo mật mới và mô tả đặc điểm lưu lượng truy cập xâm nhập, trong: ICISSP, 2018, trang 108–116.
thông tin, Springer, 2018, trang 329–340.
[22]M. Belouch, S. El Hadaj, M. Idhamad, Phương pháp phân loại hai giai đoạn sử dụng thuật toán Reptree [41]R. Panigrahi, S. Borah, Phân tích chi tiết về bộ dữ liệu CICIDS2017 để thiết kế hệ
để phát hiện xâm nhập mạng, Int. J. Khuyến cáo. Máy tính. Khoa học. ứng dụng. thống phát hiện xâm nhập, Int. J. Anh. Technol. 7 (3,24) (2018) 479–482.
8 (6) (2017) 389–394. [42]N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov, Dropout: một cách đơn giản để
[23]J. Gao, S. Chai, B. Zhang, Y. Xia, Nghiên cứu phát hiện xâm nhập mạng dựa trên máy
ngăn chặn tình trạng mạng lưới thần kinh bị trang bị quá mức, J. Mach. Học hỏi. Res.
học cực đoan tăng dần và phân tích thành phần chính thích ứng, Năng lượng 12
15 (1) (2014) 1929–1958.
(7) (2019) 1223.
[43]N. Gopika, M.E.A. Meena Kowshalaya, Thuật toán lựa chọn tính năng dựa trên tương
[24]N.T. Phạm, E. Foo, S. Suriadi, H. Jeffrey, H.F.M. Lahza, Cải thiện hiệu suất của hệ thống phát
hiện xâm nhập bằng cách sử dụng các phương pháp tổng hợp và lựa chọn tính năng,
quan cho học máy, trong: Hội nghị quốc tế lần thứ 3 về Hệ thống Điện tử và
trong: Kỷ yếu của Hội nghị đa khoa Tuần lễ Khoa học Máy tính Úc, 2018, trang 1–6. Truyền thông (ICCES) năm 2018, IEEE, 2018, trang 692–695.
[44]Z. Liu, Y. Shi, IDS lai sử dụng phương pháp lựa chọn tính năng dựa trên GA và rừng ngẫu
[25]A.A. Salih, M.B. Abdulrazaq, Kết hợp lựa chọn các tính năng tốt nhất bằng cách sử dụng ba bộ nhiên, Int. J. Mach. Học hỏi. Máy tính. 12 (2) (2022).
phân loại trong hệ thống phát hiện xâm nhập, trong: Hội nghị quốc tế về khoa học và kỹ [45]Y. Zhang, X. Ren, J. Zhang, Phương pháp phát hiện xâm nhập dựa trên việc thu thập
thuật tiên tiến (ICOASE) năm 2019, IEEE, 2019, trang 94–99. thông tin và lựa chọn tính năng cứu trợ, trong: Hội nghị chung quốc tế về mạng
[26]A. Thakkar, R. Lohiya, Khảo sát về hệ thống phát hiện xâm nhập: lựa chọn tính năng, mô nơ-ron năm 2019 (IJCNN), IEEE, 2019, trang 1–5.
hình, thước đo hiệu suất, quan điểm ứng dụng, thách thức và hướng nghiên cứu trong
[46]X. Li, W. Chen, Q. Zhang, L. Wu, Xây dựng hệ thống phát hiện xâm nhập bộ mã hóa tự
tương lai, Artif. Trí tuệ. Mục sư (2021) 1–111.
động dựa trên lựa chọn tính năng rừng ngẫu nhiên, Comput. An toàn. 95 (2020)
[27]Y. Xin, L. Kong, Z. Liu, Y. Chen, Y. Li, H. Zhu, M. Gao, H. Hou, C. Wang, Phương pháp
101851.
học máy và học sâu cho an ninh mạng, IEEE Access (2018) .
[47]Y. Chu, G. Cheng, S. Jiang, M. Dai, Xây dựng hệ thống phát hiện xâm nhập hiệu quả
[28]A.L. Buczak, E. Guven, Khảo sát về các phương pháp khai thác dữ liệu và học máy để
phát hiện xâm nhập an ninh mạng, IEEE Commun. Sống sót. Gia sư. 18 (2) (2016) dựa trên lựa chọn tính năng và phân loại tổng thể, Comput. Mạng. 174 (2020)
1153–1176. 107247.
[29]L.-H. Li, R. Ahmad, W.-C. Tsai, A.K. Sharma, DNN dựa trên lựa chọn tính năng cho hệ [48]P.R. Kanna, P. Santhi, Phương pháp học sâu thống nhất dành cho hệ thống phát hiện xâm nhập hiệu
thống phát hiện xâm nhập, tại: 2021 Hội nghị quốc tế lần thứ 15 về Quản lý và quả bằng cách sử dụng các tính năng không gian-thời gian tích hợp, Hệ thống dựa trên kiến thức.
truyền thông thông tin phổ biến (IMCOM), IEEE, 2021, trang 1–8. 226 (2021) 107132.
[30]T.-S. Chu, K.K. Yen, J. Luo, Thiết kế phát hiện xâm nhập mạng bằng cách sử dụng lựa [49]P.R. Kanna, P. Santhi, Phát hiện xâm nhập kết hợp bằng cách sử dụng mạng lưới
chọn tính năng của mô hình điện toán mềm, Int. J. Máy tính. Trí tuệ. 4 (3) (2008) thần kinh bộ nhớ dài hạn tích chập được tối ưu hóa dựa trên MapReduce, Expert
196–208. Syst. ứng dụng. 194 (2022) 116545.
[31]S. Zaman, F. Karray, Lựa chọn tính năng cho hệ thống phát hiện xâm nhập dựa trên
[50]N. Sharma, N.S. Yadav, S. Sharma, Phân loại tập dữ liệu UNSW-NB15 bằng cách sử dụng phân
máy vectơ hỗ trợ, trong: Hội nghị Mạng và Truyền thông Người tiêu dùng, 2009.
tích dữ liệu khám phá bằng phương pháp học tập tổng hợp, EAI Endorsed Trans. Ấn Độ.
CCNC 2009. IEEE lần thứ 6, IEEE, 2009, trang 1–8.
Mạng. Trí tuệ. Hệ thống. 8 (29) (2021) e4.
[32]S. Aljawarneh, M. Aldwairi, M.B. Yassein, Hệ thống phát hiện xâm nhập dựa trên sự bất
thường thông qua phân tích lựa chọn tính năng và xây dựng mô hình hiệu quả lai, J. [51]S. Mohammadi, H. Mirvaziri, M. Ghazizadeh-Ahsaee, H. Karimipour, Phát hiện xâm
Comput. Khoa học. 25 (2018) 152–160. nhập mạng bằng thuật toán lựa chọn tính năng kết hợp, J. Inf. An toàn. ứng dụng.
[33]J. Xie, M. Wang, S. Xu, Z. Huang, P.W. Grant, Các thuật toán lựa chọn tính năng không 44 (2019) 80–88.
giám sát dựa trên độ lệch chuẩn và độ tương tự cosin để phân tích dữ liệu gen, [52]X. Ding, F. Yang, F. Ma, Lựa chọn mô hình hiệu quả để loại bỏ tính năng đệ quy dựa
Front. Genet. 12 (2021). trên hàm phân biệt tuyến tính, J. Biomed. Thông báo. 129 (2022) 104070.
[34]R. de Nijs, T.L. Klausen, Về sự khác biệt được mong đợi giữa giá trị trung bình và trung vị, Electron. J.
Ứng dụng. Nhà thống kê. Hậu môn. 6 (1) (2013) 110–117. [53]S. Hajiamini, Cử nhân Shirazi, Nghiên cứu về phương pháp DVFS cho hệ thống đa lõi có tính
[35]T. Phạm-Gia, T.L. Hùng, Độ lệch tuyệt đối trung bình và trung vị, Toán. Máy tính. Mô
năng đảo, trong: Những tiến bộ trong máy tính, Tập. 119, Elsevier, 2020, trang 35–71.
hình 34 (7–8) (2001) 921–936.
[36]P. Chen, Y. Guo, J. Zhang, Y. Wang, H. Hu, Một phương pháp tiền xử lý mới để phát
[54]S. Taheri, G. Hesamian, Tổng quát về bài kiểm tra cấp bậc có chữ ký của wilcoxon và các ứng
hiện xâm nhập dựa trên DNN, trong: 2020 Hội nghị quốc tế lần thứ 6 của IEEE về
dụng của nó, Statist. Giấy tờ 54 (2) (2013) 457–470.
Máy tính và Truyền thông (ICCC), IEEE, 2020, trang 2059–2064.

363

You might also like