You are on page 1of 8

ttp:
//www.
js
jkx.
com
DOI: 11896/
10. jskx.
j 210400021

DRL-IDS:基于深度强化学习的工业物联网入侵检测系统
李贝贝 宋佳芮 杜卿芸 何俊江
四川大学网络空间安全学院 成都 610041

li
bei
bei@s
cu. cn)
edu.

摘 要 近年来,工业物联网迅猛发展,在实现工业数字化、自动化、智能化的同时也带来了大量的网络威胁,且复杂、多 样 的 工
业物联网环境为网络入侵者创造了全新的攻击面。传统的入侵检测技术已无法满足当前工业物联网环境下的网络威胁发 现 需
求。对此,文中提出了一种基于深度强化学习算法 近 端 策 略 优 化 (
Prox
ima
lPo
licy Op
timi
zat
i 0,
on2. PPO2)的 工 业 物 联 网 入 侵
检测系统。该系统将深度学习的感知能力和强化学习的决策能力相结合,以实现对工业物联网多种类型网络攻击的有效 检 测。
首先,运用基于 L
i tGBM 的特征选择算法筛选出工业物联网数据 中 最 有 效 的 特 征 集 合 ;然 后,结 合 深 度 学 习 算 法 将 多 层 感 知
gh
器网络的隐藏层作为 PPO2 算法中的价值网络和策略网络的 共 享 网 络 结 构;最 后,基 于 PPO2 算 法 构 建 入 侵 检 测 模 型,并 使 用
ReLU(
Rec
tif
iedL
ine
arUn
it)进行分类输出。在美国能源部橡树岭国家 实 验 室 公 开 发 布 的 工 业 物 联 网 真 实 数 据 集 上 开 展 的 大
量实验表明,所提出的入侵检测系统在检测对工业物联网的多种类型网络攻击时,获 得 了 99.
09% 的 准 确 率,且 在 准 确 率、精 密
度、召回率、
F1 评分等指标上均优于目前基于 LSTM, RNN 等深度学习模型和 DDQN,
CNN, DQN 等深度强化学习模型 的 入 侵
检测系统。
关键词:工业物联网;网络安全;入侵检测系统;深度强化学习;
PPO2 算法
中图法分类号 TP393

DRL-IDS:De
epRe
inf
orc
emen
tLe
arn
ingBa
sedI
ntr
usi
onDe
tec
tionSy
stemf
orI
ndu
str
ialI
nte
rne

fTh
o ing

LIBe i,
i-be SONGJ
ia-r
ui,
DU Qi
ng-yunand HEJun-j
iang
Schoo
lofCybe
rSc
ienc
eandEng
ine
erng,
i Sichuan Un
ive
rsi
ty,
Chengdu610041,
Chi
na

Ab
str
act I
nre
c tye
en ars,
theI
ndus
tri
alI
nte
rne
tofTh
ings (
IIoT)ha
sde
vel
opedr
api
dly.Wh
iler
eal
izi
ngi
ndus
tri
ald
igi
tiz
aton,

au
toma
tion,
andi
nte
ll
i e,
genc t
heI
IoTha
sin
troduc
edt
remendouscybe
rthr
eat
s.Fu
rt r,
he t
hec
omp
lex,
het
er ous,
ogene andd
ist
ribu-

edI
IoTenv
ironmen
tha
scr
eat
edab
rand-new a
tta
cksu
rfa
cef
orcybe
rin
trude
rs.
Trad
iti
ona
lin
trus
ionde
tec
tiont
echn
ique
sno

onge
rfu
lfi
llt
hene
edso
fin
trus
ionde
tec
tionf
ort
hecu
rren
tII
oTenv
ironmen
t.Th
ispape
rpr
opo
sesade
epr
ein
for
cemen
tle
arn
ing
al
gorihm (
t i.e.,
ProximalPo
licyOp
timiz
ati
on2. 0,
PPO2)bas
edi n
trus
iondet
ect
ionsyst
emf o
rtheII
oT.Thepropo
sedint
rusi
on
dete
ctonsy
i stem combine
stheperc
eptualabi
li
tyofdeepl
earni
ng wit
ht hedec
isi
on-maki
ngabi
li
tyo fr
ein
for
cementl
earnng,

wh
ichc
ane
ffe
cti
vel
yde
tec
tmu
lti
plet
ype
sofcybe
rat
tacksf
ort
heI
IoT.
Fir
st,
aLi
ghtGBM-ba
sedf
eat
ures
ele
cti
ona
lgo
rit
hmi

us
edt
ofi
lte
rthemo
ste
ffe
cti
vef
eat
ures
etsi
nII
oTda
t Then,
a. theh
iddenl
aye
roft
he mu
lti
laye
rpe
rcep
tronne
two
rki
sus
eda

hesha
t redne
two
rks
truc
tur
eoft
heva
luene
two
rkandpo
licyne
two
rki
nthePPO2a
lgo
rit
hm.
Atl
ast,
thePPO2a
lgo
rit
hmi
sus
ed

ocons
truc
tthei
ntr
usi
onde
tec
ti landReLU (
on mode Rec
tif
iedL
ine
arUn
it)i
semp
loyedf
orc
las
sif
ica
tionou
tpu
t.Ex
tens
iveex-
per
imentsc onduc
tedonar e
alIIoTdatas
etrele
asedbytheOakRidgeNati
ona
lLabo r
atory,
sponso
redbyt heU.
S.Depar
tmen to

Energy,show tha
t t
h e r

p posedin
trus
ion de
tect
ionsys
tem a
chi
eve
s 99.
09% accur
acy i
n de
tect
ing mul
tilet
p ype
s o
f ne
t wor
k at-

acksf
ort
heI
IoT,
andi
tou
tpe
rfo
rmss
tat
e-o
f-t
he-a
rtde
epl
ear
ning mode
ls(
e.g.,
LSTM,
CNN,
RNN)ba
sedandde
epr
ein
for
ce-
men
tle
arn
ing mode
ls(
e.g.,
DDQNandDQN)ba
sedi
ntr
usi
onde
tec
tionsy
stems,
int
ermso
fthea
ccu
racy,
pre
cis
ion,
rec
all,
and
F1s
cor
e.
Ke
ywo
rds I
ndus
tri
ali
nte
rne
toft
hings,
Cybe
rse
cur
ity,
Int
rus
ionde
tec
tionsy
stem,
Deepr
ein
for
cemen
tle
arn
ing,
PPO2a
lgo
rit
hm

到稿日期:
2021-03-31 返修日期:
2021-04-28
基金项目:国 家 重 点 研 发 计 划 项 目 (
2020YFB1805400);国 家 自 然 科 学 基 金 (U19A2068,
62002248);中 国 博 士 后 科 学 基 金 (
2019TQ0217,
2020M673277);四川省重点研发项目(
20ZDYF3145);中央高校基本科研业务经费(
YJ201933)
Th
iswo
rk wa
ssuppo
rtedbyt
heNa
tiona
lKeyRe
sea
rchandDeve
lopmen
tPr
ogr
amo
fCh
ina(
2020YFB1805400),Na
tiona
lNa
tur
alSc
ienc
eFoun-
da
tiono
fCh
ina(
U19A2068,
62002248),
Chi
naPo
stdo
cto
ralSc
ienc
eFounda
tion(
2019TQ0217,
2020M673277),
Prov
inc
ialKey Re
sea
rchand De-
ve
lopmen
tPr
ogr
am o
fSchuan(
i 20ZDYF3145)andFundamen
talRe
sea
rchFundsf
ort
heCen
tra
lUn
ive
rsi
tis(
e 201933).
YJ
通信作者:何俊江(
heun
j i
jang@s
tu.
scu. cn)
edu.
48 Compu
terSc
i e 计算机科学 Vo
enc l.48, 7,
No. Ju
ly2021

1 引言 2 相关工作

工业物联网是物联 网 技 术 在 工 业 领 域 的 应 用,其 本 质 是 1 面向工业物联网的入侵检测系统


2.
工业自动化和物联网技术的融合发展。工业物联网实现了 生 入侵检测系统在传统工业控制系统以及现代工业物联 网
产、监控、管理等子系 统 的 空 前 结 合,不 同 的 系 统 在 控 制 中 心 中均有 着 广 泛 的 应 用 [6]。2018 年,AL-Hawawr
eh 等 7 提 出
[]

的统一管理下可以更加高效地完成对各类工业数据的处理, 了一种基于深度学习模型的 I
ICS 异常检 测 技 术,该 模 型 可 以
其 高 复 杂 性、开 放 性 的 特 点 增 加 了 工 业 物 联 网 面 临 的 网 络 安 使用从 TCP/
IP 数 据 包 收 集 的 信 息 进 行 学 习 和 验 证。 同 年,
全风险。国家互 联 网 应 急 中 心 CNCERT 发 布 的 《
2019 年 我 Roy 等 8 使用 B
[]
iLSTM-RNN 检测了工业物联网攻击,并采用
国互联网网络安全态势综述》指出,存在高危漏洞隐患的工 业 新型 UNSWNB15 数据 集 对 多 层 深 度 神 经 网 络 进 行 了 训 练 。
物联网设备占比约 41% 。通过 监 测 发 现,电 力、石 油 天 然 气、 2019 年,
Yang 等 9 设 计 了 一 种 基 于 CNN 面 向 数 据 采 集 与 监
[]

城市轨道交通等重点 行 业 暴 露 的 联 网 监 控 管 理 系 统 有 2249 视控 制 系 统 (
Supe
rvi
sor
y Con
tro
l And Da
ta Ac
qui
sit
ion,
套,其中电力有 653 套、石 油 天 然 气 有 584 套、城 市 轨 道 交 通 SCADA)的网络入侵检测系统,以保护工业物联网免 受 DDoS
有 100 套 [1]。 等常规网 络 攻 击 以 及 针 对 SCADA 的 特 定 网 络 攻 击。2020
工业物联网是一个 复 杂 的 网 络,系 统 的 一 部 分 出 现 任 何 年,
Isma
il等 10 研究了智能电网中的电力盗窃攻击,并针对这
[ ]

故障或异常都可能在短时间内对整个系统造成巨大损害。 因 种网络攻击 提 出 了 一 种 基 于 深 度 学 习 的 入 侵 检 测 系 统 。 同
此,尽早发现 网 络 攻 击 对 于 及 时 有 效 的 网 络 响 应 至 关 重 要 。 年,
Li等 11 提出了一 种 名 为 De
[ ]
epFed 的 联 邦 深 度 学 习 方 案,
入侵检测系 统 (
Int
rus
ion De
tec
tionSy
st IDS)是 网 络 安 全
em, 用于检测和缓解对分布式工业物联网的网络威胁。上述方 法
防护的重要组成部分,能够帮助系统有效发现网络入侵行 为。 在 面 对 当 前 高 实 时、大 容 量 以 及 复 杂 多 维 的 工 业 物 联 网 数 据
然而,近年来,由于工业物联网的运行环境和结构持续变化,传 时,往往需要复杂的训练过程,且准确率有待提高。
统的入侵检测模型(如 基 于 简 单 机 器 学 习 的 入 侵 检 测 模 型 等) 2 基于深度强化学习的入侵检测技术
2.
往往不具备对网络威胁的自适应调整能力,不能在工业物联网 深度强化学习不仅能够从已知网络环境中获取最大化 的
的网络风险环境发生变化时动态地调整自身的辨识策略,进而 奖励,而且其具备探索功能,能够自动在网络环境中挖掘更 多
无法针对复杂网络攻击提供自适应的检测、响应和防御等。 有价值的信息,模型收敛 速 度 快。2018 年,
Kut等 12 提 出 了

[ ]

深度 强 化 学 习 (
Deep Re
inf
orc
emen
tLe
arn
i DRL)算
ng, 一 种 基 于 强 化 学 习 的 入 侵 检 测 系 统 ,用 于 监 视 和 分 析 传 感 器
法 可 有 效 解 决 工 业 物 联 网 环 境 中 存 在 的 不 确 定 性 等 问 题 ,它 网 络,并 将 其 提 出 的 系 统 与 基 于 自 适 应 机 器 学 习 的 入 侵 检 测
通过智能体这一强化学习的载体探索,利用未知环境,并结 合 系统和集 群 混 合 入 侵 检 测 系 统 进 行 了 比 较 。2019 年,
Set
hi
自身的经验进行学 习 [
。深度强化学习将强 化 学 习 的 决 策
2-3]
等 [13]提出了一种上下文自适应的入 侵 检 测 系 统,该 系 统 使 用
能 力 和 深 度 学 习 的 感 知 能 力 相 结 合 ,利 用 深 度 学 习 将 大 规 模 分布在网络上的多个独立的深度强化学习智能体来增强针 对
原 始 输 入 数 据 进 行 简 单 且 非 线 性 的 变 换 ,转 换 为 更 高 层 次 的 新型复杂网络攻击的检测准确性。 同 年,
Otoum 等 14 提 出 了
[ ]

抽象表达,从而进一 步 发 现 数 据 的 内 在 规 律;利 用 强 化 学 习, 一种基于无模 型 强 化 学 习 的 部 分 可 观 测 马 尔 可 夫 决 策 过 程


基 于 反 馈 信 号 学 习 和 基 于 试 错 学 习 的 模 式 ,在 没 有 指 导 信 息 (
Par
tia
lly Obs
ervab
le Ma
rkov De
cis
ion Pr
oce
sss,
e POMDPs)
的情况下,从与环境的交互过程中找到可能的最佳方案 [4-5]。 在线网络攻 击 检 测 算 法。2019 年 5 月,
Cami
neo 等 15 提 出

[ ]

针对上述问题,本文 提 出 了 一 种 新 的 基 于 深 度 强 化 算 法 了一种用于入侵检测系统的最新多主体对抗增强学习模型。
PPO2 的面向工业物联网环 境 的 入 侵 检 测 系 统 DRL-IDS。 该 基 于 深 度 强 化 学 习 的 入 侵 检 测 系 统 在 训 练 效 率 、准 确 率 等 方
系统运用基于 L
i tGBM 的特征选择算法提取出最有效 的 特
gh 面还存在进 一 步 提 升 和 优 化 的 空 间 。2020 年 ,Hsu 等 [5] 提
征集合,可有效减小模型的计算复杂度;用包含 3 层隐藏 层 的 出 了 一 种 基 于 深 度 强 化 学 习 的 异 常 网 络 入 侵 检 测 系 统 ,该
多层感知机作为该入侵检测系统中价值网络和策略网络共 享 系 统 具 有 自 我 更 新 的 能 力 ,可 有 效 检 测 新 型 恶 意 网 络 流 量
的深度神经网络结构,构 建 基 于 深 度 强 化 学 习 PPO2 算 法 的 行为。
入侵 检 测 系 统,该 系 统 最 后 用 ReUL 函 数 在 减 少 过 拟 合 的 情
3 基于深度强化学习的入侵检测系统
况下作为分类输出。本文提出的入侵检测系统在美国能源 部
橡树岭国家实验室公开发布的工业物联网真实数据集上进 行 1 入侵检测系统总体框架
3.
了大量实验,结果表明,该入侵检测系统在检测对工业物联 网 本文提出的 基 于 PPO2 的 入 侵 检 测 系 统 DRL-IDS 主 要
的多种类型的网络攻击时,获 得 了 99.
09% 的 准 确 率,且 在 准 由 3 个 部 分 组 成,分 别 为 数 据 处 理 模 块、入 侵 检 测 智 能 体
确率、精密度、召回率、
F1 评分等指标上 均 优 于 目 前 基 于 长 短 t)构造模块以及 入 侵 检 测 智 能 体 训 练 模 块 (见 图 1)。 其
agen
期记忆网络(
LongSho
rt-Te
rm Memo
r LSTM)、卷 积 神 经 网
y, 中,数据处理模块主要包括特征选择和数据预处理;入侵检 测
络(
Convo
lut
iona
l Neu
ral Ne
two
rks,CNN)、循 环 神 经 网 络 智 能 体 构 造 模 块 主 要 包 括 确 定 强 化 学 习 的 环 境 状 态 模 型 、价

Recu
rren
tNeu
ralNe
two
r RNN)等深度学习模型 和 深 度 双
k, 值函数构造、训练策 略 定 义。 环 境 状 态 模 型 是 环 境 的 私 有 呈
Q 网络(
Doub
le De
ep Q-Le
arn
ing Ne
two
r DDQN)、深 度 Q
k, 现,包括了环境用来决定奖惩的规则,对入侵检测智能体不 可
网络(
Deep Q-Le
arn
ing Ne
two
r DQN)等 深 度 强 化 学 习 模 型
k, 见。训练策略通过评 估 价 值 函 数,来 进 一 步 优 化 入 侵 检 测 智
的入侵检测系统。 能体的动作决 策 策 略,用 环 境 状 态 模 型 反 馈 的 奖 惩 (损 失 函
李贝贝,等:
DRL-IDS:基于深度强化学习的工业物联网入侵检测系统 49

数)来更新训练策略中的参数,入侵检测智能体的训练模块 通 训练步长时得 到 最 终 的 DRL-IDS 模 型,最 后 用 混 淆 矩 阵 测


过 损 失 函 数 不 断 地 优 化 策 略 ,直 到 模 型 收 敛 或 者 完 成 指 定 的 试来评估该模型的性能表现。

图 1 入侵检测系统 DRL-IDS 框架图



ig.
1 Fr
amewo
rko
ft r
hepopo
sedDRL-IDS

2 数据处理模块
3. 态的奖励rt,n 的 累 积 和 为Rt =rt,1 +rt,2 + … +rt,n 。 由 于 入 侵
为了减少原始数据 的 噪 声 冗 余,提 高 模 型 的 多 分 类 检 测 检 测 环 境 是 随 机 的 或 者 未 知 的 ,这 意 味 着 下 一 个 状 态 可 能 也
精度,本文的入侵检测系统首先进行特征选择,在保证入侵 检 是随机的,从而使得入侵检测智能体采取的动作具有随机 性,
测性能的前提下有效降低数据的冗余维度。该入侵检测系 统 随着步数的增加,不确定性会随之增大,获得相同奖励的可 能
用基 于 嵌 入 式 的 特 征 选 择 算 法 L
i tGBM 进 行 特 征 的 筛
gh 性降低。为了降低不 确 定 性 和 随 机 性,使 用 折 扣 因 子 来 减 小
选 [16],具体策略如下: 步骤之间的强关联性,用 折 扣 未 来 累 积 奖 励Gt 来 代 替 未 来 奖
1)删去缺失值大于阈值 60% 的 特 征。 根 据 经 验 得 出,当 励。时间步长t的总折扣未来累积奖励表达式为:
一个特征的缺失率大于 60% 时,这 个 特 征 对 于 入 侵 检 测 智 能 "
Gt=Rt+1 +γRt+2 + … +γkRt+k+1 = ∑γkRt+k+1 (
2)
体的训练意义甚微。 k=0

其中,
γ∈ [
0,1]是 折 扣 系 数,用 于 提 升 即 时 奖 励 而 不 是 延 迟
2)删去唯一值的特征。
奖励。
3)删除每个强相关特征对中的任意一个特征。定义 强 相
γ 接近 0,代表更加重视当下的回报。
1)
关特征对的具体阈值(绝对值)为 Pe
aron 相关系数 17 0.

[ ]
99。
γ 接近 1,代表更加重视未来的回报。
2)
4)删去 L
i tGBM 算法得出特征的重要性排名较低 的 特
gh
由于 入 侵 检 测 的 网 络 流 量 之 间 是 离 散 的、相 互 独 立
征。最终特征数量按照特征重要性评分的高低顺序逐步增 加
的 [
,因此在实验中 γ 应该尽可能接近 0,使得网络流量之间
18]

特征,直到模型性能不再提高为止。
的连续性减弱。
5)将所有在不同 区 间 的 变 量 归 一 化,使 用 最 简 单 的 m
in-
入侵检测智能体与环境交互反馈的规则如下:
max 函数缩放范围特征值到[
0,1]区间,具体公式如下:
1)当入侵检测系 统 成 功 检 测 出 攻 击,并 且 成 功 分 类 此 攻
x-min(
x) (

′= 1) 击的类型时,给予正反馈rt+1 。
max(
x)-min(
x)
其中,
x 为原始值,
x′为规范化值。 2)当错失了一个 攻 击 或 者 成 功 检 测 出 攻 击,但 是 错 误 地
6)生成特征向量,最后进行独热编码。 分类了该攻击的类型时,给予负反馈rt-1。

3 入侵检测智能体构造
3. 3)当流量是正常流量并且没有发出警报时,没有反馈。
本节描述构成入侵 检 测 智 能 体 的 组 成 部 分:环 境 状 态 模 本文用实数的加减 1 来 定 义 奖 惩 的 规 则,从 而 达 到 入 侵
型、价值函数以及训练策略。 检测智能体训练的目的。所有能够影响环境从而产生奖惩 的
3.
3.1 环境状态模型 数据都被认为是环境状 态 的 一 部 分,
DRL-IDS 的 智 能 体 与 环
使用真实的工业物 联 网 数 据 集 来 模 拟 网 络 流 量 环 境 ,构 境 交 互 过 程 中 基 于 网 络 流 量 环 境 的 反 馈 规 则 ,构 成 了 环 境 状
成入 侵 检 测 系 统 的 智 能 体 构 造 所 需 要 的 环 境 ,其 包 括 3 个 态模型。
部分: 3.
3.2 价值函数构造
1)用来接收入侵 检 测 系 统 输 出 的 管 理 员,主 要 体 现 在 环 价值函数是奖励的期望,主要用于评价不同状态的好 坏,
境对智能体的反馈过程中。 指导智能体动作的选择。能够影响智能体做出下一个动作 决
2)普通网络用户,网 络 用 户 的 流 量 是 通 过 现 有 数 据 集 的 策的数据是智能体状态的一部分。用价值函数来评估入侵 检
流量来模拟的。 测智能体在某时间t、状 态s 的 好 坏 程 度。 定 义Qπ (
s,a)为 动
3)攻击者,制造多种恶意攻击。 作值函数, s)为 状 态 值 函 数,前 者 用 于 评 估 当 前 智 能 体 从
Vπ (
入侵检测智能体能 够 感 知 环 境 的 状 态,并 且 根 据 环 境 提 状态 s 开 始,执 行 动 作 a 且 服 从 策 略 π 的 期 望 返 回 (见
供的反馈信号rt(时 间 步t),通 过 学 习 选 择 一 个 合 适 的 动 作, 3)),后者表示智能体在状态s 下,执 行 动 作 a 得 到 的 奖 励
式(
来最大化未来积累奖励,即从当前时 间 步t 开 始,直 到 最 终 状 期望(见式(
4))。
50 Compu
terSc
i e 计算机科学 Vo
enc l.48, 7,
No. Ju
ly2021

Qπ (
s, Gt∣St=s,
a)= E π [ At=a] (
3) 旧策略的比例;与 Q-Le
arn
ing 不同,
PPO2 不使用经 验 缓 冲 区
Vπ ( Gt∣St=s]
s)= E π [ (
4) 来存储过去的经验,而是在线地从环境中学习。
该入侵检测系统框架中入侵检测智能体的动作空间为 正 策略梯度方法是计 算 策 略 梯 度 的 估 计 量,并 将 其 插 入 到
数离散值,“
0”表示 预 判 为 正 常 流 量,“
1, n”表 示 n 种 类
2,…, 随机梯度提升算法中,通过对策略参数θ 进行 随 机 梯 度 上 升,
型的攻击。马尔可夫决策过程定义了入侵检测智能体在进 行 计算策略梯度损失来更新策略网络的参数。
动作决策过程中的状态值函数和动作值函数,之后,通过贝 尔 ∧ ∧
θ)= Et[
LPG ( l at∣st)
ogπθ( At] (
10)
曼 方 程 对 状 态 值 函 数 或 动 作 值 函 数 进 行 形 式 化 表 示 ,完 成 入
A(
s,
π
a)=Q (
s,a)-V (
π
s) π (
11)
侵检测智能体的动作决策过程。 ∧ ∧
其中,
At是时间步长t 的优势函数估计量。 当At 是 正 数、梯 度
马尔可夫决策过程具有马 尔 可 夫 性 质,即 在 时 间 步t+1
为正时,应当增加这 些 动 作 的 概 率,反 之,应 当 降 低 这 些 动 作
时,环境的反馈仅取决于上一 时 间 步t 的 状 态 和 动 作a,与 时

间步t-1 以及t-1 步之前的时间没有相关性,而系统的下一 的概率。期望Et表明 了 有 限 批 次 样 本 的 经 验 平 均,当 采 用 策
个 状 态 只 与 当 前 状 态 有 关 ,因 此 可 以 简 化 入 侵 检 测 智 能 体 的 略πθ 时,一般来说,神经网络把从环境中观 察 到 的 状 态 作 为 输
决策过程。该系统的 马 尔 可 夫 决 策 过 程 是 一 个 五 元 组,
S为 入,采取的行动作为输出,
logπθ 是策略网络输出的概率对数。
A 为动作空间集,
状态空间集, Psa 表 示 状 态 转 移 概 率 (在 状 态 为了防止 入 侵 检 测 智 能 体 训 练 时 震 荡 幅 度 过 大 ,
PPO2
s 下执行动作a 后,转移到另一个状态s
′的概率分布并带有动 引入了目标函数 (
cl
ippedsu
rroga
tef
unc
tion )来 约 束 新 旧 策
作奖励,记作 P(
′,
s s,
r| R 为奖励函数,
a)), γ 为折扣因子。 略的更新比例,实现在多个步 骤 中 小 批 量 更 新。 定 义rt (
θ)=
MDP= (
S,A,
Psa ,
R,γ) πθ( at∣st)
为新旧策略比例,保守 政 策 迭 代 (
CPI)损 失 的 表
at∣st)
πθold (
S= {
S1 ,
S2 ,…,
Sn } 5)

达式为:
A= {
A1 ,
A2 ,…,
An }
∧ ∧
贝尔曼方程将及时奖励 Rt和 未 来 状 态 的 折 扣 值γ、时 间 θ)= Et[
LCPI ( rt(
θ)At] (
12)
步t+1 的状态值 V(
St+1 )相 加,反 映 了 当 前 状 态 下 的 状 态 值 如果没 有 约 束,CPI 的 最 大 化 会 导 致 梯 度 爆 炸,使 用
lman 等 21 提出的目标可以惩罚那些比例远离 1 的改变。
[ ]
St)和下一时刻状态值函数 V(
函数 V( St+1 )之间的关系。 Schu
Gt∣St=s]
s)= E [
V( 剪切函数如下:
∧ ∧ ∧
Rt+1 +γGt+1 ∣St=s]
=E [ θ)= Et[
LCLIP ( min(
rt(
θ)At,
cl
ip(
rt(
θ),
1-ε,
1+ε)
At)]
=E [ St+1 )∣St=s]
Rt+1 +γV( (
6) 13)

类似地,可以得出动作值函数 Q(
s,a): T ∧
LθCkLIP (
θ)= E [∑ mi
n(rt (
θ)At ,
clp(
i rt (
θ),
1-ε,
πk
1+ε)
Q(
s,a)= E [ St+1 )∣St=s,
Rt+1 +γV( At=a] τ~πk t=0

=E [
Rt+1 +γ E a~πQ( a)∣ St=s,
St+1 , At=a](
7) πk
At ))] (
14)
贝尔曼方程的递归 更 新,可 分 解 为 动 作 值 函 数 和 状 态 值 通过θk+1 =a
rg maxL
CLIP
θk θ)对 策 略 进 行 更 新,其 中 ε=

θ
函数。当进行下一个 动 作 时,两 个 值 函 数 分 别 遵 循 策 略 π 更
2 是超参数,最小值内的第 一 项 是 CPI,第 二 项 通 过 剪 切 比
0.
新值函数,其中Ps

′ 代表状态转换概率。贝尔曼方 程 的 递 归 更

例来修改替代目标,这将保证rt在对应刺激区间(
1-ε,
1+ε)。
新公式如下:
n 函数使得最终目标是 CPI的下界。当且 仅 当 目 标 改 善 时
mi
Vπ ( a ∣s)(
s)= ∑ π( R(s, a
a)+γ∑ Ps
s′Vπ (
′))
s (
8) 忽略比例,当使得目标变差时考虑比例。
a∈A s
′∈S

Qπ (
s,a)=R(
s,a)+γ∑ P ∑π(
a′∣s

′)

s′Qπ (
′,
s ′) (
a 9) 4 入侵检测智能体训练
3.

′∈S a∈A

入侵检测智能体用状态值函数计算当前策略下每个状 态 图 2 给出了入侵检测智能体与环境 交 互 的 过 程,
t=0,
1,
的 价 值,用 动 作 值 函 数 计 算 每 个 状 态 下 分 别 做 出 不 同 动 作 的 3,…,智能体观察到环境中的 部 分 或 者 是 全 部 状 态 ,
2, st ∈S,
值。选取当前状态下 使 价 值 函 数 取 得 最 大 值 的 动 作 ,进 行 策 然后做出动作的决策at∈A(
s),在每一次动 作 完 成 后,会 更 新
略优化。 环境的状态st+1 和 得 到 一 个 刚 才 完 成 动 作 的 反 馈 结 果rt+1 ∈
3.
3.3 训练策略定义 R R ,反馈的好坏会间接影响以后的决策。 在 这 个 入 侵 检 测
入侵 检 测 智 能 体 的 训 练 策 略 是 状 态 到 动 作 的 映 射。 框 架 中,用 数 据 集 中 的 每 条 网 络 流 量 数 据 来 模 拟 真 实 工 业 物
DRL-IDS 运用的算法 PPO2 由 De nd 和 OpenAI 提 出。
epMi 1) 2)
联 网 中 产 生 的 网 络 流 量 数 据 ,用 价 值 函 数 模 拟 现 实 生 活 中 的
该 算法源于区域最佳算法 TRPO,相比 TRPO,
PPO2 更简单、 网络管理员,评判入侵检测智能体做出的动作的好与坏。
更通用,复 杂 度 也 更 低。PPO2 的 主 要 贡 献 是 简 化 了 Ku
ll- 入侵检测智能体 训 练 过 程 分 为 3 个 阶 段。 第 一 阶 段,入
ba
ck-Le
ibl
er惩罚系数的 数 学 运 算 过 程。 作 为 一 种 基 于 策 略 侵检测智能体从环境中得到策略,并学习得到环境状态模 型;
梯度的方法,其特性是直接训 练 随 机 模 型 或 者 是 神 经 网 络,相 第二阶段,入侵检测智能体根据策略评估相应的价值函数;第
比于另一种深度强化学习算法 A3C [
20]
的误差函数需要针对目 三 阶 段,入 侵 检 测 智 能 体 根 据 价 值 函 数 判 断 当 前 状 态 应 该 做
标策略取对数后进行优化,
PPO2 的误 差 函 数 则 主 要 是 评 估 新 出的动作,并根据优势函数计算回报,最后进一步优化策略 直

1)

ttp:∥de
epmi
nd.
com/
2)

ttp:∥opena
i.om/

李贝贝,等:
DRL-IDS:基于深度强化学习的工业物联网入侵检测系统 51

到 神 经 网 络 的 训 练 收 敛 ,训 练 结 束 后 得 到 成 熟 的 入 侵 检 测 智 的标签函数,错失了攻击则会终止,否则继续选择下一个状 态
能体。 进行动作。PPO2 算法以 Ac
tor-Cr
iti
cSt
yle 呈现 21 。
[ ]

4 实验与结果

1 实验环境
4.
本文提 出 的 DRL-IDS 中 使 用 的 强 化 学 习 的 框 架 基 于
0)22 ,是 一 套 基 于 OpenAI 基 线 的 强
) [ ]

tab
leba
sel
ine1 (2.
10.
化学习算法的改进实现。依 赖 Tens
orf
low (
1. 0)这 一 端
14.
到端的机器学习开源平台进行神经网络的搭建,使用 OpenAI
2)库来 辅 助 完 成 强 化 学 习 中 自 定 义 的 环 境 ,并

Gym2 (0.
17.
图 2 DRL-IDS 入侵检测强化学习过程 使用 4 个指标来评 估 模 型 的 性 能,即 准 确 率、精 确 率、召 回 率

ig.
2 Re
inf
orc
emen
tle
arn
ingp
roc
esso
fDRL-IDS 和 F1 评分。对于硬件,本次实 验 在 Ubun
tu18. 3LTS 系
04.

本文使 用 的 PPO2 算 法 基 于 演 员 -评 论 家 风 格 (Ac


tor- 统的机器上完成,实 验 所 采 用 的 硬 件 具 体 如 下: l:
CPU Mode

Cr
iti
cSt
yle

21]
),入侵检测智能体作为演员(
act
or)训练策略网 I
nte on E5-2618L v3,GPU:NVIDIA GeFo
l Xe rce RTX

络。以最大化未来累积奖励 G 为 目 标,预 测 出 目 前 应 当 执 行 2080TI,


RAM:
64GB。

的策略。价值函 数 通 过 价 值 网 络 (
cri
tic)来 评 价 策 略 网 络 的 2 数据集
4.

输出。为了使神经网 络 更 新 及 时,需 要 融 合 策 略 网 络 和 价 值 本文采用了美国能源部橡树岭国家实验室公开发布的 天

网络,让两个网络的权重 进 行 共 享,同 时 进 行 更 新。PPO2 使 然 气 管 道 运 输 网 络 的 真 实 数 据 集 [23],对 所 提 的 DRL-IDS 入

用 定 长 轨 迹 段,轨 迹 段 指 一 组 状 态 和 动 作 的 历 史 记 录 形 式 化 侵检测模型进行性 能 评 估 等 实 验。 在 该 数 据 资 源 中,分 别 收

的表示。在每次迭代中, 集了正常网络流量数据和 7 种不同类型的攻击数据。该 数 据


N 个并行智 能 体 收 集 T 个 步 长 的 数
据。在 NT 步上构造损 失,并 使 用 小 批 量 梯 度 下 降 或 者 Ad- 集有 26 个特征和 1 个标签。在实验中,我们将数据集 划 分 为

am 优化器对其进行优化,使用在策略网络和价值网络之 间 共 3 个 部 分,
60% 用 于 训 练,
20% 用 于 测 试,
20% 用 于 验 证。 对

享 3 个隐含层的 MLP 网络,第 1 层 有 128 个 神 经 元,第 2 层 于本文所有实验,均 在 相 同 数 据 集 上 进 行 测 试。 每 种 类 别 的

有 64 个神经元,第 3 层有 64 个神经元,并在每个隐含 层 后 增 数量情况如表 1 所 列。 同 时,为 了 尽 可 能 避 免 实 验 结 果 产 生


误差,本文所有实验 均 重 复 进 行 10 次,并 对 所 有 计 算 结 果 取
加一个线性单元 ReLU 激活函数。该框架的训练过程如算法
平均值,从而产生最终的实验结果。
1 所示。
算法 1 基于 PPO2 的入侵检测系统构建 表 1 数据集描述

输入:(
ε,θ,
F) Tab
le1 Da
tas
etde
scr
ipt
ion

1.
S=Se
lec
tFe
at e(
ur F);//特征选择算法 攻击种类 数量 攻击类型描述
Noma
l 61156 正常网络流量
2.初始化入侵检测环境:
A;O;
Res
et(
S);
Step();
NMRI 2763 简单的恶意响应注入
3.
fork=1,
2,…,
do
CMRI 15466 复杂的恶意响应注入

ora
ctr=1,
o 2,…,
N do MSCI 782 恶意状态命令注入
用旧策略πθold 在入侵检测环境中运行 T 个时间步长; MPCI 7637 恶意参数命令注入
∧ ∧ MFCI 573 恶意函数命令注入
用优势函数估计A1,…,
At;
DoS 1837 拒绝服务攻击
CLIP
计算策略更新θk+1=a
rg maxLθk ( θ); Re
conna
iss
anc
e 6805 侦察攻击
θ


tep();
3 数据预处理
4.
Re
set(
S);
该天然气管道运输网络的数据集总共有 26 个特征,我 们
endf
or
使用 3.
2 节提到的特 征 选 择 方 案 去 除 无 用 的 特 征,在 不 降 低
经过 K 个时间步长用小批量 SGD(
Adam)更新,其中:
T ∧ ∧
性能的前提下减小 运 算 的 复 杂 度。 第 一 步,删 除 0 个 缺 失 率
CLIP π πk )
Lθk ( θ)= E [∑ mi
n(rt(
θ)Atk ,
cl
ip(
rt(
θ),
1-ε,
1+ε)
At ];
τ~πk t=0 大于 0.
6 的特征。第 二 步,删 除 8 个 只 有 单 一 值 的 特 征。 第
endf
or 三步,删去 4 对 强 相 关 联 的 特 征 中 的 任 意 一 个 。 第 四 步,用
算法 1 中,
F 表示原始数据集;
S 是特征选择以及数据处 L
i tGBM 进行特征的重要性排序,选 取 前 12 个 特 征 进 行 实
gh
理后的数据集;
A 为动作空间,
1 表示发出警报,
0表 示 不 做 任 验。第五步,将 变 量 归 一 化,生 成 特 征 向 量,最 后 进 行 独 热
O 为观察空间,维度为 S 的 特 征 个 数,
何事情; 0 是 正 常 流 量, 编码。
其他代表攻击流量;
Res
e S)为 重 置 函 数,随 机 地 从 数 据 集 S
t( 4 基于 PPO2 的 DRL-IDS性能评估
4.
中选择训练开始的位置;
Step()为 比 较 动 作 空 间 和 观 察 空 间 实验使用 S
tab
leba
sel
ine 的 PPO2 接 口 实 现 模 型 训 练。

1)

ttp:∥s
tab
le-ba
sel
ine
s.r
ead
thedo
cs.
io/
2)

ttp:∥gym.
opena
i.om/

52 Compu
terSc
i e 计算机科学 Vo
enc l.48, 7,
No. Ju
ly2021

训练过程中的主要参数如表 2 所列。 表明,每种攻击检 测 的 精 密 度、


F1 评 分、召 回 率 都 较 为 理 想。

表 2 PPO2 超参数表 所有实 验 使 用 宏 平 均 来 综 合 评 价 模 型 的 综 合 表 现 ,得 到

Tab
le2 PPO2hype
rpa
rame
ter
stab
le DRL-IDS 的准确率为 99.
09% 。

超参数名称 含义 取值 表 4 DRL-IDS 入侵检测模型每种类型的表现


n_
env 并行运行的环境副本数 15i
nt Tab
le4 C
las
sif
ica
tionr
epo
rto
fDRL-IDS
每个环境每次更新运行的步骤数
n_
steps 512i
nt 攻击种类 F1 评 分 召回率 精密度 准确率
(例 如 ,批 大 小 为 n_
steps×n_
env)
Noma
l 0.
9930 0.
9924 0.
9936 0.
9909
t_
en c
oef 损失熵系数 0.
00001f
loa
t NMRI 0.
9512 0.
9457 0.
9568 0.
9909

inea
rs chedu
le CMRI 0.
9943 0.
9987 0.
9899 0.
9909

ear
ning_
rat
e 学 习 速 率(可 以 是 一 个 函 数) from 0.0021 MSCI 0.
9647 0.
9588 0.
9706 0.
9909
to0. 0 MPCI 0.
9767 0.
9793 0.
9741 0.
9909
max_
grad_
norm 梯度剪切的最大值 0.
8fl
oat MFCI 0.
9737 0.
9487 1.
0000 0.
9909
mi
niba
tche
s 每次更新的培训小批数量 16i
nt DoS 0.
9855 0.
9755 0.
9957 0.
9909
Re
conna
iss
anc
e 1.
0000 1.
0000 1.
0000 0.
9909
DRL-IDS 入侵检测智能体 分 别 在 测 试 集、训 练 集 和 验 证
集上进行测试,结果如表 3 所列,各项指标均在 97% 以上。 此框架基于 PPO2 的 入 侵 检 测 系 统 DRL-IDS 在 训 练 中
用 Tens
orBoa
rd(
Tens
orF
low 可 视 化 工 具 包 )跟 踪 不 同 的 变
表 3 DRL-IDS 入侵检测模型性能表现
量,图3 中比较了 PPO2, DDQN 的“
DQN, Epi
s e奖励”,图4-
od
Tab
le3 Pe
rfo
rmanc
eofDRL-IDS
图 6 分别展现了 PPO2 的“折现回报”、线 性 学 习 率 以 及“
Los

数据子集 准确率 召回率 精密度 F1 评 分
Te
st 0.
9909 0.
9717 0.
9857 0.
9785 函数”。从“
Epi
sode奖励”可 以 看 出,相 比 其 他 两 种 深 度 强 化
Tr
ain 0.
9909 0.
9762 0.
9840 0.
9799 学习算法,基于 PPO2 算 法 的 入 侵 检 测 在 环 境 中 得 到 的 奖 励
Va
lida
tion 0.
9891 0.
9717 0.
9830 0.
9773
在开始训练时 就 得 到 稳 步 提 升。 从 图 4- 图 6 可 以 看 出,基
表 4 列出了 DRL-IDS 的各类攻击的检 测 结 果,实 验 结 果 于 PPO2 算法的入侵检测框架收敛快且稳定。


a)PPO2Ep
isode奖 励 (
b)DDQN Ep
isode奖 励 (
c)DQN Ep
isode奖 励

图 3 Ep
isode 奖励

ig.
3 Ep
isoder
ewa
rd

图 4 折现回报 图 6 Lo
ss 函数

ig.
4 Di
scoun
tedr
ewa
rd F
ig.
6 Lo
ssf
unc
tio

5 与主流入侵检测系统的性能对比
4.
将此基于 PPO2 算法的入侵检测系统在相同 的 神 经 网 络
结构下与强化学习领域的另一种算法 DDQN[24]进 行 对 比,同
时 还 与 基 于 深 度 学 习 的 主 流 学 习 算 法 LSTM[25], [ ]
CNN 26 ,
RNN 27 的入侵检测系 统 进 行 对 比。 本 文 对 比 算 法 的 参 数 设
[ ]

置分别 参 考 文 献 [
25-27]。 实 验 结 果 表 明 (如 表 5 和 图 7 所
示),
DRL-IDS 在准确率、精密度、召回率、
F1 评分等方 面 均 优
图 5 线性学习率 于其他基准系统(所 有 实 验 均 使 用 统 一 数 据 集)。 同 时,将 基

ig.
5 Le
arn
ingr
ate 于深度学习的检测方法和基于深度强化学习的检测方法进 行
李贝贝,等:
DRL-IDS:基于深度强化学习的工业物联网入侵检测系统 53

对比可以看出,基于深度强化学习的检测方法整体表现更好。 Veh
icu
larTe
chno
logy,
2020,
69(
3):
3068-3079.

4] LOPEZ-MARTIN M,
CARRO B,
SANCHEZ-ESGUEVILLAS
表 5 入侵检测模型对比
A.
App
lic
atono
i fde
epr
ein
for
cemen
tle
arn
ingt
oin
trus
ionde
tec-
Tab
le5 Pe
rfo
rmanc
ecompa
ris
on wi
tho
the
rde
tec
tion mode
ls

ionf
orsupe
rvi
sedp
rob
lems[
J].
Expe
rtSys
tems wi
th App
lic
a-
模型 准确率 召回率 精密度 F1 评 分
CNN 0.
9884 0.
9769 0.
9695 0.
9730

ions,
2020,
141:
112963.
RNN 0.
9854 0.
9817 0.
9602 0.
9705 [
5] HSU Y F,MATSUOKA M.
A De
ep Re
inf
orc
emen
t Le
arn
ing
LSTM 0.
9884 0.
9829 0.
9604 0.
9712 App
roa
ch f
or Anoma
ly Ne
two
rk I
ntr
usi
on De
tec
tion Sys
tem
DDQN 0.
9905 0.
9841 0.
9708 0.
9773

C]∥2020IEEE 9
thI
nte
rna
tiona
lCon
fer
enc
e on C
loud Ne
t-
DQN 0.
9904 0.
9848 0.
9691 0.
9768
PPO2 0.
9910 0.
9856 0.
9717 0.
9785 wo
rkng (
i Cl t).
oudNe 2020:
1-6.

6] PENG A N,
ZHOU W,
JIA Y,
eta
l.Ove
rvi
ew o
fRe
sea
rchon
Se
cur
ityo
fIn
ter
neto
fTh
ingsOpe
rat
ingSys
tem[
J].J
our
nalon
Commun
ica
tions,
2018,
39(
3):
22-34.

7] AL-HAWAWREH M,MOUSTAFA N,
SITNIKOVA E.
Iden-

if
ica
tiono
f ma
lic
iousa
cti
vit
iesi
nindus
tri
ali
nte
rne
toft
hings
ba
sedonde
epl
ear
ning mode
ls[
J].
Jour
nalo
fIn
forma
tionSe
cu-

ityand App
lic
atons,
i 2018,
41:
1-11.

8] ROY B,
CHEUNG H.
A De
epLe
arn
ing App
roa
chf
orI
ntr
usi
on
De
tec
tioni
nIn
ter
neto
fTh
ingsus
ingB
i-Di
rec
tiona
lLongSho
rt-
图 7 与其他模型的对比
Te
rm Memo
ry Re
cur
ren
t Neur
al Ne rk[
two C]∥28
thI
nte
rna-

ig.
7 Compa
ris
on wi
tho
the
rmode
lba
sedIDSs

iona
l Te
lec
ommun
ica
tion Ne
two
rks and App
lic
ati
ons Con
fe-
实验进一步比较了本文提出的基于 PPO2 算 法 的 入 侵 检 r e(
enc ITNAC).
2018:
1-6.
测系统 DRL-IDS 和基于 DDQN 的 入 侵 检 测 系 统、基 于 DQN [
9] YANG H,
CHENG L,
CHUAH M C.
Deep-Le
arn
ing-Ba
sed
的入侵检测系统在相同数据量的情况下所需要的训练时间, Ne rkI
two ntr
usi
on De
tec
tionf
orSCADA Sys
tems[
C]∥2019

实验结果表明,
DRL-IDS 需要 7467.
60s,基于 DDQN 的入侵 IEEE Con
fer
enc
e on Commun
ica
tions and Ne
two
rk Se
cur
ity

CNS).Wa
shi
ngon,
t DC,
USA:
IEEE,
2019:
3-5.
检测系统需 要 19290.
87s,基 于 DQN 的 入 侵 检 测 系 统 需 要

10]I
SMAIL M,
SHAABAN M,
NAIDU M,
eta
l.De
ep Le
arn
ing
10s。结果表明,基 于 PPO2 的 工 业 物 联 网 场 景 下 的 入
18945.
De
tec
tiono
fEl
ect
ric
ityThe
ftCybe
r-At
tacksi
n Renewab
leDi
s-
侵检测系统训练的时间成本低,
更适用于真实的入侵检测场景。

ribu
ted Gene
rat
ion[C]∥IEEE Tr
ans
act
ionson Sma
rt Gr
id,
结束语 本文针对 复 杂 多 样 的 工 业 物 联 网 环 境,提 出 了
2020:
3428-3431.
一种新 的 基 于 深 度 强 化 学 习 算 法 PPO2 的 入 侵 检 测 系 统

11]LIB,WU Y,
SONGJ,
eta
l. epFed:
De Fede
rat
ed De
epLe
arn
ing
DRL-IDS。该系统运 用 了 基 于 L
i tGBM 的 特 征 选 择 算 法,
gh f
orI
ntr
usi
on De
tec
tion i
nIndus
tri
al Cybe
r-Phys
ica
l Sys
tems
有 效 提 取 了 工 业 物 联 网 数 据 中 最 有 效 的 特 征 集 合 ;结 合 深 度 [
J].
IEEE Tr
ans
act
ionsonI
ndus
tri
alI
nfo
rma
tis,
c 2021,
17(
8):
学习算法将多层感知器网络的隐藏层作为 PPO2 算 法 中 的 价 5615-5624.
值网络和策略网络的 共 享 网 络 结 构;基 于 PPO2 算 法 构 建 了 [
12] KURT M N,OGUNDI
JO O,
LIC,
eta
l.On
line Cybe
r-At
tack
工业物联网入侵检测模型。在美国能源部橡树岭国家实验 室 De
tec
tioni
n Sma
rt Gr
id:A Re
inf
orc
emen
t Le
arn
ing App
roa
ch
公开发布的工业物联网真实数据集上开展的大量实验结果 表 [
J].
IEEE Tr
ans
act
ionsonSma
rtGr
id,
2019,
10(
5):
5174-5185.

明,本文提出的入侵检测系统 DRL-IDS 在检测 对 工 业 物 联 网 [


13]SETHI K,
EDUPUGANTI S,
KUMAR R,
eta
l.A c
ont
ext-

的 多 种 类 型 网 络 攻 击 时 性 能 表 现 良 好 ,相 比 现 有 的 基 于 深 度 awa
rer
obus
tin
trus
ionde
tec
tions
ysem:
t are
inf
orc
emen
tle
arn-

ng-ba
sedapp
r ch[
oa J].
Int
erna
tiona
lJour
nalo
fIn
forma
tionSe-
学习或深度强化学 习 的 入 侵 检 测 系 统,在 准 确 率、精 密 度、召
cur
ity,
2020,
19:
657-678.
回率、
F1 评分方面均 更 胜 一 筹,且 显 著 降 低 了 入 侵 检 测 模 型

14]OTOUM S,
KANTARCIB,MOUFTAH H.
Empowe
ring Re
in-
的训练时间。在今后 的 工 作 中,我 们 将 探 索 基 于 分 布 式 架 构

orc
emen
tLe
arn
ingon B
igSens
ed Da
taf
orI
ntr
usi
on De
tec
tion
的工业物联网入侵检测系统。

C]∥2019IEEEI
nte
rna
tiona
lCon
fer
enc
eon Commun
ica
tions

ICC2019).
2019:
参 考 文 献 1-7.

15]CAMINERO G,
LOPEZ-MARTIN M,
CARRO B.
Adve
rsa
ria


1] ZHOU W G.Ana
lys
iso
fHi
ddenDange
rso
fIndus
tri
alI
nte
rne
t env
ironmen
tre
inf
orc
emen
tle
arn
inga
lgo
rit
hmf
ori
ntr
usi
onde-

fTh
ingsand Exp
lor
ati
ono
fPr
ote
cti
onS
tra
teg
ies[
J].
Ele
ctr
o- t
ect
ion[
J].
Compu
terNe rks,
two 2019,
159:
96-109.

ics Wo
rld,
2019(
21):
13-18. [
16]SONG J,LI B,WU Y,
e l.ReAL:A New Re
ta sNe
t-ALSTM

2] LING M H,
YAU K L A,QADIRJ,
eta
l.App
lic
ati
ono
fre
in- Ba
sedI
ntr
usi
on De
tec
tion Sys
tem f
ort
heI
nte
rne
tof Ene
rgy

orc
emen
tle
arn
ingf
ors
ecur
ityenhanc
emen
tinc
ogn
iti
ver
adi
o [
C]∥2020IEEE45
thCon
fer
enc
eonLo
calCompu
terNe
two
rks
ne rks[
two J].
App
liedSo
ftCompu
ting,
2015,
37:
809-829. (
LCN).
2020:
491-496.

3] LU X,
XIAO L,
XU T,
eta
l.Re
inf
orc
emen
t Le
arn
ing Ba
sed [
17] NAHLER G.
Pea
rsonc
orr
ela
tionc
oef
fic
i t[
en J].Di
cti
ona
ryo

PHY Au
then
tic
ati
onf
or VANETs[
J].
IEEE Tr
ans
act
ionson Pha
rma
ceu
tic
alMed
icne,
i 2009,
1025:
132-132.
54 Compu
terSc
i e 计算机科学 Vo
enc l.48, 7,
No. Ju
ly2021


18] WANG H,
CHEN H Y,
LIU S F.
Int
rus
ion De
tec
tion Sys
tem us
ings
equen
tia
lLSTM Neur
al Ne
two
rksau
toenc
ode
rs[C]∥
Ba
sedonImp
roved Na
iveBaye
s Al
gor
ithm[
J].
Compu
terS
cie
n- 201826
thS
igna
lPr
oce
ssi
ngand Commun
ica
tions App
lic
ati
ons
e,
c 2014,
41(
4):
111-115,
119. Con
fer e(
enc IU).
S I r,
zmi Turkey:
IEEE,
2018:
2-5.

19] WU Y,MANS
IMOV E,
LIAOS.
Sca
lab
leTr
ust-Re
gion Me
thod [
26] MELIBOYEV A,
ALIKHANOV J,
KIM W.
1D CNN Ba
sed

or De
ep Re
inf
orc
emen
t Le
arn
ing Us
ing Kr
one
cke
r-Fa
cto
red Ne
two
rkI
ntr
usi
onDe
tec
tion wi
th No
rma
liz
ati
ononImba
lanc
ed
App
rox
ima
tion[
C]∥Pr
oce
edi
ngso
fthe31s
tIn
ter
nat
iona
lCon- Da
ta[
EB/OL].
htp:∥a
t rxi
v.o
rg/abs
/2003.
00476v2.

erenc
eon Neur
alI
nfo
rma
tion Pr
oce
ssi
ng Sys
tems.Ca
lif
orn
ia: [
27]YIN C L,
ZHU Y F,
FEIJL,
eta
l.A De
epLe
arn
ing App
roa
ch
Cur
ran As
soc
iat
e nc,
sI 2017:
5285-5294. f
orI
ntr
usi
onDe
tec
tion Us
ing Re
cur
ren
t Neur
alNe rks[
two J].

20] MNIH V,
BADIA A P,MIRZA M,
eta
l.As
ynchr
onous Me- IEEE Ac
ces,
s 2017,
5:21954-21961.

hodsf
orDe
epRe
inf
orc
emen
tLe
arn
ing[
C]∥I
nte
rna
tiona
lCon-

erenc
eon Ma
chi
neLe
arn
ing(
PMLR2016).
2016:
1928-1937. LIBe
i-b
ei,
bor
nin1992, D,
Ph. a
sso
cia
te

21]SCHULMAN J,WOLSKIF,DHARIWAL P.
Prox
ima
lPo
lic
y r
pof
ess
or,
isa membe
rof Ch
ina Com-
Op
timi
zat
ion Al
gor
ithms[
EB/OL].
htp:∥a
t rxi
v.o
rg/a
bs/1707.
pu
terFede
rat
ion.Hi
s ma
inr
ese
archi
n-
06347.

ere
stsi
ncl r-phy
ude cybe sic
al sy
stem

22] HILLA.
Stab
le-ba
sel
i s[
ne EB/OL].(
2021).
htt
ps:∥s
tab
leb
ase-

ecu
riy,
t i
ndus
tri
alc
ont
rolsy
stems
ecu-

ine
s.r
ead
thedo
cs.
io/en/ma
ste
r/.

ity,
big da
ta&p
riva
cy p
res
erva
tion,

23] MORRI
S T,
GAO W.
Indus
tri
al Con
tro
lSys
tem Tr
aff
ic Da
ta
andapp
liedc
r t
ypog
raphy.
Se
tsf
orI
ntr
usi
on De
tec
tion Re
sea
rch[
C]∥I
nte
rna
tiona
lCon-

erenc
eonCr
iti
calI
nfr
ast
ruc
tur
ePr
ote
cti
on.
Ber
lin,
Hei
del
beg:
r i
HEJun-jang,
bor
nin1993, D,
Ph. a
ssi
s-

Sp
ri r,
nge 2014:
65-78. t
antp
rof
ess
o s ma
r.Hi inr
ese
archi
nte-

24]VAN HASSELT H,
GUEZ A,
SILVER D.
Deep Re
inf
orc
emen
t r
est
sinc
lude cybe
rse
cur
ity,a
rti
fic
ial
Le
arn
ing wi
thDoub
le Q-l
ear
ning[
EB/OL].
htp:∥a
t rxi
v.o
rg/ immune sy
stem,da
ta mi
ning,ma
chi
ne
/1509.
abs 06461v2. l
ear
ning,
ande
vol
uti
ona
ryc
ompu
ting.

25] MIRZA A,
COSAN S.
Compu
ter ne
two
rk i
ntr
usi
on de
tec
tion

You might also like