Professional Documents
Culture Documents
基于 强化 学 习 的 自 馈t
e制 裔
1
Re i n fo r c e m e n t l e a r n i n g fe e d fo r w a r d c o n t r o l l e r
马 一
鸣
2 02 1 年 6
月
国 内 图 书 分类号 : TP 〗 8
学 校代 码
1 : 1 0079
国 际图 书 分类号 : 68 1 . 5 密级 公 开
:
硕 士 学 位论文
基于 强化 学 习 的 前馈控制 器
硕 士 研 究 生 马
鸣
一
导 师 :
曾 德 良教授
申 请 学 位 : 工学硕 士
学 科 :
控制 科学 与 工程
专 业 :
控制理论 与 控制 工程
所 在 学 院 :
控制 与 计 算 机 工 程 学 院
答 辩 日 期 : 2 02 1 年 6
月
授予 学位单位 :
华北电力大学
C l a s s i f i e d I nd e x : TP 1 8
1
U D C
. . : 6 8 1 .
5
The s i s fo r t h e M as t e r D e gr e e
Re i n fo r c e m e n t l e a r n i n
g fe e d fo r w a r d c o n t r o l l e r
Cand d a te
i :
Ma Y M i i ng
S u p e rv i s o r : P r o f Z e n g D e
. l i an g
Acad em i c D e g re e A p p l i e d fo r : Mas t e r of E n g n e er n g
i
i
S p e c i a l i ty : C on tr o l S c i e n c e an d E n g i n e e r i n g
S c h o ol : S ch o o l o f C o n tr o l an d C o mp u ter
En g i ne er
in
g
D a t e o f D e fe n c e :
Ju n e ,
2 02
1
D e g r e e C o n fe r r -
i ng -
I n s t i t u ti o n : No r
th C h i n a E e c t ri c P o w e r U n i v e r s i ty
l
华北 电力大 学硕 士 学位论文原 创 性声 明
本人郑重声 明 :
此处所提交 的 硕士学位论文 《 基 于 强化 学 习 的 前馈 控制 器 》 ,
是
本人在导师指导下 , 在 华 北 电 力 大 学 攻 读 硕 士 学 位期 间 独 立 进 行 研 究 工 作 所 取 得 的
成果 据本 人 所 知 论文 中 除 已 注 明 部 分 外 不 包含 他 人 已 发 表 或撰 写 过 的 研 究成 果
。
,
。
作者签名 :
3
-
嘧 日 期 : 2。 幻 年 月〕
日
华北 电 力大 学 硕 士 学 位论文使用 授权书
《 基于强化学 习 的 前馈控制 器 》 系 本 人 在 华北 电 力 大 学 攻 读硕 士 学 位 期 间 在 导
师指导下完成 的 硕士 学位论文 。 本论 文的研究成果 归 华北 电力 大 学 所 有 ,
本论文 的
研究 内 容不 得 以 其 它 单 位 的 名 义 发 表 。 本 人 完 全 了 解华 北 电 力 大 学 关 于 保 存 、 使用
“ ”
本 学 位 论 文 属 于 请在 以 上 相 应 方 框 内 打 (
V )
:
保密□ , 在 年 解 密 后 适 用 本 授 权 书
不保密
作者签名 :
马
-
吃 日 期 :
>2 丨
年 d 月 3
日
导师签名 :
日 期 : >0 2 / 年< 月
■
^
日
^
华北 电 力 大 学硕士学位论文
摘要
研 究更加 智 能 的 , 具有 自 学 习 能力 的 控制 算法具有重要 意 义 。
随 着机器学 习 算法 的
强化学习 是具有 自 我 决策 能力 的 控制 算法 , 通 过 探 索 与 试错 拥 有 类 似 人 类 的 学
习 能力 , 通过学 习 不 断 改善 自 身策略 ,
具有优秀 的环境 自 适应 能 力 。
好 比工厂培训
新工人 样 强化 学 习 算 法在 具 有 优 秀控 制 能 力 之 前 需要 个长 时 间 的 复杂 的 训
一 一
, ,
练过 程 , 虽然拥有 自 适应 的 能力 ,
但 学 习 过渡 的 过程 中 存 在 为 控 制 系 统 带 来 负 面影
响 的可能 。 同时 , 当 被控对 象 具 有 时变特性 的 时 候 , 纯强化 学 习 算 法 的 学 习 过渡过
程 会 为 算 法 带 来鲁 棒 性 问 题 。 针 对 强 化 学 习 用 于 过 程控 制 时 的 训 练 时 间 较 长 , 过渡
性较差 问 题 ,
本文提 出 了 基于 强化 学 习 的 自 适应 补偿控制 算法 , 讨论 了 其在非线 性
系 统 过程 控 制 中 的 应 用 问 题 。
本文 的 主要工作 如下
:
首先 , 针对典 型 非线性 系 统 ,
设计 强化 学 习 算法控制 方案 , 研 宄 不 同 深度强化
学 习 算法在 非 线 性 系 统优化控 制 中 的 表现 , 证 明 强化学 习 算法 的 有 效性 , 同时引 出
其存在 的 问 题
。
。 ,
存在 会 提 高控制 系 统 的 鲁棒性 ,
同 样 设计 仿 真 实验验证 时 变对 象 本 方 法 的 有 效 性
。
接着 ,
考虑 复杂 的 过程控制 系 统大 多 很难 建立精 确 的 仿 真模 型 用 于 强化 学 习 算
法的训练 提 出 了 种 基 于 网 络 监 督 控 制 的 强 化 学 习 算法 利 用 网 络 监 督 控 制 方 法
一
, 。
,
根据 过程 运 行 历 史 数 据 来 求 解 基础 的 策 略 网 络 , 结合强化 学 习 方法对 策 略 网 络进 行
后 续 的 优化 , 并通过仿真实验验证 了 该方法 的 有 效性 。
最后 , 对全 文 内 容进行 总 结
并提 出 了 本 文 所 述 方 法 仍存 在 的 问 题 及 未 来 研 究 的 前 景
。
关键词 :
深度学 习 ;
强化学 习 ; 前馈 ; 自 适应 ; 非线性 系 统 ;
优化控制
1
华北 电力 大学硕士学位论文
A b s t r a c t
I n t h e c u rr e n t n d u s t r a i i l
p r o c e s sc o n
tr o l s
ystem
l i n e arc o n t r o l l e r sst i l l ac c o u n t fo r t h e
,
v a s t m aj o r i t
y . H o wev e r ,
t h ea c t u a l i ndu s tr a i l s
y s t e m sar em o s t yn o n l l i n e ar , an d th e a c tu a
l
i n du s tr a i l
p r o b l e m ss u c h assw i t chi n
gc o n d
i t i ons , e q u i
p
m ent a g n g an d s o o n ar e
i
chal l en
g i n g t ot h et r ad i t o n a i l c o n tr o l e r s l . I ti so f
g r e ats i g n
i f i c a n c et os t u d
ym o r e n t e i l l i
g e nt
an da d a
p
t i v ec o n tr o l al
gor
i t hm s . W i t hth ed e v e o p m e nt o f m a c h i n e l l e arn i n
ga g o r
l i t hm ,
t he
Re i n fo r c e m e n t l e arn i n g i sac o nt ro l a l
gor i t hmw i t hs e f d e c l
-
i s i o n a b i l i t
y . I t h a ss m i i l ar
h u m an e a rn n ga b l i i l i t
y t hr o u g h e x p o r a t o n a n d t r a l i i l an de rr o r I . t c a nc o n s t a n t l
y m p r o v
e i
y L k e
t so w ns t r at e
g e s t hr o u g
h e ar n n g s o t h a se x c e e nt e nv i r o n m e n t a l a d a abi
pt t
i i l i i l l l i . i
,
fa c t o r
ytr a n n gn e ww o r k e r si i
,
i ti s n e c e s s a ryt os t r e n g th e n e a rn n ga g o r l i l i t h m b e fo r e i t has
ex c e l l e n tc o n t r o a b l i l i t
y ,
i t n e e d sa o n g t m ec o m p e xt r a n n gp r o c e
l i l i i s s . A l t h o u h
g
i t h as
p r o c e s s o
f e ar n i n l
g
t ran s i t i on . A t t h e s a m et m e w h e n t h ec o n t r o i
,
l l e d o b
j
ec t h a st m e i
-
v a ry n g c h ar a c t e r
i i s ti c s t h e e arn i n
g
tr an s l i t i o np r o c e s so f t h e p u r e r e n fo r c e m e n t i l e arn i ng
,
al g o r i t hm w i l l bri n
gro b u s tn e s sp r o b e m st ot h ea g o r l l i t hm . I no r d e rt os o l v et h ep r o b l ems
o f d i ff c u i l t
ya n dp o o rt r an s i ti o n o f r e n fo r c e m e n t l e a r
nin i
g np r o c e s sc o n t r o
i l
, th i s
p
a
per
t h i s
p a p e r i s a s fo l l ows
F i r st l
y fo r t y p
,
i c a ln o n l i n e a rs
y ste m s ,
t h e c o nt r o l s c h e m eo fr e i n fo r c eme nt l e a rn n
g i
al gor i t hm i s d e s g n e d a n d t h e p e r fo r m a n c e o f d
i
,
i ffe r e n t d e
p
t h r e n fo r c e m e n t
i l e arn i ng
fo rw ard
.
l e a rn i n
ga n d t rai n n g T h r o u g hth
i . e fe e d fo r w a r d fe e d ba c ks tru c t ur e th ,
er e i n fo r c em e nt
t h es u
per o
i r i t
yo
f t h em e t h o d .
M e an wh i l e c o , ns d i er i n gt h et m e i
-
i nt h e
p
r opo s e dm e t h o dw i l l i m p r o v e h er o b u s t n e s so t ft h ec o n tr o l s
y s t e m . T h es m u i l a t i on
ex m e n sd e s
gn
e dt ov eri f
yt h ee f e c
f v e n e s so f h et m var n go b e m e hod
pe
e
-
r t t c t
y
i i i i t i i t
.
i
]
华北 电力 大学硕 士学位 论文
T he n ,
c o n si d e r
i n g t h e c o m p l e x p r o c e s s c o nt r o l s y s t e m i t i s d i ,
i cu
f lt t o e s t a b l i s h
a c c u r a t e s i mu l at i o n m o d e l fo r t h e t r a i n i n g o f r e i n fo r c e m e n t l e ar n i n
g a l g o r i t hm . A
r e i n fo r c e m e n t l e a r n i n
g a l g o r i t h m b a s e d on n e t w o rk s up e r v i s o r y c o n t r o l a l g o r i t hm i s
prop o se d . T h e s t r a t e gy n e t w o r k i sc o n s t r u c t e d a c c o r d i n g t o t h e h i s t o r i c a l d at a o f p r o c e s s
o p e r a t i o n b y t h e m e t h o d o f n e t w o rk s u p e r v i s o r y c o n t r o l a l g o r i t h m
,
a nd t h e n o p t i m i z e d b y
t h e r e n fo r c e m e nt
i l e arn i n
gm et
h o d Th e e ff
. e c ti v e n e s s o f th e m e t h o d i s v e r i f i e d b y
s i m u l at i o n ex
p e r i m e nt s . F na
i ll
y ,
t h e p a p e r s umm a r i z e s t h e c on t e n t o f t h e f u l l t e x t a n d p u t s
fo r w a r d t h e p r o b l e m s a n d f u t u r e r e s e a r c h
p r o sp e c t s o f th e m e th o d
.
K ey w o r d s D e e p :
l e arni n
g ;
r e i n fo r c e m e n t l e a r n i n
g ;
fe e d fo r w a r d ;
ad a
pt ive ;
n o nl i n e ar
s
y s te m ; o p t i m al c o nt r o
l
V
i
n
华北 电力 大学硕士 学位论文
目
录
觀
I
Abstra ct I I
第 1
章 绪论
1
1 . 1
研究背景及意义
1
1 . 2 强化学 习 研 宄现状
1
1 . 3 强化学 习 的应用 问 题
3
1 . 4 本文 的创作动机与 结构安排
5
第 2 章 强化学 习 理论基础
7
2 . 1 强化学 习 理论基础
7
2 . 1 . 1 强化学 习 基本概念
7
2 . 1 . 2 马 尔可夫决策过程
9
2 . 1 . 3 探索与 利用
9
2 2 .
强化学 习 常 用 算 法 1
0
2 2 Q 学 习 Q e arn ng
0
-
. . 1 l i 1
( )
2 2 . . 2 策略梯度 (
P o l i c yG r a d i e n t ) 1
1
2 3 .
深度强化学 习 1
3
2 3 . . 1 D QN 算法 1
3
2 3 . . 2D D P G算 法 1
5
第 3 章 基于 强化学 习 的 非 线性 系统 自 适 应 控制 1
8
3 . 1 ■ 描述 |
1
8
3 . 2 强化学 习 算法 设计 1
8
3 . 2 . 1
环境设计 1
8
3 . 2 2 .
网络设计 1
9
3 . 2 3 .
通用 参数设计 22
3 . 3 仿真实验 22
3 . 4 小结 24
第 4 章 基于强化学 习 的 自 适 应 补偿控制 系统 2 5
4 . 1 基于强化学 习 的 自 适应补偿控制算法 2 5
4 . 1 . 1
前馈 反馈控制 系 统
-
2
5
4 . 1 . 2 强化 学 习 前馈控制器 2 6
4 . 1 . 3 强化 学 习 前 馈控制 器 训 练算 法 2 8
I
V
华北 电力 大学硕士学位论文
4 . 2 仿真实验 2 9
4 . 2 . 1
实验对 象 2 9
4 . 2 . 4 实验结果 3 3
4 . 3 / J
n
^ 3 8
第 5 章 无模型强化 学 习 自 适应补偿控制 系统 3 9
5 . 1
神 经 网 络前 馈监督控制 器 3 9
5 . 2 无模型 强化 学 习 自 适应补偿控制 4 0
5 . 3 仿真实验 42
5 . 4 44
第 6 章 总结与展望 4 5
6 . 1
本文的 主要工作及贡献 45
6 . 2 问 题与 展望 46
参考 文献 4 8
攻读硕 士 学 位期 间 发 表 的 论文及 其 它 成 果 5 2
酬 5 3
V
华北 电 力 大 学 硕 士 学位论 文
第 1 章 绪 论
1 . 1
研究背 景及意 义
们的 常生活 机器 学 习 来源 于 模 式 识 别 和 人工 智 能 领 域 是 计 算 机科 学 领域 的
一
日 。 ,
部分 随着 各行各业 的 发展 数据量增 多 对 数据 处理 和 分析 的 效率 有 了 更 高 的
1
[ ]
。 , ,
制 算法 的 设计 提供 了 新 的 思路 数据 预测 技 术在工业 设 备状态监测 中 得 到 应用 [
3 ]
,
,
, ,
现逐渐趋于 人类甚至 超过 人类 [
5 ]
。
智 能 发 电 的 概念 趋优等 更高 的 要求
”
对运行 控 制 提 出 了 工业设备
“
学习
6]
自 自
[
, 、 。
不 断升级 , 逐渐 步入 智 能 化方 向 。
首先 ,
现有 电厂 的 数字 化 信 息 化及 , 自 动化水平 已
经达 到 了 较高 的 水准 再次 网 络 与 计算机技术快速发展 使得 电 厂 能够支持更
[
7]
。 , ,
加 复杂 的 运算 。 研宄 先进 的 智 能建模 , 控制 ,
优化理论是 工 业 智 能化 的 重要 技术方
8
向 [ ]
。
, ,
自 ,
自
,
拥 有 巨大 的 发展潜力 。
本文 旨 在 研 宄针对非线 性 系 统 ,
如 何 利 用 强化学 习 算 法 设计
变等特性 , 对 强 化 学 习 算 法进 行 改进 , 结 合 经 典 前馈 反馈 控 制 算 法 ,
提 出 了 基于 强
自 ,
。
1 . 2 强化学 习 研究现状
机器学 习 (
M ach i n e L e ar n n g ) i
的 目 的 是使 计算机 能够模仿 人类 的 学 习 能力 , 是人
。 ,
1
华北 电 力 大学 硕 士 学 位 论文
不 断 提升 自 己 机器 学 习 就 是 让 计 算 机拥 有 学 习 能力 的 技 术 [
1 G】
。
。
强化学 习 Re n fo r c e m e n t L e ar n n g RL 方法起源 于 动 物 心 理 学 相 关 的 原 理
1 1
[ ]
i i ,
,
( )
类 似 人类 采 用 试 错 的 学 习 方 式 , 通过 尝 试不 同 行为对环境 带 来 正 面或 负 面 的 作 用 来
强化 学 习 的 概念产 生 于 世纪 年代 在 年描述 的 种 随机
3]
M
1
20 n S ky
一
0 954
[
5 ,
i 1
“ ”
神 经模拟 强 化 计 算 器 采用 试错 学 习 的 思想 年 在马 尔
4]
5
了 Be
1 1
m an
[ [ ]
, 。 1 957 , l l
可 夫链 的 基础 上提 出 了 马 尔 可 夫 决 策过程 (
M arko v D e c i s i onP ro c e s s , MD P ) , 为强化
为 强 化 学 习 的 求解 提 供 了 数 学 工 具 。 至此 现代 强化学 习 理论 的 基本要素就 出 现 了
,
。
^
年 S ut o n 提出 了 时 序 差 分学 习 的 概念 年 S ut o n 首 次提 出 了 多
1
1 983 , ,
1 988 ,
步 时序 差 分 TD 算法 , 采用 单 步预 测 方法 简 化值 函 数 的 计 算 ,
大大 降低 了 强化学 习
求解 的 难 度 年 Wa 提出的 方 法 极大 的 推动 了 强化学 习
8]
1 7] 1
[
。 1 98 9 ,
t ki n S [
Q
-
l e am i n g
的 应 用 与 发展 , 直 到现在 ,
Q
-
为 了 解决 面对连续动 作 时 的 局 限 性 提 出 了 策略梯度
9]
Th o m a s
1
e ami n g Po
[
Q cy
-
l ,
(
l i
Grad i e nt , P G ) 算法 ,
将 离散动 作 空 间 转换为连续 的 策 略模 型 。 至此 , 经 典 的 强化学
习 理论知 识基本完善
。
出 利 用 深度 学 习 方法 来 处 理 高 维 数 据 ,
从此 , 深度 强化 学 习 的 概念 就 出 现 了 。 强化
最早 的 深度强化学 习 是 于 年提 出 的深度 网络
24
D e epM i nd 团队 [ 1
20 1 3 Q (
D e ep Q
l e am i n g ,
20 1 5 年 [ ]
,
2
华北 电力 大学硕 士学位论文
D QN 算法 的 改进 在 初始 D QN 的 基础 上 添 加 了 个 标网络 Ta r g e t N e t w o r k )
通
一
, 目 ( ,
过 目 标 网 络 与 原 本 的 卷积 网 络配合 , 大 大提升 了 算 法 的 稳定 性 。
实 现 对 复 杂 环 境状
态的感知 与 决策 , 使得 D QN 算法在 复 杂 工 作 中 达 到 人类 水平 的 能 力 。 之后 , 针对
[
, ,
l e
过优化 的 问 题 算法 入优 势 这 概念来丰 富 值 函 数 的
27]
D ue D QN 引 A d v an
一
ng
[
ta
, li
( ge)
估 计加 快 了 算法 的 收敛速度 。 然而 ,
D QN 的 改进 算 法并 不 能解 决 D QN 存在 的根本
缺陷 , 那就是 D QN 算 法动 作 空 间 的 离 散性 ,
无 法解 决连续 动 作 的 问 题 。 20 1 6 年
,
提出 深度 确 定 性 策 略梯 度算 法 D e ep D e
2 8]
L 了 m i ni s t i c P o l i cy Gr ad i ent
[
il li cra ter
p (
,
状态到 价值 的 映射 , 解决 了 连续动作场 景 的 控制 问 题
。
的 算法被 研 宄 出 来 。 20 1 6 年 , A l
ph a Go 战 胜 围 棋世 界冠军 李世石 ,
轰动世界 。
随后
改进 的 A p h aG o M as 战胜 当 今 围棋第 人柯 洁 再之后 改进 的 A ph a G o Z er o
先
一
l ter 。 ,
l
后 击 败 了A 和 强化 学 习 在 围 棋 领 域 占 据 了 统 治 地 位
2 9]
l
ph aG o A l
p ha G o M a s t e r
[
,
。
Z hu _ 等 人 采 用 示 范 增 强 策 略 梯 度 算 法 (
D e m o n s t r at i o nA u gm ent e d P o l i cy
e nt ,
[ ]
i 。 Jie
)
强化学 习 有 效 识 别 视频 中 的 多 个对 象 采用 多 智 能体强化学 习
32
S am ah E T a n t aw y
- [ ]
。 l
方法 (
MAR L ) ,
实 现 多 个 相 邻 路 口 交 通信 号 灯 的 协调 控 制 缓解 高 峰 时 段 交 叉 路 口 的
,
拥 堵程度 等人 同 样利 用 多 智 能体 强化 学 习 方法研 究 无人 驾 驶
3 3
SS h a l e v S h w ar
tz
-
[ 1
。
,
实现超车 , 让步 ,
会车 , 左 右转弯 等复杂 的 交 互技巧
。
强化 学 习 在 某 些 领域 已 经 表现 出 超越 人 类 的 学 习 能 力 ,
但 目 前 的人工 智 能技术
1 . 3 强化学 习 的应 用 问题
不 同 于 经 典 的 神 经 网 络要 与 其 他控制 算 法配合进 行 设 计 控制 系 统 ,
深度强化学
, 。
3
华 北 电 力 大学硕 士 学 位 论文
不合理 的 动作 深度强化学 习 算法 的 应 用 仍有 问 题 需要 解决
[
3 5]
,
。
首 先 是 收敛 的 问 题 强化 学 习 被诟病 的 个主 要 问 题 就 是 收敛 慢 同 时存在着
一
, ,
无 效 或 者 危 险探 索 ; 现在 深度 强化 学 习 比 较 诟 病 的 事 情 是 需要 经 历 远 比 人类 高若干
数量 级 的 经验 才行P 深度 强化 学 习 拥 有 优秀 的 环境感 知 能 力 和 动 作 决
6]
(
e xp e r
i enc e 。
)
策能力 , 但 是深度强 化 学 习 的 智 能体 (
A gen t
) 的 逻辑推 理性很弱 % 比如在控制倒 立
摆平衡 的 时候 , 智 能 体 并 不 能很快理解摆 在 左 边 ,
就左移小车 , 摆在右 边就右移 小
是无 效 的
。
, ,
,
, ,
的 违背设计 初衷 的 行 为 如 动 驾 驶 中 的 危 险操作
3 9]
自
[
,
。
,
强化 学 习 应用 的 另 个 问 题 是 探索 学 习 的 过 程 中 对环 境存在 损 坏 包括越界
一
[
4 1 )
】
,
,
震荡等 ?
, 强化学 习 控制 的 输 出 有上 下 限 ,
但上 下 限 并 不 能保证模型 的 稳 定 , 尤其是
, ,
是 比较浪 费训 练时 间 但 是 在 实 际 机械 应 用 场 景 中 不可 能 允 许把 个 实体 的 机器
一
, ,
人摔 那 么 多 次 前 的 很 多 研 宄都是基于 仿 真模 型 利 用 仿 真模 型 训 练 智 能体
4 1
]
42 1
目
[ [
。 ,
。
但是在 工 业控制 中 ,
模 型 越 界代表着工业事 故 ,
甚至可 能 引 起跳机等严重 问 题 ,
带
来 巨 大 的 经济损 失 。 因此 ,
在 无模 型 的 情 况 下 , 强化 学 习 试错 的 成本很 高 , 不 能直
接用 于控制 [
43 ]
。
针对收敛慢 的 问 题 ,
提 高采样 效 率 (
s am
p l e e ic
f i ency) 是很有效 的策略 ,
其主流
方法就 是 经 验 回 放 离 线策 略 算法
44
(
ex i e n c e r ep a y ) +
p er l
(
o f -
p o〗 i c
y al g o r
i t hm ) [ ]
。 在深
。
强化 学 习 的 本质 仍 是 优化 问 题 所 以 就像优化 问 题 受 标函数的影响 样
4 7 ]
一
目
[
,
,
函 数设计 成越接近 目 标 ,
得 到 的 即 时 奖励越 大 , 这样通过奖励 累 加 最大化原 则 ,
强
4
华北 电 力 大 学 硕 士 学 位论 文
化学 习 智 能体 能够 很 快 的 找 到 收敛 到 标的策略 但 非 稀 疏奖励 函 数 的 设计 没有
[
4 8]
目 ;
固 定 的 标准 , 而且 非稀疏奖励 函 数设 计难度 大 ,
设计 的 不 恰 当 的 话会影 响 强化学 习
的 稳 定 性 或 陷 入奖励 循环 。
并且 非稀 疏奖励 学 习 得 到 的 策 略分布 受 数值影 响 很大
,
细 小 的 环 境 变 化 就 可 能 导 致策 略 的 偏 差 容 易 理解 人类学 习 过程 中 如果 直得
一
。 , ,
, , ,
奖励 目 标 系 统给 予 的 奖励 就越 多 利 用 这种 方 式 能 够 加 快 收敛 但 会影 响 稳 定 性
, 。 ,
。
。
个解 决 问 题 的 方 向 是添 加 先验 知 识 通过先验知 识解决 领域 的 复杂 性
给
一 5 G
[ ]
, ,
以在 指 导 学 习 的 过程 中 得 到 指 导 者 的 反馈支持 采用 策 略搜 索 强化学 习 和 交互 式
[
52 ]
机器 学 习 的 混合 策 略 , 从环节 , 奖惩 函 数和 专 家 纠 正 反馈 中 受益 , 以加速学 习 过程
。 ,
。
1 . 4 本 文 的创 作动机与结构 安排
强 化 学 习 算法拥 有 的 无模 型 特 点 带来 的 通用 性 与 自 趋优 ,
自 学 习 的 能力 ,
非常
适合进 行 非 线 性 系 统优 化控 制 的 研 宄 。
本文研 宄 强化学 习 算法 的 应用 问 题 , 将经典
过程控 制 算法及 智 能控 制 算 法 与 强 化 学 习 相 结 合 ,
设计 相 应 的 解 决方 案 ,
为强化学
习 算法 的 应用 提供 了 个新 的 思路 实现无模 型 的 非线 性 系 统 适应控制
一
, 自
。
文 章 的 结构安排如 下
:
第 章 绪论 介 绍 机器 学 习 以 及 强化 学 习 的 研 宄 背 景 意义 介绍 分析 了 强
一
, 。 、 ;
;
;
类强化学 习 常用 算法 ,
Q 学 习 与 策 略梯度 , 并对其进行 公式推导 ; 最后 , 在 强化学
华 北 电 力 大 学硕 士 学 位 论 文
习 算法 的 基础 上 , 详 述 引 入 了 深度 学 习 的深 度强化学 习 算 法 , 并 从离散与 连续 两个
方 向 分 析 介 绍 了 两 种 深 度 强 化 学 习 算 法 D QN 与 DDP G ,
分析 各 自 特 点 与 适 用 领 域
;
第三章 ,
强化学 习 非线 性 自 适应控制 。 针对非线性 系 统研 宄 强化学 习 算法应用
;
在 S i m u l i nk 仿 真 平 台 搭建 钟 摆 系 统 作 为 非 线 性 研 究 对 象 ; 分 析 被 控对 象 ,
分 别 设计
收 敛 速度 慢 同 时 鲁 棒 性 较 差 的 问 题 , 参 考 经 典 控 制 算 法 中 的 前 馈 反馈 控 制 框 架 ,
成
功 设计 了 基于 强化学 习 的 自 适应补偿控制 算法 ; 利 用 线 性 控制 器 降低 改变 强化 学 习
鲁棒性 ; 设 计 仿 真 实 验 与 原 始 的 强 化 学 习 算 法在 性 能 上 进 行 对 比 分 析 ,
得 出 实验结
论
;
第 五 章 无模型 强化 学 习
, 自 适应补偿控制 。 针对无法建立对 象仿 真模型 的 情景
,
构 需 求对其进 行 改进 , 通过 改进 的 监 督控 制 算法代 替 强 化 学 习 的 探索 过程 ; 最后 设
第六 章 总 结 与 展 望 针对本文研 宄 的 课题进 行 了 总 结 概述 了 本文 主要 工 作
, 。 ,
,
论述 了 本文所述方法 的 优 点 ; 同时 ,
指 出 本文 所述方法仍存 的 不 足之 处 ,
并对未来
的 研 宄方 向 进 行 了 展望
。
6
华 北 电力 大学硕 士学位论文
第 2 章 强化 学 习 理论基础
本 章 首 先 简 要 论述 了 强 化 学 习 方 法 的 基础 理 论 ,
介 绍 了 马 尔 科夫 决 策过程 以 及
相 关 的 概念 , 强化 学 习 框架 的 建模 过程 , 智 能体 的 训 练过程及 常 用 的 算法 。
其次介
的 搭建 与 训 练过程 ,
分析 算法特 点 , 为算法 的 设计 与 应 用 打 下 理论基础
。
2 . 1 强化学 习 理论基础
2 . 1 . 1
强 化 学 习 基 本概 念
、 、 、
,
自 。
, ,
习 三种学 习 方式 。
机器 学 习 的 核 心 就 是建立 从输入数据 到输 出 数据 的 映射 ,
如果 己
知 正 确 的 输 出 数据 来 进 行 网 络 训 练 就 是 监 督 学 习 而强化学 习 不 同 于监督学 习 [
5 7]
,
,
其仅 知 环 境状态信 息 ,
利 用 环境状态 的变化 , 通过迭代 的 方式逼近 正确 的 动 作 ,
完
奖励 (
R e w ar d )
、 环境 (
E nv i r o nm e n t
)
。
来完善 身 的系统 其核 心特 点 是对 未 知 环境 的 学 习 能力 8]
智 能体 的 形 式主 要
5
自 自
[
,
。
c
(
i
y) (
l i
。
输 出 的 各种 可 能 动 作 及 概率 ,
其表达式如 下
:
= =
a \
S
,
=
s
) (
2 -
1
)
略 根据 状态直接输 出 确 定 的 动 作 即 概率 为 1 ,
而 随 机 性策 略会根据 状态输 出 每个可
能动 作 的 概率 输出 个概率分布
一
,
。
值 函 数用 来表示 , 其可 以评价环境状态 S
的好坏 , 反 映 当 前 状态距离任 务 目
标
的 距离 , 距 离完成任务越接近 , 其值越大 。 状 态 动 作 价值 函 数 用 来表 示 ,
表
强化学 习 的 原 理如 图 2 -
1
所示 不 同 于监督学 习 技术直接告 知 正 确 的 输 出
, 目 标
,
强化学 习 通过干涉环境 ,
并 根 据 环 境 反 馈 来 逐 渐逼 近 正 确 的 输 出 动 作 , 实现 自 学习
的过程 。
智 能体采样环境状态 t 根据 自 身 策略计算输 出 动作 《 ,
动作 《 影响 环境产
生下 一
状态 V ,
同 时 根据 环境状态情 况然后 新 的 状态再送入 智 能 体进 行计 算 。
根据
反馈奖励 信 息 更新 智 能 体 的 值 函 数 , 进而 更新 智 能体 的 策略 , 如 此循 环 下 去 , 智能
动作
V
( ^
奖 励 广 ^
v
) v
)
A
状态
V
y
图 2 1
强化学 习 原理 图
8
华北 电力大学硕士 学位论文
2 . 1 . 2 马 尔可夫决策过程
马 尔 可 夫 决 策 过程 (
MDP ) 是 强 化 学 习 建 模 的 基础 。 其过程 即 为智 能体与 环境 的
环境在 《
的 影 响 下 转移 到 下 状态 V 智 能 体根据 下 环境状态 f 采取下 动作
一 一 一
, ,
如 此循环 下 去 就是 马 尔 可 夫 决策过程
’
? ,
。
马 尔 可 夫 决 策过程 由 四 元 组 (
S A
, , P , R ) 构成 ,
S 为 智 能 体 所在 环 境 状 态 集 合
,
A 为 智 能 体 有 可 能 选 择 的 行 为 集合 , 为系 统在状态 s 时 ,
智 能体选择行 为
a 使环境状态转移 到 ^ 的 概率 ,
々 (& ? , < ) 为系 统在 状态 s 时 , 智 能体选择行 为 《 使环
境 状态转 移 到 V 的 奖励 值
。
马 尔 科 夫 决 策 过 程 根据 动 作 价 值 函 数 决 定 动 作 策 略 , 定义 为状态 s
下
a ;
Q 〇 ) ^P
'
=
a )+y (
s a s s \ 7t { s ))
, ,
(
(
2 2 _
)
'
1
" ^ "
Q
^ R + yP Q
(
2 -
3
)
为状态 下 选 择 行为 a 的 瞬 时 奖励 值
s ,
Y 为折扣 因 子 ,
P 为状态转 移概
率 。
折扣 因 子取 0
-
1 之间 , 其 值越大 ,
表示未来 回 报 值所 占 比 重越 大 , 通常稀疏奖
励 的 强 化 学 习 算 法会 设 立 较大 的 折 扣 因 子
。
, ; 目
是找 到 这个最优策 略 ,
使得采 取这条策 略 能够 获得 的 累 积 奖励 期 望 最 多 。
即
tt*
(
a卜 ) =
ar
g
ae
ma x
A
Q〇 a
,
)
(
V
2 4
)
J
_
2 . 1 . 3 探索 与利 用
, ,
才 能正 确评估策略 的好坏 但 次 错 误 的 尝 试 很 有 可 能 为环 境 带 来 负 面 的 影 响
因
一
, ,
“ ” “
”
强化学 习 针对试错 问 题 , 提 出 了 探 索 (
Exp l o r at o n )i
与 利用 (
Ex p o l i t at i o n)
9
华北 电力 大学硕士 学位论文
多 的环境信 息 利 用 是 指 智 能 体 完全 按 照 当 前 策 略采 取行 为 每 步都获得 当 前最
一
。 ,
大 化 的 奖励
。
, , ,
,
。
为 最好 吃 的 菜 这样 能够稳 定 的 吃 到 喜 欢 的 菜 但 可 能 永 远 点 不 到 餐 厅 最好 吃 的 菜
, ,
。
探索 与 利 用 是对 立 的 , 其对强化学 习 又都非 常 重要 。
在进行强化学 习 的 训 练时 ,
要
根据 情 况进 行 权衡
。
*
a <r ar
g m ax a Q s a
-
,
(
)
F o r allaeA ( s )
W 策略
卜 2 -
:
(
)
w + &⑷
f
—
*
, / A (
s
)
i fa ^ a
i | |
对 于 局 部 最优 的 动 作 a
*
, 其被 选择 的 概率 最 大 , 其 余 的 动 作 概 率 都为 甽 a |
。
这
种策 略用 于 基 于 值 函 数 的 离散动作 空 间 强化学 习 算法 ,
即 Q
-
l e am i n
g 系 列 的 强化学
习 算法
。
高斯策 略 :
(
2 -
6
)
梯度 的连续动 作 空 间 强化学 习 算法
。
2 2
.
强化学 习 常 用 算法
2 2
. . 1
Q 学 习 Q (
-
l e ami n
g)
Q 。
确 的状态动 作价值 , 从而 通过 状态 动 作 价值 决 定动 作 策 略
。
1
0
华 北 电 力 大 学硕 士 学 位论文
a ) + a [ R + y m ax d
'
Q s a )< Q Q s a) Q s a)]
- -
-
s \
{ , ( ,
( ) { , ( ,
(
2 -
7)
, s
当 迭代达 到 定 次数 获得准 确 的 状态 动 作 价值 表格 后 我 们 就 可 以 根据 式
一
, , 2 -
5
)
(
中 的策 略 , 选择最佳 的 控 制 动 作
。
其 算 法 过程 如 下
:
(
1
) 初始化 Q 表格 , 所有 Q 值初始为
〇
(
2) 重复 以下步骤
:
初始化状态 s
=
重 复 以 下步骤
:
根据 当 前 状 态 s 选 择 动 作
a
执行动作 得 到 奖励 下 状态 , 和 终止符
d
一
山 〃 、
通过式 (
5
) 更新 Q 表格
'
S= s
直至 终止状态
直至 表 的 更新幅度 小于 个很小 的 值
一
Q /
/
。
其 中 终止符 d 信 号代表是 否 达 到 终止 状态 ,
若 当 前 状 态 为终止状态 ,
则 卢 1
,
否则 卢0 。 终止 状态 的 含义为环 境 允 许 的 边界 状态 。
Q L e a rn
-
i ng 算法 虽然有 良 好 的
稳定性和 收敛性 ,
但 受 到 动 作 空 间 和 状态空 间 的 大小 限 制 ,
若状态和 动 作 空 间 维度
过大 ,
会 导 致表格 陷 入 维度 灾 难
。
2 2 2
. .
策略梯度 (
Po l i c
yG ra d ent )
i
策略梯度 (
PG) 算 法 是基 于 概率 分 布 的 算法 , 智 能体 的 策 略直 接输 出 各 种 动 作 的
概率 即 =
其 算法 思 想 为根据 某 状态 下 某 动 作 得 到 的 奖励 值 大
一 一
,
;
1
5
)
。
率 ,
降 低坏动 作 被选 择 的 概率
。
1
1
华北 电力大学硕士学位论文
主要迭代 公 式如 下
:
6 <
—
0 + o V
c
q
J
(
7t
q ^ (
2 -
8
)
其中
^ Zf
)
] (
2 9)
-
式中 0 为智 能体策 略模型 参数 , ( X 为学 习 率 ,
▽, ( 巧 ) 为梯 度 ,
T V 为轨迹样 本数
,
T 为 单个轨迹长度 ,
i? 为 即 时 奖励
。
其 算法过程如 下
:
构造 个 策 略模 型 并 随机初 始 化模 型 参 数
一
(
1
沒
)
(
2
) 重复 以 下步骤
:
初始化状态 * y
=
A
重复 以 下 步骤
:
根据 当 前 状态 s 选择动 作
a
执行动作 得 到 奖励 下 状态 V 和 终止 符 A 并存入 当 前轨
一
A 〃 、
迹& 中
直 至 终 止 状 态 心w
当 轨迹样 本 数 大 于 定 数 量 科训 练开始
一
:
)
抽取 i V 个轨迹样 本 , 通过式 (
7) 计算梯度
:
v〇j
k )
=
^ zr zL
v >^
[
(
a - 1 ^ )
^
( ^ )
]
更新e
—
,
■ /
( %
)
直至达 到 指 定 重 复次数
。
不 同 于 基 于 值 的 方 法输 出 动 作 的 价值 ,
PG 算 法智 能体输 出 动 作 的 概率 分布
,
求取数学期 望 来获得连续 的 动作 空 间 。
采用 策略梯度 能够输 出 连续动 作 , 控制稳定
性相 比 更好 但 收敛性 般
一
Q e am ng
-
] i ,
。
1
2
华北 电力大学硕士学位论文
2 3 .
深度强化学 习
学 习 对环境 的 感知 能力 存在不 足 ,
复杂 的 环境 导 致强化学 习 的 分 析变得 困 难 。 深度
是正交 的 问 题 ,
强化 学 习 提供训 练 的 目 标 , 而深度学 习 提供 了 解决 问 题 的方法 。
因
的深度 强化学 习 算法 ,
分别 对 应 基 于 值 的 和 基 于 策略梯度 的 深度 强化 学 习 方 法
。
2 3 . _ 1 D QN 算 法
D QN D e ep Q N e 是 种将深度神经 网 络与 L e ar 相 结合的 算法
一
w o rk) n ng
—
(
t ,
Q
i
。
i
,
i
复杂环 境时 的 维度 灾 难 问 题 。
利 用 深度神 经 网 络其 强大 的 拟 合 能力 逼近状态动 作 价
Q 。
其 算 法框 图 如 图 2 -
2 所示
。
D QN 损失函数
^ ^ 7 \ |
误 差 函 数 的 梯 n
, ,
Q (s a) n a x ^ s
a v
^
, r i
a)
,
, a ( ,
_ _
a
丄 . 每隔N时 , . .
环培 孟计 值 尚 间 步 拷 目 标值 网
:
f
|
% 参 数 络
、
r
( s , a)
( s a , r , 5
2^
,
^ 经 验 池 _
_
图 2 2D Q N 算 法框 图
,
:
U古 值 网 络 :
负 责根据 当 前状态 s 计算动作 空 间 中 所有动作 的价值 Q (
s ,
a ) ,
根
1
3
华北 电力 大学硕士学位论文
据 策 略输 出 动 作 用 于 和 环境 交互生成下 采样 时 刻 状态 以 及 即 时 奖励
'
一
, s ,
r
;
标网络 负 责 计算 标 值中 的 g 部分 取 计 算 结 果 的 最大值 作 为 下
'
2 .
目 : 目 Q (
s ,
a) ,
采样 时刻状态价值 V 网 络参 数 定 期 从 估 值 网 络 复制
一
S
( 〇 ;
。
作价值 ? ,
巧 , 采用 策略 以 (
1
的 概率 选择价 值 20 ,
l
f ,
巧 最高 的 行为
,
将 当 前 状态 与 反馈信 息 组 构 成 组数据 存 入 经 验 池 将 旧 的 数据 剔 除 保 持
一
经验池总 量 不 变 ,
从经 验 池 中 随机抽 取 部 分 数据 进 行 估 计 值 网 络 的 训 练
。
网 络训 练 的 目 标值 由 目 标 网 络结合 即 时 奖励值 r 给出 ,
其计算公式如 下
:
S ar
g
e/ + (
2 -
1 0
)
其算 法流程如 下
:
(
1
) 初始 化经验池 D , 初始化估计 网 络参 数 < 9 , 初始化 目 标 网 络参数 化 =
心
(
2) 重复 以 下步骤
:
初始化状态 s
=
七
;
重复 以下步骤
:
根 据 当 前 状态 s 选 择 动 作
A
a , r 、
记录样本 至 经 验池 若 容量 不 足则 从头 覆盖记录
'
(
s ,
a ,
r ,
s ,
<=
〇 D ,
;
当 经验池样本 数大 于 定 数量 尺 训 练开 始
一
:
( )
从 经 验 池 随 机 采样 m i n i b at c h 样本 5 个 分别 输入两个 网 络
,
;
计算 & 沒 d >
’
va
=
) 、 0
=
厂 + X 1
—
m ax 0 (
5 ,
沒 )
g e, f
l
/ , a r
( )
;
通过最小 化损 失 函 数 -
0叫 £,
)
来更新估
计 网 络参 数 I
每隔 c 步更新 R — 没
;
直至终止状态 L /
;
直 至达 到 指 定 重 复 次数
。
1
4
华北 电 力 大学硕 士学 位论 文
D QN 相比 Q
-
l e am in
g 主 要 改进 以 下 三 点
:
1 、 使用 深度 神经 网 络 , 直 接 从 环 境 映射 到 动 作 价 值 Q
;
2 、 采用 经验池训 练 , 充 分利 用 历 史数据
;
3 、 增加 目 标 网 络形成双 网 络结构 , 提 髙 稳 定 性 与 收敛 性
。
能用 于 所有 的 强化 学 习 算法 , 但在 Q L e am
-
i ng 类 的 算法上很有 效 。 D QN 算 法解决
了 传 统 强化学 习 的 维度 灾难 问 题 ,
但 D QN 是基于 Q L e am
-
i ng 算法 结 构 的 , 因此需
要计算每
一
个状态 下 每
一
个动 作 的 动 作 价 值 , 导 致输 出 动 作 必 须 进 行 离 散 化 , 使得
D QN 的 控 制 精 度 下 降 , 所以 D QN 不适合独立解决连续动作 空 间 的 控制 问 题
。
2 3 2 DD P G
. .
算法
虽然基于 值 的 算 法结 构清 晰 , 便 于 理解 ,
收敛 性 和 稳 定 性 较 高 ,
但很多 问 题 需
于值 的 与 基于策略梯度 的 方法 ,
并参考 D QN 的 训 练方 式所提 出 的方法 。 DDP G
的
算法 吸 收 了 D QN 的 双 网 络 结 构 , 并扩 展成两种 网 络 ,
动作 网 络 (
Ac t or Ne t w o rk ) 与评
价网络 i c N e tw o rk )
Cr t 因 此 DDP G 共 拥 有 四 个深 度 神 经 网 络 其名 称与功 能定
—
i 。 ,
(
位如 下
:
1 . Ac t or 当前网络 :
作为 DDP G 算法策略 的 实现 网 络 , 又名 策略 网络 ,
负 责根
据 当 前状态 s 输 出 控制 动 作 a
;
or 目
一 一
2 . :
U a ,
3 . Cr
it i c 当前网络 :
负 责 评 估 策 略 网 络输 出 动 作 的 价 值 ,
根据 当 前状态 s 计 算策
略 网 络输 出 的动作 a 的 价值
;
4 C r
一
一
.
i ti c 目 : a
1
5
华北 电力 大学硕士学位论文
DDPG 的算法结构 如 下
:
A c t or 网 络 损 失 函 数 Cr i t i c 网络损失函数
梯 度
'
梯 度 Q (
s ,
a) m ax a
( ^ .
aj ?
步
^ 2
(
X c t o r^ r Act or
u
(! r i t i c 湓前
…
j
Cr l t j c _
标
网 络 络 厂 网
| 1
口
1
网 络 1 1
^
各
s
〇
’
s
'
a
'
(
S ’
a
) (
S
’
S W )
经 验 池
( ,
图 3D D P G 算 法框 图
_
A ct
or 当 前 网 络将环 境状态变量 s 作 为 网 络输入 , 直接输 出 控制 动 作 a ,
将下
一
or 目
'
一
s ,
a ,
随 机抽 取部 分数据 进 行 Ac t or 当前网络与 Cr
i t i c 当前网络的训练 。 其中 Cr i t i c 网络
与 D QN 的 双 网 络训 练方法相 同 , 而 Act
or 网 络采用 梯 度上 升 法求解 ,
Ac t or 网 络更
新 函 数如 下
:
J = m
j
x
Q i o {
s ,
7:
d {
s
)) (
2 -
1 1
)
连续动 作 空 间 中 的 学 习 难 点 主 要在 于 策 略 的探索 ,
通过将从噪 声过程 n 采样 的
噪 声 添加 到我 们 的 参 与 者策 略 中 来构造 探 索 策 略 从 而对输 出 动 作进 行 剪裁
。
1
6
华北 电力 大学硕 士学位论文
算法 的 流程 如 下
:
(
1
) 初 始化经验池 D , 初始化两个策略 网 络参数 =
初 始 化 两 个评 价 网 络 参
教 =
9
'
(
2
) 重 复 以下步骤
:
初 始 化 状 态 S
;
重 复 以 下 步骤
:
执行动作 得 到 奖励 下 状态 f 和 终止 符 A
一
r 、
当 经 验池样 本 数 大于 定 数量 玢训 练开始
一
:
)
从 经 验 池 随 机采 样 m n b at c h
i i
样本 B 个 分别 输入两个 网 络
,
;
M ^ Q 6r )
,
t
i 8
^
8 ^
(
a )-
=
r + r i
-
d ni a x
a Q (s ,
a ,
ev a / ar
g el (
r )
;
最小化损 失 函 数
^ 更新评价 网 络
w
参数
最大化价值 函 数
士 更新策略 网 络参
数心
每隔 步 更新
'
C 6 >
<
-
0 、 妒
;
直 至 终 止 状态
;
直至达 到 指 定 重复次数
。
DDP G 算 法 能够 解 决 连 续 动 作 空 间 问 题 , 但 其 训 练难度 要 高 于 D QN 算法 ,
通
常在解决 问 题时 , DDPG 算 法 需 要 更 多 的 训 练 数据 和 训 练 时 间
。
1
7
华北 电力 大 学硕 士学 位 论文
第 3 章 基于 强化 学 习 的 非 线性 系 统 自 适 应 控制
3 . 1 问 题描述
本 章 针对 类连 续 时 间 的 非 线 性 系 统 设 计 基于 强 化 学 习 的 适应控制 算法
实
一
自 ,
及 稳摆控 制
。
考虑 个简 单 的无摩擦 的钟 摆 最初挂在 个 向 下 的 位置 钟 摆质 量均 匀
能
一 一
, , ,
, 。 m
,
用 于控制 的扭矩大小 范 围 为 H 其中 +2
= =
w 2 w
-
,
。
( ax ) , m n i
; m ax
则 重力 在转动方 向 的 分扭矩为 m g/ s i n
(
0
)
。 其 角 度计算表达式如 下
:
H )
ml
2
*
d 6=mgl
2
*
sin
(
&) + u
(
3 2 .
强化学 习 算法设计
3 . 2 . 1
环境设计
弧度 的 形 式 , 即角度的范围为 -
3 . 1 4
 ̄
3 . 1 4 rad 对应 -
1 80
-
+ 1 80 。 考虑钟 摆在垂直
向 下 的 位置 时 , 钟 摆左 右变化很小 的 角 度 , 但 弧度 却 会 从 -
3 . 1 4 跳 跃 到 +3 . 1 4 , 形成
, ,
表示角 度 的 大小 , 如下 图 3
-
1
所示 , 弧度 分解 后 解 决 了 空 间 不 连 续 的 问 题
。
1
8
华北 电力大学硕士学位论文
、
1 /I
:
/\ w\
/\f
a
^ ^
i ;
; r/ / Tn i /
7
/ / /
:
!
/ /
■
2
7
/ / 弦值
J v / f :
余 弦值
i , i , u
弧度
0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 20
时间 /
S
图 弧度 分解示意 图
-
3 1
式如 下 所示
。
2 2
*
r=
-
^
-
〇 . l
(
^ )
-
〇 〇〇
. l
*
? (
3
-
2
)
角 度作 为控制 目 标 ,
肯 定 是奖励值设计 时 最 先考虑 的 ,
角度越大 , 距离控制
目
标越远 ,
就应获得更少 的 奖励 。 同样 , 在钟 摆到达稳定角 度 时 ,
角 速度 的 大小 也会
影响 钟 摆 能否稳住 , 显然 ,
角 速度越 小越有利 于钟摆 稳定 。 最后 ,
实现控制 目 标所
用 的 控制 量越 小 ,
说 明控制 性能越好 ,
但这 不 是 完成控制 目 标的 决定性 因 素 , 所以
控制 量 的 权重设置 的 比较小 ,
仅在 稳定时 即 角 度 0 ,
角 速度 ^ 全为 ^
〇 值 附近的 时
候起作用
。
由 于钟 摆 在任何 角 度 都有可 能 ,
所 以 不 设立终止条件 ,
即 终 止 变 量 卢0
。
3 . 2 2 .
网 络设 计
D QN 设计 :
DQN 算法基于离散动 作 空 间 , 算法 中 包 含两个神 经 网 络 。
当前
Q
网络与 目 标 Q 网络 。
为便于 D QN 算法过程 中 ,
将当前 Q 网 络 的权值拷 贝 到 目 标
Q
网络中 ,
D QN 的两 个神经网络采用 相 同 的结构 。
Q 网 络根据状态 S 计算状态动 作
, ,
层 个输 出 层 输入层 节 点 与 观测 器输 出 维 数 致 即 输入层节 点 数 为 两层
一
一
, 。 , 3 ,
1
9
华北 电 力 大学硕士 学位论文
24 、 48 , ,
出 的动作 空 间为 {
-
2 , 0 2
,
}
,
因此 ,
输 出 层节点数为 3 。
所述 网 络结构 如 下 图 3
-
2
所
不
。
深度强化学 习 算法 的 核 心仍是神 经 网 络 ,
设计深度神 经 网 络 的 结构 对 强化学 习
为 了 加 快深度神经 网 络 收敛速度 , 在 设计 的 强 化学 习 算法 中 ,
策略 网络与 评价 网 络
的 隐含层均采用 re l u 函 数
:
r e l u
(
x
)
=
m ax
(
〇 ,
x
) (
3
-
3
)
re l u 函 数计算简单 ,
无 需指 数运算 , 能 大大加 快反 向 传 播速度
。
输 出 层 基 于 状态动 作 价 值 , 没有 固 定 的数值范 围 ,
因 此不 设激活 函 数
。
(
输人层
)
/ \
/ 隐含层
1 V
\
\ 隐 含 层
2
(
输出层
X
)
\ n AH/
图 2 Q 网络结构 图
-
: ,
, ,
。
, , , ,
。 , ,
3 ,
状态空 间 策略输 出 更加 复杂 ,
两层 隐含层节 点数分别为 400 个 , 3 00 个 ,
激活函数
采用 re l u 函数 。 由 于策 略 网 络直 接输 出 连续 的 控制 动作 , 输 出 层节 点 数 为 控 制 变量
的个数 即 输 出 层 节 点 数 为 1
个
。
对于输 出 连 续动 作 的 强化学 习 算法 ,
策 略 网 络 的 输 出 层根据 实 际输 出 的 范 围 选
择采用 双 曲 正切 t a nh 函 数或者 s i
g
mo d i
函数
:
2 0
华北 电力大学硕士学位论文
x
-
^
一
a nh x = - —
^
t
( ) 7 3
-
4)
(
mo d
^
^ —
s
^
g
i i
)
3 5
-
^ (
)
这里采用 t a nh 函 数 作 为输 出 层 激 活 函 数 该 函 数将 动 作 限 制 在 ,
-
1
?
+ 1
的范围 内
,
理的
。
/ \
/
: rYT
\ g Au/
图 3D D P G 策略 网络结构 图
-
评 价 网 络 包含 两 部 分输入 ,
观 测 器输入 与 动作 输入 , 其 结 构 包含两 个输入层
,
, , 。
入 ,
其节 点 数分别 为 3 个和 1
个 , 隐含层 位 于 观测 器输入层与 叠 加层 之 间 ,
节点数
为 400 ,
激活函 数为 re l u 函 数 。 叠加层将观测 器端 隐含层 的输 出 与 动 作 端输 出 通过
全连接方式叠加 起来 , 节 点数为 3 00 ,
激活 函 数为 re l u 函数 ; 输出 层节点数为 1
个
,
无激活 函 数 。 其结构如下 图 3
-
4 所示
。
观测 器端
一^
管 / \
输入层 Re
/ 叠 加 \
i u
广
、
^ J v y \/ 层 V输 出 层y
(
)
Re l u
个
^ 动作端 \ /
Vm x m
_
)
/
图 4DD PG 评 价 网 络结构 图
-
2
1
华北 电 力 大学硕 士 学位论文
3 . 2 3 .
通用 参数设计
代仿真时长 20s ,
折扣 因 子为 0 9 .
, 学习 率为 0 00 . 1 ,
奖励池大 小 为 3 000 ,
训 练的 b at ch
为 64 。 训 练 的 结 束条件 为 :
到达 5 000 次迭代或 者 最近 5 次训 练 的平 均 累 积 奖励 高
于 -
1 1 00
。
3 . 3 仿真实验
在同
一
计 算机 中 运行 仿 真 环 境 ,
计算机 C PU 主频为 3 .
8 GHz ,
其 中 不 同 强化学
习 算 法 的 训 练过程如 下 图 3
-
5 、 3
-
6 所示
。
0 .
X /
? ?
X
'
v k V * X XX X
x v x 乂 V
X
「
:
"
3 00 0
-
"
公f
2
'
X *
'
U
-
5 〇〇°
1 \ |
f 1 1 \
7 00 0 i I
1
f
i l
P
I
1/
?
8 00 0 \
j \
l i
0
6
!
9 00 0
-
|
1 1
00 00
-
Ep i s o d e N u m b e r
5 00
!
-
2 〇〇 〇
t
,
〇^f
Q ^ ft
-
誦
3 50 0
^ £
*
-
〇
1
-
4 00 0
E p s o d e N u m b e r
i
图 3 6 钟摆模型 D D PG 学 习 训 练过程 累 积 奖励 曲 线
2 2
华北 电 力 大学硕 士 学 位论 文
从 图 中 可 以看 出 , D QN 算 法 训 练初 期 存 在 幅 度 很 大 的 波 动 , 这是探索 过程不稳
法训 练 需要 47 代 ,
训 练时长 42 6 2 9s .
; D D P G 算法需要 76 代 , 训 练时长 1 2 62 7s
.
;
D QN 算 法 的 收敛速度 是 快于 DDPG 很多 的
。
D QN 算法 虽然 收敛 性 明 显 好 于 DDPG 算法 ,
但离 散状态输 出 带 来 的 局 限 性会
影响控制 的 效果 。
下图 3
-
7 、 3
-
8 所示为不 同 控制 算法 的 控制 过程
。
一 ,
一
0 4
,
「
1 1 .
1
1
X1 65
? 1 .
p
U Z
3 K ^ Y 0 0 223
.
1 7 2
卜
衿七 I
-
I
[v y
Z 扣
-
1
^ 1
2
2
f
,
y
卜
〇
g
0 2 4 6 8 1 0 1 21 4 1 6 1 8 20
时间 /
S
图 3
-
7D Q N 算 法钟 摆控制 过程
4
"
NH J f
—
\v \
2 Y -
0 .
0 1 5 6 7 0
7
、
」 四 r
-
4
0 5 1 0 1 5 2 0
时间 /
S
图 3 8D D P G 算法钟摆 控制 过 程
通过计算 1 5 s
-
如下 :
D QN 算法 :
0 002
. 1 ,
DDPG 算法 :
2 0 . 3 8 6e
-
0 7 。 从结果看 出 ,
D QN 算法受控
制动作空 间 维度局 限 ,
DDPG 算法 的稳态特性 好于 D QN 算法
。
23
华北 电力 大学硕士学位论文
3 4
.
小结
, ,
习 算法 的 训 练与 控制 特 点 。 通过 实 验可 以 得 到 以 下 结 论
:
不 同 强 化 学 习 算 法 都 能 完 成 钟 摆 的 起摆 及 稳 摆 控 制 , 在 相 同 的 训 练参 数 条 件 下
,
善 了 控制 效果 , 但训 练所 需 的 时 间 大大增 加 。 不 同 的 算法特 点 不 同 , 因 此 需要 综合
考虑控制 性 能与 收敛性 , 根据 不 同 的 需 求 选 择 合 适 的 强 化 学 习 算 法
。
强 化 学 习 能 够 实 现模 型 理 论 最 优 的 控 制 策 略 , 但 当模型 是 时 变对 象 时 , 例 如被
的变化 , 这是存在
一
个学 习 过程 的 。 然而 , 纯粹 的 强化学 习 算法 , 其 训 练过程 需 要
大量 的数据 从而 需 要很 长 段时 间 来 自 趋 优 的 学 习 到 最优 策 略 因此 强化 学 习
一
,
。 ,
24
华北 电力 大学硕 士学位论文
第 4 章 基于 强化 学 习 的 自 适 应 补偿控制 系统
, ,
强化 学 习 的 自 适应 补 偿控 制 系 统 。 其 中 强化 学 习 算 法 作 为 前馈控 制 器与 反馈控制 器
构成 自 适应 补偿控制 结构 。
反馈控制 器起主 导 控制 作 用 , 强化学 习 的 决策输 出 起优
化控 制 作 用 。
反馈控 制 器 的主 导 控制 作 用 加 快 强化学 习 算 法 的 收敛速 度 与 稳定 性
,
了 强化学 习 的 鲁棒性 问 题 。
新 的 控 制 系 统 降低 了 非线 性 系 统控制 器 的 设计难度 ,
同
4 . 1 基于强化学 习 的 自 适 应 补偿 控制 算 法
4 則馈 反 馈 控 制 系统
-
. 1 . 1
在 工业过程 中 ,
如 果 被控对 象存在 明 显 的 可测 干扰 , 通常会在 控制 回 路 的 设计
上加入 前馈控制 器 。
例 如 汽包 炉 协调 系 统 中 , 该系 统是
一
个两入两 出 的 耦合 系 统
,
控制 量为给煤量与汽 轮机 阀 门 开度 ,
被控量为主汽压 力 与 机组 负 荷 。 如 果单看给煤
煤 量 曲 线 设 计 前 馈 控 制 器 加 在 给煤 控 制 回 路 上 ,
将 大大增 加 控制 回 路 的 稳定 性
。
在 前馈 反馈控制 系 统 的 设计过程 中
-
,
很明显 ,
前馈控 制 器 的 设计不 受线 性反馈
控制 器 的影响 ,
前 馈控制 器 的 加 入 能 补偿可 测 干扰对控制 回 路 的 影 响 , 等价于 降低
了 回 路 的 控 制 难度 。 因此 , 前馈控 制 器 的 加 入 对 反馈控 制 器 的 参 数 影 响 也 不 会 很 大
。
的 ,
因 此存在 时 间 上 的 滞后 ,
但最 终 的 结 果是趋于 零偏差 的 。
因 此反馈 控 制 回 路 是
慢速 的 但 准 确 的 面 对控制 难 度较 高 的 对 象 前馈 是 解 决 问 题 的 个有 效 的 方法
一
,
。 ,
。
25
华北 电 力 大学硕士学位论文
4 . 1 . 2 强化学 习 前馈控制 器
搭 建 前 馈控 制 器 时 需 要 建 立对 象 的 模 型 , 进 而 通过计 算 获得 。
如 果 能够 根据 数
计将大大简化
。
, ,
, 自 ,
算法 中 ,
提高 强化学 习 的 收敛性 与 稳定 性 。 其算法结构 如 下
:
前 馈回 路
可 测扰 动 不 可测 扰 动
[
m mJ
设趙
_ L  ̄
—
?
| 〇
反 馈问路
^
图 强化学 习 自 适应补偿控制 系 统结 构
-
4 1
如图 4 -
1
所示 ,
控 制 系 统 由 前 馈 回 路与 反馈 回 路 组成 ,
反馈控制 器 与 强 化学 习
控制 器 , 反馈控 制 器 根据 偏 差 给 出 方 向 正 确 的 反馈控制 动 作 《 ,
该动作 同 时送入强
化学 习 的 观测 器 , 构成 串 联关系 ,
强化学 习 智 能 体 收 到 反 馈控制 动 作 信 息 后 , 同时
根据环境状态计算控制 策略 ,
给 出 前 馈优 化控制 量 《 , 反馈控 制 动 作 w 与 前馈优化
控制量 a 叠加 , 构成并联关 系 ,
作 为最终动 作 用 于 控 制 被控对 象
。
算法搭 建过程如 下
:
, :
自 ,
2 6
华北 电力 大学硕士 学位论文
,
两个 同 时 自 适应 的 控 制
器会互相 影 响 , 产生过度校正 ,
从而 降低控 制 品 质 。
根 据 被控 对 象 特 性 , 设计经典
,
。
在 进 行 反 馈控 制 器 参 数 整 定 时 , 由 于 其 与 强化 学 习 配合 进 行 优 化控 制 , 反馈控
制 器 只 需 稳 定 完成控 制 目 标即可 。
因此 ,
采用 保 守 的 设计 目 标 , 在参数整定 时 看重
, 目 ,
,
, ,
。
设控 制 器 输 出 的 范 围 为 , 心 ? ) , 以正作用 的 P ID 算法为例 ,
当 控制量 w > ?
max
,
且 e >0 时 ,
令积 分增 益 归 零 ,
防止控制量 《 的 继续增加 ,
同 理 当 控 制 量 w
,
且 e < 0 时 ,
令积 分 增 益 归 零 ,
防止控制 量 w 的 继续减小
。
第二步 , 前馈 回 路 的 设计 :
前 馈 回 路 的 设计 过程 中 , 强化学 习 的 参数设计采用
普遍 的 方法 即 可 在上 章 中 讲过 的 强化 学 习 设计方法在 这里 同样 适用 就不再赘
一
, ,
述 。
需 要 注 意 的 是 强 化 学 习 前 馈控 制 器 的 输入 变量 的 选 择 与 结 构 的 搭 建 以 及输 出 层
缩放系 数 的 设置
;
的 扩充为 其中 扩充 的 为反馈 回 路 的 控制 量
’ ' '
^ ,
" 3 1
5
,
《 ,
0 !
,
7
% 1 ?
,
《 , ,
《
。
( ) ( )
其次 ,
强化 学 习 的 观测 器 同 步进 行扩充 , 由 经典 的 环境信 息 S 扩 充 为 环 境信 息
与 反 馈控 制 量 (
A ?
)
,
将反馈 回 路 的 信 息 作 为 策 略 网 络 的 输入 ,
便于 强化学 习 的 自
适
应控 制
。
再次 ,
根据 实 际控制 系 统 的 控 制 量范 围 ,
设置缩放 系 数 的 大 小 ,
缩放 系 数理论
上不大于 控制 量 的 上 限值大小
。
叠加 ,
作 为 最 终 的 控制 量送入被控 对 象
。
2 7
华北 电 力 大学硕士 学位论 文
+ ^ 最 终动 作
前 馈补 偿 动 作
V
^
( ^ 奖 励 ( ^
智 能体 ?
环 境
V k J V
^
/
状态
\
、
、
^
参考学 习 动作
"
r
\
线 性反 馈 控 制 器
V t J
I
图 4 2 强化学 习 自 适 应补 偿控 制 系 统 流 程 图
过程控制 系 统是基于 数据 的 , 连续 的 ,
非线性 的 。 D QN 算 法输 出 离 散 的 控 制 动
作 ,
在过程控制 中 的 适用 性较差 ,
DDPG 是基于 策 略梯度 的 优 秀 算法 ,
输 出 连续 的
基于 强化 学 习 的 前馈控制 器 与 传 统 的 前 馈控制 器作 用 略有 不 同 ,
强化学 习 以神
经 网络作 为策 略计算 的 内 核 ,
其 优 势 在 于 神 经 网 络支持任 意 数量 的 输入参数 ,
从而
响较小 的扰动 ,
作为参数 参 与 强化 学 习 训 练也 能提 高控制 精度 。 强化学 习 自 适应 补
化学 习 的 自 趋优 能力 与 反 馈控制 的 鲁棒性
。
中 智 能 体 的 训 练方 式
。
28
华北 电 力 大 学硕 士 学 位 论 文
其 训 练算 法流程 如 下
:
(
1
) 初始化经验池 D , 容量为 P ; 初 始 化 线 性 反 馈 控 制 器参 数 以 W = / 〇y ) 表示
;
初始 化两 个 策 略 网 络参数 I 化 心 初始 化两 个评价 网 络参 数
’
(
2 =
供
=
供
)
;
(
3) 初始化环境 状态 =
重 复 以 下 步 骤
:
计算 m
=
/〇) 、 a=
々〇 y
,
w , 供)
;
最终控制 动 作
+
执行动 作 % 得 到 奖励 下 状态 , 和 终止符 r 计算 w / f
'
r =
一
? a/ ,
, f ,
( )
;
记录样本 夂 《 4 至 经 验池 〇 若容量不足则从头覆盖记录
'
(
^ ? ,
《^ , , ,
;
s=s
;
,
:
从经验池 中 随机采样 m i n i b e ac h 样本 B 个 ,
分 别 输入 四 个 网 络
:
计 算 匀 m ax
’ ’ '
=
0卜 M a 炉) 、 2
=
, + r 1
—
M a 炉 )
g e,
, , ,
, ar
( a , , ,
;
最小 化损 失 函 数 更 新评价 网 络参数 ?
最大化价值函 数 1^ 及 ?, ¥) 為 以 (
更| 策 略 网 络
1
?
| > ( ( ) )
,
? , 5 ?
参数 ( 9
;
每隔 C 步更新
1
沒 <
—
0 、
妒
;
直至 终止 状态或重 复 N
次
直至重 复 M 次
4 2 .
仿真实验
4 2 . . 1
实验对象
, , 。
4 -
3 所示为单 容 水 箱液位控制 系 统工 艺 图 底 面积 〇 为 ,
2m
*
2m 。
图中 私 ( 单位为 m
3
/s
)
为入 水 流量 , 由 水 栗进 行 控 制 , 最 大入 水 流量 为 1 0m
3
/ s 。
容器输 出 管道流量 不
可调 节 其 管道 阀 门 截面积 定 义 为 水流量定义为 位为
2
M( 单
3
出
=
,
< 3 〇 〇2 5 .
m , m / s
。
?? ,
)
29
华 北 电 力 大学硕 士 学 位论 文
控制 目 标 为 水箱 的 液位高度 ,
定 义 为 A 单 位 为 (
m) ,
水箱最大高度为 2 0m 。 水箱液
位控 制 系 统作 为 经 典 的 非 线 性 被控 对 象 , 其 主 要 特 点 为运行 过程 中 参数发生 变化 导
, 自
。
qC
^
n
a h (
t
)
n
a o ut
D ¥0
—
—
u
qn
图 单容水箱 液位控制 系 统
-
4 3
根据 设 定 条件 , 该 仿 真模 型 表达 式如 下
:
4 -
1
dh { t ) . . . .
(
)
a t
(
4 -
2
)
4 2 2
. .
强化学 习 自 适 应 补 偿 控制 系 统搭 建
统是 个 非 线 性 系 统 在 水 箱液 位 高度 的工 况 下采 用 泰勒展 开 局 部线性化建立
一
,
l 〇m
局 部 线 性模 型 。 设水 箱表达 式 中 非 线性部 分为 / (
/7
)
=
V^ , 在 /!
=
1 0 时进 行泰勒展开
得到下式
:
/ (
1 0 + A/ j
)
=
Vi 〇 + —
i = A /7 (
4 -
3
)
2 V l
〇
根据 局 部 线 性 化 后 结 果 ,
得到局 部线性传递 函 数如 下
Ah
(
s)
_
1 2 .
6
(
4 -
4 )
aw
⑴ 5 0 . 6s + 1
根据传递 函 数 , 整定 P I D 反馈控 制 器参 数 ,
参 数整 定 追求鲁棒性 ,
釆用 PI
结
构得到整定参数为 分 =
2 ,
幻 =
0 . 06
。
3
0
华北 电 力 大 学硕 士学位论文
—
— ■ ■ ■
—
0
■
y
/
8 /
1
S
/
S 6
J
然
;
睬
,
L
4
设定值
-
2
-
位
1
〇
0 50 1 00 1 50 20 0
麵《 _ /s
图 线性 D 控制 下 液位 高度控制 曲
线
-
4 4 P I
奖励 值 的 设 计 , 强化学 习 网 络 设计 ,
训 练参数 设计
。
终止 条件 的 设计 是反 映训 练是 否 中 断 的 标 志 , 取液位高度高于上 限 2 0m 时 ,
终
止符 d
=
l 。
奖励 值主要根据 偏差与 终止符进 行设计 , 取 偏 差 绝 对 值 进行 计 算 。 其计
算方式为 , 当 误差绝对 值 |
e
|
<〇 . l m 时 ,
奖励 值 r
=
l 〇 , 否则 r = -
] ,
当 时 ,
r = -
l 〇〇
。
强化 学 习 前馈控制 器采用 DD PG 算法 ,
因 此 同 样 需要设计策 略 网 络 与 评价 网 络
。
, , , ,
, 。 ,
, 3 1 ,
节点数为 48 个 ,
激活 函 数均采用 re l u 函数 。 由 于 策略 网 络 直接输 出 连续 的控 制 动
作 ,
输 出 层 节 点 数为控制 变量 的 个 数 即 输 出 层节 点 数 为 1
个 。
采用 s i
g
mo d i
函 数作
为输 出 层激活 函 数 该 函 数将输 出 限 定 在 ,
〇
?
+ 1
的范围 内 。
输 出 层缩放系数 的选择
,
习 前 馈控 制 器 对 反馈控制 回 路 的 影 响 比例 。
因此 ,
缩放 系 数是强化学 习 控制 器设计
。 , ,
能力越强 ,
结合强化学 习 的 自 趋优能力 , 控制 效 果 也会越好 ,
为保证最优 的控制 效
3
1
华北 电力 大学硕士学位论文
果 , 取缩 放系 数 为控 制 量 上 限 值 1 0
。
\ \
\
反馈 力 / \ Re l u A R e u A R e l u
层
U ^ A A /
l
^
I
/
y —
? v _
y —
? v _
J
图 强化学 习 前馈控制 器策 略 网 络结 构 图
-
4 5
, , , 。
,
前馈动 作 输 出 与 反馈动 作 输 出 ,
其节 点数分别 为 3 个 ,
1
个和 1
个 , 隐含层 与 叠加
层节 点数为 4 8 , 激活 函 数为 re l u 函数 ,
输 出 层节点数为 1
个 ,
无激活 函 数 。
其结构
如下图 4 -
6 所示
。
 ̄  ̄
?
\
—
^ (
隐含 J \
\ 个
端 输 入 层 1
// \
^
\
\ /7
e l u
T^
\ 隐 输出层
叠加层
y , 〔
〕
A /
Re l u
Re i u
前馈动作 端输
^
反馈 动 作 端输 n ! 丨 ^
?
/
J
^
入层
? V j V
J
、
智 能体参数 的 设计主要 包括 ,
采样 时 间 ,
每 次训 练的时 间 长度 , 学习率 ,
折扣
因子 ,
缩放系数 , 经验池大小 ,
每次训 练的 b at c h 大小 , 训 练结 束 的 累 积 奖励 阈 值
。
本 实验 设计 参数 如 下 :
采样时 间 为 〗 s ,
每次训练时长 6 00s ,
学习率 0 000
. 〗 。
折扣 因
3 2
华北 电 力 大学硕士学位论文
因 此折扣 因 子取 0 99
. 。 经验池 大 小 为 1 000 , 训 练采样 b at c h 为 3 2 。
根据 时 长 与 奖励
4 2 3
. .
纯 强化 学 习 控制 系 统搭建
自 ,
化 学 习 控制 系 统进 行 对 比 实验 。 其控制框 图 如 下 图 4 -
7 所示
。
, ,
前 值及 累 积值 , 可测 扰动 作 为输入信 息 ,
反映控制 系 统状态 。
为便于 实验对 比 ,
终
止 条件 ,
奖励 值 与 智 能 体 参 数 的 设 定 与 强化 学 习 前 馈控 制 器 相 同
。
可测扰动 不可 测 扰动
^丄
习
I f器
 ̄
 ̄
图 4 7 纯强化学 习 控制 系 统 结构 图
4 2 4
. .
实验结果
训 练过程 中 ,
每 次初始化参数 的 时候 , 需要初始化 水箱液位 , 也 要对 反馈控 制
8 所示
。
: ,
用 相 同 参数 的纯强化学 习 控制 器针对该模 型进 行训 练 ,
训 练过程 如 下 图 4
-
9 所示
。
3 3
华北 电 力 大学硕士学位论文
uuu
-
*
?
/
3 500
/
-
/
3000
-
/
|
2 5 00
/
? 2 000
/
I
/
,
z
z ,
1 0 00
产
—
一
—
一
—
f
、
二
s oo
、
::
:
^
Q
1
i i
if
!
兵
L
4
,
1 1 5 22 .
5 33 5 4 4 5 5
. .
E p sod e
i N u m b e r
图 4 8 强化学 习 前馈控制 器训 练 累 积 奖励 曲 线
繼
?
3 500
-
/
3 000
^
I
&
2 500
|
I 2 000 l I
! 1 500
,
f \
J
\
|
?
八 /
N/
i
w
i
5 00
r
/
5 00 卩 V ^ -
J J i
—
一
00 0
-
0 2 4 8 8 1 0 1 2 1 4 1 6 1 8 20
Ep i
s od e Nu mbe
r
图 4 9 纯强 化学 习 控制 器训 练累 积 奖励 曲 线
从图 4
-
8 和图 4 -
9 可 以看出 ,
相 比 与 纯强化学 习 的 训 练过程 ,
强化学 习 前馈控
制 器 的 训 练主要有 以 下 特 点
:
, ,
快 ,
图 4 -
8 中 强 化 学 习 前 馈控 制 器 第 5 次迭 代 就完 成 了 训 练 ,
而图 4
-
9 中 纯强化学
习 需要 20 次迭代
。
从收敛 曲 线 的 趋势看 ,
图 4 -
8 中第 1
次迭代时 ,
就有基础 的 正 向 的 累 积奖励
,
,
4 -
9 1 2
是 负 的 累 积 奖励 , 在第 1 4 代 开 始 才 快速 增 加 累 积 奖励 , 之后 累 积 奖励 曲 线与 图 1
类
似 。 因此 ,
相 比 于纯强化 学 习 的 训 练过程 , 强 化学 习 前 馈控制 器 的 学 习 过程 中 ,
大
优策略
。
3 4
华北 电 力 大 学硕 士 学 位论 文
水箱 液位
5
-
?
* *
1 f
”
厂 、
、
一
、
/
广
— 产 、
一一
、 ―
m
1
0 、
z 产
i
—
J /
接
5
j K /
液 位反 馈 值
液 位设 定值
I
?
-
5
i
g
〇
强 化 学 习 控 制 屋
^V x
v
> AA
'
v r
/
VVV
\ WV ^V
>
A H /A vv
vv vw
^
VV
>
J
-
》 ^y
〇 L I j
I
i
i
-
时间 /
S
图 有 反馈控 制 情况 下 第 次学 习 过程
-
一
4 1 0
水箱液位
20
*
-
* -
/ !
j
适
-
1 〇 f
?
5
/
〇 | :
i
, i
:
 ̄  ̄  ̄ _
奖励
_
 ̄
T
'
叶
;
?
-
?
50
-
1 00
强化学 习 抟制 镦
左 〇
-
| 5
* ■
〇
.
时间 /
S
图 无 反 馈控 制 情 况 下 第 次学 习 过程
一
-
4 1 1
学 习 过程 的 稳定 性 ,
根 据 学 习 初 期 的 探 索 过 程 的 水 位 变化情 况 分 析 算 法 的 稳 定
,
4 -
1 0 ,
-
1 1
迭代的学 习 曲 线 , 通过 图 4 -
1 0 , 4 -
1 1
可 以看 出 , 在 稀疏奖励 的 情况下 , 带有反馈
控制 器指 导 的 强 化学 习 前馈控制 器 的 探索 过程是 有方 向 的 ,
并且趋 于 目 标 收敛 ,
不
会超 出 模 型 允许 的 界 限 。
而纯强化学 习 的探索 过程是无序 的 ,
不 断 地试错会带来 很
3 5
华北 电 力 大学硕士学位论文
练速度 快 ;
2
) 对 原 系 统影 响 小 。 这对 强化 学 习 的 实 际 应用 具有重 要 价 值
。
实验 二 针对 同 被控 对 象 同 初 始 条件 分析 不 同 控制 算 法 的控制 效果
一
一
: , ,
,
其仿真结 果 如 下
:
〇 ^ 乂 一
二 二
■ j .
彳
一
1
厂 二 ^
/
/ I
!
(
/
*
I
i
? 6 i
扫
i
疾
!
a
.
4
?
强化 学 习 前 馈 控制
—
2 | |
设定值
P I
D
| | | 1 j | |
q
0 2 0 40 60 8 0 1 00 1 2 0 1 40 1 60 1 80 20 0
时 间 / s
图 4 1 2 纯 P i d 与 带 强 化 学 习 前 馈 控 制 器控 制 效 果 比 较
由 图 4 -
1 2 可 以看 出 , 在 无外扰情 况 下 ,
强化学 习 前馈控制 器 能够优化 PID
的
控制效果
。
: , , ,
时 未 添加 的 扰动 。
分 析 不 同 控制 算法 的控制 效果 ,
其仿真结 果如 图 4 -
1 3 所示 。 由 图
4 -
性通道 下 干扰对控制 量 的影 响 ,
并输 出 相 应 的 优化控制 量来抵消 干扰 的影 响
。
0
-
二 _ 一
一
一
曰8
、 /
M /
I
W 6 /
.
/
丨
^
/ 丨
*
?
/
.
/
_
^ 1
设定值
2 强 化 学 习 前 馈 控 制
P D
0
0 2 0 4 0 6 0 80 1 0 0 1 2 0 1 4 0 1 6 0 1 8 0 2 0
C
时间 /t
3
6
华北 电力 大学硕士学位论文
图 4 1 3 惯 性 扰 动 通道 控 制 量干扰 下控 制 效 果对 比
实验 四 :
在 实验二 的基础上 ,
改变水箱参数 ,
修改水箱入水 阀 门 特性 ,
将实际
出 水流量 变 为 原 流量 的 40 % 。
仿真结果如 下 图 4 -
1 4 所示
。
n
I
|
I
?
—
, - —
,
- - — _
_ —
a .
—
 ̄
/ —
—
4
—
一
J ,r
…
、
、
,
/ ,
E
I
6
S /
、
蟫 i
/ 丨 ;
、
、
铤 —
设 定值 \
、
2
—
P D + RL
I
前 馈
)
P D
I
〇
 ̄ — —
RL
0 20 40 6 0 80 1 00 1 20 1 40 1 60 1 80 200
时间 7
S
图 时 变对 象控制 效 果 对 比 图
-
4 1 4
从 图 中 可 以看 出 ,
水箱 的特性 改变之后 , 纯强化 学 习 算法鲁棒性 差 的 缺 点 完全
馈控制 器 算法 ,
其不仅使水箱液位达 到 了 设定 目 标 , 并且 保 留 了 强化学 习 算法 的优
化效果
。
3 7
华 北 电力 大学硕士 学位 论文
4 . 3 小结
本 章 针对 强 化 学 习 算 法面对 时 变对 象鲁 棒性 差 ,
学 习 速度慢 的 问 题 , 搭建 了 强
化学 习 自 适应 补 偿控 制 系 统 。
首先 , 通 过反 馈控 制 器 分析 环 境 状态 , 输 出 参考控制
动作给智 能体 ,
智 能体 同 时 分析环境状态与 参考控制 动 作进行动 作选择 与 策 略更新
。
的 无 效探索 与 危 险探索 ,
从而 提 高 强化 学 习 收敛 的 稳 定 性 , 加 快强化学 习 算法 收敛
速度 仿 真 实验证 明 针对 同 被控对 象 强 化 学 习 前 馈 控 制 器 收敛 需 要 的 迭 代 次
一
。 , ,
数 少 于 纯强化学 习 过程 , 同 时 强 化 学 习 前 馈控 制 器 将 反 馈 回 路 的 控 制 效 果 提 高 到 了
与 强化 学 习 同 样 的 水平
。
, , ,
化学习 自 趋优 的 适应新 的 对 象 参数 提供 了 发 挥 空 间
。
但是 , 当 系 统 的 模型 未知 时 ,
算法无法建立仿真模型进行强化学 习 智 能体 的训 练
,
如 果 直 接将 智 能 体置 于 实 际 环 境进 行 训 练 , 智 能体 的 探 索 过程在 大 部 分情 况 下 时 不
允许的 在下 章 将 讨 论如 何在 无模型 的 情 况 下 进行 智 能 体 的 训 练
一
。 ,
。
3 8
华北 电力 大学硕士学位论文
第 5 章 无模型强化学 习 自 适应补偿控制 系统
督控制 算法 的方式 ,
设计 了 适用 于 前馈结 构 的 网 络监督控制 器算法 。
其利 用 运行数
据 进行 预 学 习 来 建立 快速有 效 的 前 馈控 制 器 ,
再结合强化 学 习 的 更新方式进行优化
,
该方法 的 有 效性
。
5 . 1
神 经 网络前馈监督控制 器
偏差e I
际衡
设定
^
图 5 1
神 经 网 络前馈监 督控制 系 统结构
起运算 但 新 的 算 法输 出 不 参 与 实 际 系 统控 制 通过观察新算法 的 输 出 量判 断 算
一
, ,
法是 否 符 合控 制 特性 ,
符合要 求 的 情 况下 再通过跟踪输 出 以及无扰切 换将 新 的控 制
算 法投入 系 统运 行
。
, ,
控制 器 的有效 性 ,
但实 际物理环境 中 , 经 常存 在 无法 建立准 确 数学模 型 的 情 况 。
为
, , ,
方法进 行 神经 网 络控 制 器 的 设计 。
其 设计思路如 下
:
3
9
华北 电力 大学硕士学位论文
神 经 网 络控 制 器 作 为 前 馈 控 制 器 , 其 作 用 在 于 超 前 采取 动 作 , 因 此将 A M 作为
目 标 值 对 神 经 网 络控 制 器 的 权 值 进 行 监 督 训 练 。 如图 5 -
1
所示 , 将实 际值 ;
;
与 偏差
作 为 网 络 输入 前 时 刻 与 当 前 时 刻 的 反 馈控 制 量 差 值 A w 作为 标值对神 经 网
一
e , 目
络 控 制 器进 行 更 新 ,
即
E {
k
)
=
\1 2
{
un {
k
-
up
{
k + up
{
k (
5 -
1
)
^ ^
式中 ,
叩 ⑷ 为线 性控 制 器 的输 出 ,
期
⑷ 为 网 络控制 器输 出 。 训 练好 的 神 经 网
络 控 制 器 作 为 前 馈控 制 器 参 与 系 统控 制 。 图 中 虚 线 部 分表 示 网 络 有 预 学 习 与 在 线 投
入两种状态 , 在预学习状态中 ,
神经 网 络控制 器 的输 出 值并不参与 控制 即
终控 制 量 由 反馈控制 器与 神 经 网 络控 制 器 叠加 后 组成 即 《
(
*
)
=
叩 (
At
)
+ M?
(
A:
)
。 由于
神 经 网 络控 制 器 的 投 入会 与 原 本 的 学 习 方 式耦 合 ,
因此 ,
在 线 投 入 状 态 的 网 络 无法
再 使 用 预 学 习 的 方 式 进 行 权值 的 更 新
。
5 . 2 无模型强化学 习 自 适应 补偿控制
, ,
自 。
致的 因 此利 用 预 学 习 方 式 得 到 的 神 经 网 络代 替 强化 学 习 通过 仿 真模 型 试错 方 式
一
得到 的策略 网络 ,
从而 实 现无 仿 真 模 型 的 强 化 学 习 算 法
。
略 网 络后 评价 网 络与 策略 网 络 的 不 致会影 响 算法 的 收敛 为此 在预学 习 的策
一
, 。 ,
,
。
其最 终算法实现流程如 下 所示
:
(
1
) 初始化经验池 D ,
容量为 P ; 初始化线性反馈控制 器参数
(
2) 初始化两 个策略 网 络参数 =
初 始 化 两 个 评 价 网 络 参 数 f
=
(
3 ) 预学习 部分 ,
采集 被 控对 象 历 史 数据 状 态 I控制 器输 出 《 , 重复 以下步骤
:
40
华北 电 力 大学硕 士学位论文
从 历 史 数 据 中 随 机采 样 m i n i b e a ch 样本 B 个
:
计算
Am
=
w m 、 0 Ca /
T
=
0 0s ,
M ,
A m 炉) ,
、
' r
G
=
^ + / m ax Q (
^ \
u a p
(
)
.
, ar
g ?
〇
, ,
最 小 化损 失 函 数 -
2_ ;
)
更 新评价 网 络参数 t
计算
a= ;r
0 〇y ,
M , 炉)
;
最小 化损 失 函 数
士& > A
^ 更新 策略 网 络参数 l
-
vw w
>
每隔 C 步更新 ? 妒
;
直至重 复 N 次
;
直至重复 M
次
(
4
) 强化 学 习 部 分 , 重复 以 下步骤
:
根据 环境状态 八 计算 m
=
/ 〇s ) 、 g =
%〇 ,
w , 供)
;
最终控制 动 作 =
w + a
;
执 行 动 作 士 ^ 得 到 奖励 下 状态 , 和 终止 符 计算 m / ^)
’
『 =
一
,
,
(
;
s ,
w ,
a ,
r ,
5 ,
w , ,
;
(
当 样 本数大于 定数量 K 训 练开 始
一
,
:
从 经 验 池 中 随 机 采样 m inibeach 样本 B 个 ,
分 别 输入 四 个 网 络
:
计算 么 的 卜
'
w 2 w + X
… m ax a 供
=
a 、
)
va / , ,
, ar
g
?
( a ,
;
最小 化损 失 函 数 G J 更新评价 网 络参 数 识
-
;
a
最大化价值 函 数 E "
) )
更新策略网 络
士
;
参数 0
;
每隔 步更新
'
'
C 0 ?
炉 沪
—
9
?
<
—
< <
、
;
直 至 终止 状 态 或重 复 J
次
直至重 复 K
次
4
1
华北 电 力 大学硕士学 位论文
5 . 3 仿真实验
态数据 ,
根据运行数 据 利 用 神 经 网 络反 向 传 播算法 ,
对神 经 网 络控 制 器进行训 练
。
得到效果如下 图 5
-
2 所示 。 在 完全 没有 依赖模 型 的 情况 下 ,
采用 预学 习 方法训 练前
, ,
得到 了 提高
。
!
!
!
|
|
| (
!
I
!
:
[
I
!
8
/
/
/
/
i
f
…
-
一 …  ̄ … … " " " " '
爸 T
u
厂
i
I
I
|
t 设定值
—
i li
^
[
!
!
1 丨
I
铤
4
P D+ 预 学 习 1
—
I
P D
1
2
1
—
■
〇
?
?
|
j
|
0 20 40 60 80 1 00 1 20 1 40 1 60 1 80 200
时间 /
S
图 5 2 预学 习 神 经 网 络 前馈控制 效 果
DDPG 算法 中 的 策略 网 络 ,
引 入强化学 习 的 自 学 习 能力 。
其结果如 下 图 5
-
3 所示
。
、J
| 1 00 0
/
J i
-
?
g J
i
f
]
i
I
6
j
5 00
?
|
|
.
" '
?
,
,
v i
.
Q
_
1
5 00
-
0 1 0 2 0 3 0 4 0 5 0 6 0
Ep i so d eN u m b e r
图 5 3 累积 奖励训 练曲线
42
华 北 电 力 大学硕 士 学 位论文
每次迭代运行 200s 。
为保证控制 算法 能够应对各种 不 同 工 况 ,
每 次运行 初 始 水
位和 设定 水位条件 都是在 (
-
1 5
?
1 5
) 范围 内 随机的 。
训 练结 束 条件 为连续 5 次迭代 奖
励值大于 1 8 00 .
其 训 练过程 如 图 5
-
3 所示 。 通过 图 5
-
3 发现 , 在预学习 策略网络后
,
加 快速和 稳定
。
学习 段时 间后 验证 学 习 效 果 如 下 图 所示 通 过 强化 学 习 算 法更 新
控
一
,
5
-
4 , ,
|
|
!
( j
I
*
1 0
T
8
- ^ -
-
i ll
\ \
i
_
H
i
县
赵
6
f
if
p
n
设定值
诞 ! f
■
m
4
D+预学 习
P I
—
2 :
P D
I
P D+ 预学习 训 练后
|
j
0 2 0 40 6 0 80 1 00 1 20 1 40 1 60 1 80 2 00
时间 /
s
图 5 4 不 同 算 法控制 效 果 对 比 图
5 . 4 小结
自 ,
控制 结构 , 解 决 了 强化 学 习 面 对 数据 集外 的 情 况 时 无法 计 算 正 确 控 制 量 的 问 题 。
同
完全 的 无模 型 控制 算 法 。 最后 , 通过仿真对象证 明 了 算法的有 效性
。
43
华北 电 力 大 学硕士 学 位论文
第 6 章 总结与展望
在本章 中 , 对 本文 的 工 作 内 容进 行 总 结 , 包 括对 本 文 提 出 算 法 的 特 性 总 结 ,
及
其 与 传 统控 制 方法及 智 能控 制 方法 比 较 的 优缺 点 。
再 次对 算 法未来研 究提 出 展望
。
6 . 1 本 文 的 主要工作及 贡 献
目 , , , 。
, , ,
化 学 习 的 稳 定 性 与 快速 性 不 定满足控制要求
一
。
制 器 的 角 色转 变成 个 前 馈优 化 器 通过仿真实验 证 明 强 化 学 习 前 馈优 化 后 的 控
一
, ,
制 会优于 原 环境 的 控制 效果 , 并且 , 反 馈 控 制 器 对 强 化 学 习 前 馈控 制 器 的 训 练 学 习
过 程 起示教作 用 ,
大大缩短 了 强化 学 习 的探索 时 间 , 这 意 味着 智 能体 学 习 过程对 环
境 的 负面影响 较小 ,
有着更 高 的 稳定 性和 安全性
。
强 化 学 习 的 核 心 思 路 是 根据 环 境 找 到 最 优 的 控 制 方 案 , 初始 的智 能体 A g en t
随
, , ,
综上所述 ,
将反馈控 制 与 强化 学 习 结 合提 出 的 方法主 要 有 以 下 优 点
:
1 .
通用 性 强 ,
强化学 习 前馈优化器可 以 外挂 在 控制 回 路上 , 无 需 改变原控制 回
路 作为 种 辅 助 优化控 制 器 实现改善控制 效 果 的 功 能
一
, ,
;
2 .
收敛 速度 快 , 稳定 , 相 同 参 数 的 强化学 习 控制 器 ,
有反馈控制 的 收敛 只 需要
约 纯 强 化学 习 收 敛所 需 迭代 次数 的 1 / 4 ; 并且 反馈控制 器 的 存在使得强化学 习 的 寻
优过程 带有方 向 ,
使得 强化 学 习 训 练过程更 加 稳 定
。
3 .
抗干 扰 能力 强 智 能 体模 型 为 神 经 网 络 结 构 将 扰动 变 量 作 为输入 给 智 能 体
, ,
,
44
华北 电力 大学硕 士学位论文
可 以 让 智 能 体 有 效 学 习 抗干扰策 略 ; 实现 复杂 工业 系 统 的 智 能 自 主 控 制 技 术 。 同时
,
本 文提 出 的 算 法是 基 于 误差 的 控 制 算 法 , 对未知 扰动 也有抑 制 作 用
。
4 .
鲁棒性强 , 面对参数 时 变对 象 , 未 建 模特 性 会 让 独 立 的 强 化 学 习 算 法 失 效
,
但反馈控 制 器 的 存在 克 服 了 这 缺点 使强化学 习 适应 补 偿控 制 系 统拥 有 鲁 棒性
一
, 自
。
5 .
不基于模型 的 自 适应 控 制 算 法 , 自 适应 自 趋 优 的 过 程 不 依赖 模 型 的 辨 识 ,
而
是 直 接 根据 输 入 输 出 数 据 更 新 控 制 器 , 这个过程是连 续 的 , 收敛 的 , 克服 了 自 适应
6 2
.
问题与展望
数 的选择仍 需深入 的 研 究 。
对于 不 同 的对 象 ,
本文提 出 的框架 的 有 效性仍 需理论或
习 算 法 结 合 前 馈反馈控 制 结 构 得 到 的 强化 学 习 自 适应 补 偿 控 制 算 法 。 其发挥 了 强化
学习 自 学习 ,
自 适应 ,
自 趋优 的 优 点 的 同 时 , 利 用 前馈反馈控 制 结 构 解 决 强化 学 习
,
。
根据 理论 分析 与 仿 真实验 的验证 , 强化 学 习 输 出 层 的 缩 放系 数 是影 响 强 化学 习
适应 补偿 控 制 系 统控 制 效 果 与 收 敛 性 的 个 重要参 数 缩 放系 数 小 则 强化学 习 优
一
自 ,
类似神 经 网 络在 训 练过程 中 采用 变学 习 率 的 方 式 ,
强 化 学 习 前 馈控 制 器 的 缩 放 系 数
, , ,
过程 ,
最终达 到优化效果 的极 限
。
通过变缩 放 系 数 的 学 习 方法 , 可 以 将 学 习 初期探索对环境的 影 响 降 到 最 小 ,
更
有 利 于 嵌入 式 强化 学 习 前馈控 制 器在 真 实物 理世 界 的 使用
。
自 ,
。
45
华北 电 力 大学硕士学位论文
经 典 控 制 算 法 中 也 存 在 类似 的 问 题 , 内 模 控 制 算 法在 应 对 纯 滞 后 系 统 时 , 会设
除 ,
将控 制 通道传 递 函 数 中 的 纯滞 后 部 分与 其 他 部 分 分 离 。
史密斯预估器相 当 于预
于 为控 制 器 提 供 环 境 的 先 验 知 识 。
参考 这种 思 路 , 在 强化 学 习 过程 中 添加 类似 史 密
控制
。
, ,
立被控对 象 的 虚拟模 型 ,
利用 虚拟模型 作 为仿真模型进行强化学 习 的 训 练 , 最后 将
本 文 提 出 的 方 法 是 使 用 前 馈 反 馈控 制 系 统 的 结 构 进 行 强 化 学 习 算 法 的 使 用 ,
这
部 的潜力 呢 本文最后 的 个 展 望 就 是 希 望 强 化 学 习 能 够 自 主 实 现控 制 为此
个
一 一
。 ,
思 路就是将优化后 的 自 适应 补 偿控 制 动 作进 行 监 督学 习 建立 新 的 神 经 网 络控制 器
,
, 。
器更新 由 强化 学 习 独立完成 ,
将会完 全 发挥 强化 学 习 自 身 的优势
。
共 同 深入研 宄
。
46
华北 电力 大学硕士学位论文
参考文献
M o h s s e n M o h a m m e d a nd M uh a mm a d B a d r
"
[
1
J
a dd i n K h a n , M ach i n e L e ar ni n g
"
A l
g o r i t hm s a n d App li c at i on s i n 5
C R C p r e s s Ta y l o r an d F r an c i s G r o up ,
20 1 7
.
[
2] 徐洪学 孙 万 有 杜 英 魁 汪 安祺 机器 学 习 经 典算 法 及其 应 用 研究 综 述
, , ,
.
[
J
]
.
电脑知识
与 技术 ,
2 02 0 ,
1 6(3 3 ) : 1 7 -
1 9
.
[
3
] 刘畅 ?
电 站 设 备 辅 机 状 态 监测 与 故 障诊 断 [
D ]
.
华北 电 力 大 学 北京 ( ) ,
20 1 7
.
[
4] 王 文 庆 人 工 智 能 在 汽车 自 动 驾 驶 中 的 应 用 .
[
J
]
.
时代农机 ,
20 1 9 46 (09,
)
: 28 -
29
.
[
5
]
Rao D
. L e v e r ag i n g hi i m an
D oma i n Kn o w l e d g e t o m o d e l an e m p i r i c a l R e w ar d fun c t i o n
fo r a Re i n fo rc e m e n t L e a r n i n g p r o b e m [ J ]
l , 2 0 1 9
.
[
6
] 刘 吉绩 智 能发 电 . :
第 四 次工业革命 的 大 趋势 [
N ]
.
中 国 能 源报 ,
20 1 6 -
07 25
-
[
7
] 刘 吉 臻 胡 勇 曾 德 良 夏 明 崔 青 汝 智 能 发 电 厂 的 架构 及 特征
, , , ,
.
[
J
]
.
中 国 电机工程学
报 ,
20 1 7,3 7 22
( )
: 64 63
-
6 4 7 0+ 6 7 5 8
.
[
8
] 柴 天佑 工业 人工 智 能 发 展 方 向 .
[
J
]
.
自 动化学报 ,
2 020 46 , (
1 0
)
: 2005 -
20 1 2
.
[
9] Jor
g e
N o c e da l
§
. O pt i m i z at i o n M e t h o d s fo r L a r g e S c a l e M a c h i n e L e a r n i n g [ J ] S I AM
-
Rev i ew ,
20 1 6 ,
60
(
2)
.
[
1 0] 徐洪 学 孙 万 有 杜 英 魁 汪 安 祺 机器 学 习 经 典算 法 及其 应 用 研究综述
, , ,
.
[
J
]
.
电脑 知
识与技术 ,
2 02 0 ,
1 6(3 3 ) : 1 7
-
1 9
.
[
1l
]
A ru l kum ar a n K 5
De i s e nr o t h M P B r un d a g e M
? ,
et al . D e ep R e
i nfo r c e m e n t L e a r n n
g i
:
A Br i e f S urv e
y [J] _ I E E E S gn a i l P r o c e s s n gM a g az n e
i i
,
20 1 7 ,
34
(
6
)
: 26
-
3 8
.
[
1 2] 陈圣磊 .
强化学 习 及其 在 MA S 协 同 概念设计 中 应 用 的 研究 [
D ]
.
南 京理工大
学 ,
2006
.
[
1 3
]
T h e o ry o f n e u r a l
-
a n a l o g r e n fo r c e m e n t s y s t e m s a n d i t s ap p
i l i c at i o n t o t h e b r ai n m o d e
-
l
em
pro b l
.
4] B e m anRE D y n am cP r o
gr am m n g [ M ] Pri n c et o nU n v e r s t
yP r e s s Pr nc eto n NJ
1 l l i i i i i
. .
[ , ,
?
1 95 7
.
[
1 5
]
Be l l m a nR E . A M a rk o v d e c i s i o np r o c e s s [
J
]
.
J o u r
n alo f Ma t h e m at c a M e c h i l
,
1 957
,
47
华北 电 力 大 学硕 士 学位 论 文
6 67 9 6 84
:
.
[
1 6 ] B art o A G
? S u
tt o n R S ?
A n d e r s o n C W N e ur o n . l i kee l e m e n t s t h at c a n s o l v e d i f f i c u l t
l e arn i n g c o n tr ol p r ob l em s [J] . I E E E Tr a n s a c t i o n s o n S y st e m s ,
M an ,
an d C yb e r
net i c s ,
9 8 3 1 3 835 846
-
1 :
.
[
1 7 ] S ut o n RS , L e ar n i n g t o
p r e d i c t b y t h e m e th o d o f te mp o r a l d i fe r e n c e s [ J ] . Mach i ne
L e ar
ni n g , 1 988 ,
3 : 9 -
44
.
[
1 8
]
Wa t k i n s C J C H L e a r n i n g f r o m D e l a y e d R e w a r d s [ D ] P h D t h e s i s C a m b r
. i dg e
.
Un i v e r s i ty ,
C am b r i dge ,
Eng l a nd ,
1 989
.
[
1 9 ] T h o m a s P h i l i p S B r un s k i l l E mm a P o l i c y G r a d i e n t
, ? ,
. Me t h o d s fo r R e i n fo r c e m e n t
L e arni n g w
i t h F un c t i o n App r o x i m at i o n an d A ct i on -
D ep e n d e n B a s e t li ne s [ J] ,
2000
.
[
2 0] 杨文乐 .
基于 强 化学 习 的 倒立摆控制 算法研究 [
D ]
.
西 安理工 大 学 ,
20 1 9
.
[
2 1
] 詹亮 .
深 度 学 习 在 强 化 学 习 中 的 应 用 研究 [
D ]
.
[
2 2 ] H as s an i en A B h at n a g a r R D a r w
.
,
.
,
i sh A .
(
e ds
) A d v a n c e d M a c h n e L e a r n n g
i i
Te c h n o l o g i e s a nd A pp l i c at i o n s . A M LTA 2 0 2 0 A d v a n c e s . i n I nt e l l i g e n t S y s t e m s a n d
C o mp u t i n g ,
v o l1 1 4 1 , S
p r nge r
i
,
S i n g ap o r e
.
[
23] L i Y . D e ep Re
i nfo r c e m e n t L e a r n i n g : An O v e rv i ew
[
J
]
, 20 1 7
.
[
24 ] V Mn . i h K K a vu k c u o g u D S
,
. l
,
. i l v e r e t a l P a y i n g at a r w
,
. l i i t h d e e p r e i n fo r c e m e n t
l e arn i n g [
ar X i v]
.
[
25
]
V Mn . i h K K a vuk c u o g u D
,
. l
,
. S i l v er , e a H um a n
t l .
-
r e i n fo r c e m e n t l e a m i n
g [J] . Na t ur e ,
20 1 5 5,
1 8
(
7 540
)
: 5 29 -
53 3
[
2 6 ] v an H as s e l t
,
etal . D e ep R e
i n fo r c e m e n t L e a r n i n g w i t hD o ub l e Q
-
l e am i n
g [J] . ar X i ve
-
pr nts i
, 2 0 1 5 1 5 0 9 ,
. 0 64 6 1
.
[
2 7] Wa n g Z S c h a u T H e s s e M e a L D u e
,
l
,
l
?
t l i n g N e t w o r k A r c h i t e c t u r e s fo r D e e p
Re i n fo r c e m e n t L e a r n n g [ J ] i . 2 0 1 5
.
[
28 ]
T P L . . i l l i c r ap ,
J J ,
. H un t
,
A . Pr i t ze l
, e ta l . C o nt n u o us i c o ntr o l w i t h d e e p r e n fo r c e m e n t
i
l e a rn
-
i n g arX v ] [
i . h ttp s : // a rx v o r g / a b s / i . 1 5 09 . 0297 1
,
20 1
5
[
29
J
R M TU n I i ve rs i t
y ; A t a r m a s t e r
i : N ew A l s m a s h e s Go o g l e D eepM i n d n v d e o g am e
i
i
48
华北 电力 大学硕 士 学位 论文
c h al l e n
ge [ J] . N ews Rx He a l t h & S c i en c e 2 0 ?
1 9 79 :
-
83
.
[
3 0
]
Z hu H ,
G up t aA ,
R aj e s w a r a n A ,
et al . D e x t e r o u s M an p u i l i i D e ep
a t i o nw i t
Re i n fo r c e m e n t L e a r n i n g : Ef
ic i ent ,
G ener a l
,
an d L o w
-
C o st [
J
]
. 20 1 8
.
[
3 l
]
Ji e Z ,
L i an g X 5
F en g
J ,
et al . Tr e e S t r u c t u r e d R e nfo r c e m e n t L e ar n n g
-
i i
fo r S e q u e n t i a l
O bj e c t L o c a li z at i o n [ J ] . 20 1 7
.
[
32
]
S . E l
-
Ta nt a w y B A b d u h a ,
. l i an d H Ab d e . l
g aw
ad ,
Mu l ti ag ent Re i nfo r c e m e n t L e ar n n g
i
fo r I n t e d N e t w o r k o f A d a t i v e T r a f
i c S i g n a l C o n t r o l l e r s ( MA R L I N AT S C )
gr a e
-
t
p
:
M
M et h o d o l o gy an d L arg e -
S c a l e A p p l i c a t i o n o n D o wn to wn To r o n t o ,
i nI E E E
Tr a n s a c t o n s o n i I n t e l l i g e n t T r a n s p o r t at i o n S y s t e m s
,
vo l . 1 4 ,
no . 3
, pp . 1 1 40 -
1 1 5 0 ,
Se
pt
.
20 1 3 5
d o i 1 0 : . 1 1 0 9 /T I T S 2 0 . 1 3 . 22 5 52 8 6
.
[
3 3
]
S hal ev -
S hw ar t z S h a i S h a k e d S h a mm a h a n d
, , ,
A mn o n S h a s h u a . S a fe ^ M u l t i -
A g en t
,
"
Re i n fo r c e m e n t L e a r n i n g fo r A ut o n o m o u s D r i vi ng . ar X i v p r e p r i nt ar X i v : l 6 1 0 03 295
.
20 1 6
.
( )
[
3 4] 张 汝波 , 顾国昌 , 刘照德 等 ,
.
强化学 习 理论 、 算法及应用 [
J
]
.
控制 理 论 与 应 用
,
2 0 0 0 1 7 5
.
( ) ,
[
3 5
] 杨瑞 ?
多 步 强 化 学 习 算法 的 理 论 研 究 D [ ]
. 2 0 1 8
.
[
3 6
] 徐娟 .
基 于 强 化 学 习 的 动 作 控制 与 决 策研究 [
D ]
.
[
3 7
] 刘全 , 翟 建伟 , 章宗 长 等 深度 强化学 习 综述 简 ,
?
[
J
]
.
计算机学报 ,
2〇 1 8
(
1
)
: 1
_
27
.
[
3 8
] 喻杉 .
基于 深 度 环 境理解 和 行 为 模仿 的 强 化 学 习 智 能 体设 计 [
D ]
.
浙江大学 ,
20 1 9
.
[
3 9
]
B o st ro m N S up er . i nte l l i
genc e [ J] . C o m p ut e r S c i e nc e ,2 0 1 6
.
[
4 0] C ar o s C l
,
J av i e r R D S ,
J en s K . A fa s t h y b r i d r e i n fo r c e m e n t l e a r n i n g fr a m e w o r k w i t h
h u m a n c o r r e c t i v e fe e d b a c k [ J ] . Au t o no m o u sR o b o t s ,
20 1 8
.
[
4 1
]
L i l l i c r ap T P , H un tJJ
, Pr i t z e l A et a l C ,
. O N T I NU O U S C O N T R O L W T H D E E P
I
RE IN F O R C E M EN 丁 L E A RN N G I :
.
[
42] 赵冬斌 邵坤 朱 圆 恒 李栋 陈亚冉 王海涛 刘 德荣 周 彤 王成红 深度 强化学
, , , , , , , ,
.
习
综
述 兼论计算机 围 棋 的 发 展
:
[
J
]
.
控制 理论 与 应 用 ,
20 1 6 3 3 , (
06) : 70 1
-
7 1 7
.
[
43] 万 里 鹏 兰 旭光 张 翰博 郑 南 宁 深 度 强 化 学 习 理论 及 其 应 用 综述
,
.
,
.
[
J
]
.
模 式识别 与
4 9
华北 电 力 大学硕 士学 位 论 文
人 工智 能 ,
20 1 9 3 2(0 ,
1
)
: 67 -
8 1
?
[ , , ,
.
Q ( [
J
]
.
学报 ,
20 1 4 (3 ) 6 7 7 :
-
686
.
[
4 5 ] AH M ,
B F L L ,
A NS . Int e
g r a l r e i n fo r c e
m e n t l e ar n i n g a n d e x p e r i e n c e r e p l ay fo r
a d ap t i v e o p t i m a l c o n t r o o f p art a l l y un k n o wn c o n s t r a i n e d np u t c o n t i n u o u s me
- -
ti
-
l i i
S c i e nc eD i r e c t [ J] Au m at i c a 20 4 2 02
y st e m s to 5 0 93
- -
s .
1
(
1 : 1
.
, ,
)
[
4 6] 杨旭东 , 刘全 , 李瑾 .
一
种 基于 资格迹的 并行强化学 习 算法 [
J
]
.
苏州 大学学报
( 自 然科学版 ) ,
20 1 2 ,
28(00 1
)
: 26 -
3 3
.
4 7 ] Yu a n J L a m p e r s k i A O n l i n e c o n t r o l b a s i s s e l e c t i o n b y a r e g u l ar i z e d a c t o r c r i t i c
r
[ 5
a l g o r i t hm [ C ] // 20 1 7 Am e r i c a n C o n t r o l C o n fe r e n c e
(
AC C )
. I EEE ,
20 1 7
.
[
4 8] 吕 萍丽 .
[
4 9] 赵 星 宇 丁 世 飞 深 度 强 化 学 习 研究综 述 ,
.
[
J
]
.
计算机科 学 ,
20 1 8 45, (
07
)
: l
-
6
.
[
50
]
K o b er J
5
B ag n e l l J A 5
P etersJ . Re i n fo r c e m e n t L e a r n i n g i n R o b o t i c s : A S ur v e y [ J ]
.
I n at i o n a l J o u r
nt e r na l o f Robo ti c s R e s e ar c h ,
20 1 3
.
[
5 1
]
Wan g W L 5
i R ? C h en Y 5 e
t al . F a c i l i t at i n
g H um an R o b o t C o -
ll ab o r a t i v e Ta s k s b y
Te a c h n g L e a m n g C o
i
-
i
-
l l a b o r at i o n Fr o m H um a n D e m o n s tr at i o n s [ J ] . I E E E Tr a n s a c t o n s
i
on A ut o m a t i o ne nc e & E n g ne er n g 2 0 i i
,
1 9 ,
P P (2 ) : 640
-
653
.
[
52
]
H us s e i nA ?
G ab e r M M
, E l y an E ? e t a l I m i t at i
. o n L e arn i n g : A S urv ey o f L e ar n i ng
Me t ho d s [ J] . A C M C o mp u ti n g S urv e y s ,
20 1 7 ,
5 0(2)
.
[
53
] 李浩 基 于 学 习 人 类 控 制 策 略 的 多 自 由 度 机械 臂 运 动 规划 的 方 法研 究
.
[
D ]
. 2 02 0
.
[
5 4 ] R i c h ar d , S S ut t o n
,
. I n t r o du c t i o n : T h e C h a l l en
g e o f R e n fo r c e m e n L e a r n i n g [ J ]
t i
,
M ach i n e L e arn ng i
,
1 992
.
[
5 5
]
M it c h e l l T M M ac h . i n e L e arn i n g [ M ] , M c G r aw H -
i l l
,
2003
.
[
5 6
] 周 志华 ?
机器学 习 :
=
M ach i ne l e am i n
g [
M ]
?
清华大 学 出 版社 ,
20 1 6
.
[
5 7
]
陈学松 杨宜民 强化学 ,
.
习 研究综述 [
J
]
.
计算机应用 研究 ,
20 1 0 27(08) 28 34
,
:
-
2 8 3 8 +2 8 44
.
[
5 8
] 高阳 , 陈世 福 ,
陆鑫 ?
强 化 学 习 研 究 综述 [
J
]
.
自 动化学报 ,
2 004 ,
3 0
(
00 1
)
: 86
-
1 00
.
50
华 北 电 力 大学 硕 士 学位论 文
攻读硕 士 学 位期 间 发 表 的 论文及其 它 成果
发表 的 学术论文
一
)
(
[
1
] M a Y lm n g P
i
,
i n g B o y u L i u G o n g q i n g L i a o Yo n g w e n Z e n g D e l i a n g
, , ’
. F e e d fo r w ar d
F e e d b ac k C o ntr o l B a s e d on D Q N A [ ]
.
东北大学 、 中国 自 动化学会信 息物理系 统
控制 与 决策专业委 员 会 第 . 32 届 中 国 控 制 与 决 策会 议 论 文 集 (
3 )
[ C ] .
东 北大 学
、
中 国 自 动 化 学 会 信 息 物 理 系 统控 制 与 决 策 专 业 委 员 会 : 《 控制 与 决策 》 编辑
部 ,
2 02 0 5:
.
5
1
华 北 电 力 大 学硕 士 学 位 论 文
致
谢
衷 心 感 谢 导 师 曾 德 良 教授对 本 人 的 精 心 指 导 。
本科学 习 阶段 , 曾 德 良 教授 作 为
我所 在 本 科 班 级 的 班 主 任 对 待 我 们 尽 心 尽 责 不 仅 在 学 习 上 督 促 我 们 要 不 断 进 取
, ,
,
还在 生 活上 给 予 了 我们 很 多 帮 助 。 曾 老师 严谨 负 责 的 工 作 , 和 蔼 亲切 的 性格吸 引 了
我 , 因 此我得 到 保研 资 格 之后 很快 就 找 到 了 曾 老 师 , 并幸运 的 成为 了 他的 学生 。
研
究生 阶段 , 曾 老 师 给予 了 我细 心 的 研 究指 导 , 帮 助 我 实现从本科生到 研 究生 的 良好
过渡 , 对我整个 研究生 过程都起到 了 重要作 用 。 学 位论文方 面 , 曾 老师尊 重 了 我 的
意愿 , 让我 能够研宄 自 己感 兴趣 的 科研方 向 ,
并 以 此作为毕业论文 内 容 。
从论 文 的
开 题 到 最终 完成 ,
曾 老 师 多 次 为 我解 答 疑 问 , 并 经 常对我 的 工作表示鼓励
。
研 宄生 更 是 起保研进入 同 师门 并 且 我们 的 研 究 方 向 相 似 在平 时 的 研究学 习
一 一
, ,
52