You are on page 1of 61

硕士 学 位论文


基于 强化 学 习 的 自 馈t
e制 裔

 1

Re i n fo r c e m e n t  l e a r n i n g  fe e d fo r w a r d  c o n t r o l l e r

马 一



2 02 1 年 6 


国 内 图 书 分类号 : TP 〗 8
 学 校代 码
1 : 1 0079

国 际图 书 分类号 : 68 1 . 5  密级 公 开 
 :

硕 士 学 位论文

基于 强化 学 习 的 前馈控制 器

硕 士 研 究 生 马 


导 师 :
曾 德 良教授

申 请 学 位 : 工学硕 士

学 科 :
控制 科学 与 工程

专 业 :
控制理论 与 控制 工程

所 在 学 院 :
控制 与 计 算 机 工 程 学 院

答 辩 日 期 : 2 02 1 年 6 

授予 学位单位 :
华北电力大学


C l a s s i f i e d  I nd e x :  TP 1 8 

U D C
. . : 6 8 1 . 

The s i s  fo r  t h e  M as t e r D e gr e e

Re i n fo r c e m e n t  l e a r n i n
g  fe e d fo r w a r d  c o n t r o l l e r

Cand d a te
i :

 Ma Y M i i ng

S u p e rv i s o r :  P r o f  Z e n g D e
. l i an g

Acad em i c D e g re e A p p  l i e d  fo r : Mas t e r of  E n g n e er n g


 i

S p e c i a l i ty :  C on tr o l  S c i e n c e  an d  E n g i n e e r i n g

S c h o ol :  S ch o o l  o f C o n tr o l  an d  C o mp u ter

En g i ne er
in 

D a t e  o f D e fe n c e  :

 Ju n e , 
2 02 

D e g r e e C o n fe r r -

i ng -

I n s t i t u ti o n :  No r
th C h  i n a  E e c t ri c  P o w e r  U n i v e r s i ty



华北 电力大 学硕 士 学位论文原 创 性声 明

本人郑重声 明 :
此处所提交 的 硕士学位论文 《 基 于 强化 学 习 的 前馈 控制 器 》 , 


本人在导师指导下 , 在 华 北 电 力 大 学 攻 读 硕 士 学 位期 间 独 立 进 行 研 究 工 作 所 取 得 的

成果 据本 人 所 知 论文 中 除 已 注 明 部 分 外 不 包含 他 人 已 发 表 或撰 写 过 的 研 究成 果




对本 文 的 研究工作做 出 重要贡 献 的 个 人 和 集 体 , 均 已在文 中 以 明 确 方式注 明 。 本声




明 的 法律结果将完全 由 本 人承 担 

作者签名 :


嘧 日 期 : 2。 幻 年 月〕 

华北 电 力大 学 硕 士 学 位论文使用 授权书

《 基于强化学 习 的 前馈控制 器 》 系 本 人 在 华北 电 力 大 学 攻 读硕 士 学 位 期 间 在 导


师指导下完成 的 硕士 学位论文 。 本论 文的研究成果 归 华北 电力 大 学 所 有 ,
本论文 的

研究 内 容不 得 以 其 它 单 位 的 名 义 发 表 。 本 人 完 全 了 解华 北 电 力 大 学 关 于 保 存 、 使用

学 位论 文 的 规定 , 同 意学校保 留并 向 有关 部 门 送 交论文 的 复 印 件和 电子版 本 ,


允许


论文被查 阅 和 借 阅 , 学 校可 以 为 存在 馆际合作 关 系 的 兄弟 高校用 户 提供文献传递服


务和 交换服 务 。 本 人授权华北 电 力 大 学 , 可 以采用 影 印 、 缩 印 或其 他 复制 手段 保 存


论文 , 可 以 公 布论文 的 全部或部分 内 容 

“ ”

本 学 位 论 文 属 于 请在 以 上 相 应 方 框 内 打 (
V )


保密□ , 在 年 解 密 后 适 用 本 授 权 书

不保密

作者签名 :


吃 日 期 :
>2 丨
年 d 月 3 

导师签名 :
日 期 : >0 2 / 年< 月 

^ 


华北 电 力 大 学硕士学位论文

摘要

当 前 的 工 业 过程控 制 系 统 中 , 线 性控制 器仍 占 绝大部分 。 然而 真实 的 工业系 统




都 是非线 性 的 , 工况切 换 , 设 备 老 化 等 等 实 际 工 业 问 题 都对传 统控 制 器 带来挑 战 

研 究更加 智 能 的 , 具有 自 学 习 能力 的 控制 算法具有重要 意 义 。
随 着机器学 习 算法 的

不 断发展 , 以 深度学 习 、 机器 学 习 为基础 的 强化学 习 算法使得非 线 性 系 统 自 适 应控




制 出 现 了 新 的 研 宄方 向 

强化学习 是具有 自 我 决策 能力 的 控制 算法 , 通 过 探 索 与 试错 拥 有 类 似 人 类 的 学


习 能力 , 通过学 习 不 断 改善 自 身策略 ,
具有优秀 的环境 自 适应 能 力 。
好 比工厂培训

新工人 样 强化 学 习 算 法在 具 有 优 秀控 制 能 力 之 前 需要 个长 时 间 的 复杂 的 训


一 一

, ,

练过 程 , 虽然拥有 自 适应 的 能力 ,
但 学 习 过渡 的 过程 中 存 在 为 控 制 系 统 带 来 负 面影


响 的可能 。 同时 , 当 被控对 象 具 有 时变特性 的 时 候 , 纯强化 学 习 算 法 的 学 习 过渡过


程 会 为 算 法 带 来鲁 棒 性 问 题 。 针 对 强 化 学 习 用 于 过 程控 制 时 的 训 练 时 间 较 长 , 过渡


性较差 问 题 ,
本文提 出 了 基于 强化 学 习 的 自 适应 补偿控制 算法 , 讨论 了 其在非线 性


系 统 过程 控 制 中 的 应 用 问 题 。
本文 的 主要工作 如下 

首先 , 针对典 型 非线性 系 统 ,
设计 强化 学 习 算法控制 方案 , 研 宄 不 同 深度强化


学 习 算法在 非 线 性 系 统优化控 制 中 的 表现 , 证 明 强化学 习 算法 的 有 效性 , 同时引 出

其存在 的 问 题 

再次 , 研 宄利 用 前馈结 构 降低 强化 学 习 训 练难度 。 通过 前馈反馈 结 构 , 将 强化




学 习 作 为 外挂优化器 ,
保 留 原 过程控制 系 统 的 反馈 回 路 。
从而将控制 问 题 简 化为优


化问题 , 加 快 强化学 习 收敛速度 , 通过 与 传 统 的 强化学 习 方法对 比 , 设计仿真实验


证 明 该 方法 的 优越 性 。
同时 ,
考 虑 过程控制 中 存 在 的 时 变特 性 问 题 ,
传 统 的 强化学


习 算 法会 存在 适应 新 对 象 的 过 渡 问 题 针对 这 问题 本文所述方法 中 反馈 回 路 的


。 ,

存在 会 提 高控制 系 统 的 鲁棒性 ,
同 样 设计 仿 真 实验验证 时 变对 象 本 方 法 的 有 效 性 

接着 ,
考虑 复杂 的 过程控制 系 统大 多 很难 建立精 确 的 仿 真模 型 用 于 强化 学 习 算


法的训练 提 出 了 种 基 于 网 络 监 督 控 制 的 强 化 学 习 算法 利 用 网 络 监 督 控 制 方 法

, 。 

根据 过程 运 行 历 史 数 据 来 求 解 基础 的 策 略 网 络 , 结合强化 学 习 方法对 策 略 网 络进 行

后 续 的 优化 , 并通过仿真实验验证 了 该方法 的 有 效性 。
最后 , 对全 文 内 容进行 总 结

并提 出 了 本 文 所 述 方 法 仍存 在 的 问 题 及 未 来 研 究 的 前 景 

关键词 :
深度学 习 ;
强化学 习 ; 前馈 ; 自 适应 ; 非线性 系 统 ;
优化控制




华北 电力 大学硕士学位论文

A b s t r a c t

I n t h e  c u rr e n t  n d u s t r a i i l
p r o c e s sc o n
tr o l s
ystem 
l i n e arc o n t r o l l e r sst i l l ac c o u n t  fo r  t h e


 ,

v a s t  m aj o r i t
y .  H o wev e r , 
t h ea c t u a l i ndu s tr a i l s
y s t e m sar em o s t yn o n l l i n e ar , an d  th e  a c tu a 

i n du s tr a i l
p r o b l e m ss u c h assw i t chi n
gc o n d
i t i ons , e q u i

m ent a g n g an d s o o n ar e

 i

chal l en
g i n g t ot h et r ad i t o n a i l c o n tr o l e r s l . I ti so f
 g r e ats i g n
i f i c a n c et os t u d
ym o r e n t e i l l i
g e nt

an da d a

t i v ec o n tr o l al
gor
i t hm s .  W i t hth ed e v e o p m e nt o f m a c h i n e l  l e arn i n
ga g o r
l i t hm , 
t he

re i n fo r c e m e n t  l e ar n i n ga g o r l i t hmb a s e d o nd e e p l e arn i n


gan dm a c h i n e l e ar n i n gm a k e st h e

ad a t i v ec o n tr o o f non n e ars y s t e m  ap p e aran e w r e s e ar c hd i re cti on



l  l i 

Re i n fo r c e m e n t  l e arn i n g i sac o nt ro l a l
gor i t hmw i t hs e f d e c l

i s i o n a b i l i t
y . I t h a ss m i i l ar

h u m an e a rn n ga b l i i l i t
y  t hr o u g h  e x p o r a t o n  a n d  t r a l i i l an de rr o r I . t c a nc o n s t a n t l
y m p r o v


e i

y L k e
t so w ns t r at e
g e s  t hr o u g
h  e ar n n g  s o  t h a se x c e e nt  e nv i r o n m e n t a l a d a abi 

pt t
i i l i i l l l i . i

fa c t o r
ytr a n n gn e ww o r k e r si i
, 
i ti s n e c e s s a ryt os t r e n g th e n e a rn n ga g o r l i l i t h m  b e fo r e  i t has

ex c e l l e n tc o n t r o a b l i l i t
y  ,
i t n e e d sa o n g t m ec o m p e xt r a n n gp r o c e

l i l i i s s  . A l t h o u h

i t h as

h  v e m a c to nth ec o n t r o s y s t e m  n t h e


ada
p t v ea b y t e re sa
p o s s b yo
fn e
ga 

t t


i i l i i i i l i i i l i

p r o c e s s o
f e ar n i n l
g
t ran s i t i on  . A t t h e s a m et m e w h e n t h ec o n t r o i

l l e d o b

ec t h a st m e i


v a ry n g c h ar a c t e r
i i s ti c s t h e e arn i n
g
tr an s l i t i o np r o c e s so f  t h e p u r e  r e n fo r c e m e n t  i l e arn i ng



al g o r i t hm  w i l l bri n
gro b u s tn e s sp r o b e m st ot h ea g o r l l i t hm . I no r d e rt os o l v et h ep r o b l ems

o f  d i ff c u i l t
ya n dp o o rt r an s i ti o n  o f  r e n fo r c e m e n t  l e a r
nin i
g np r o c e s sc o n t r o
i l
, th i s
p

per

p r o p o s e s a na d ap t v ec o m p e n s at o nc o n t r o a l g o r i i l i t h m  b a s e d  o n  r e n fo r c e m e n t  i l e a rn i ng 



a n dd sc u s s e s t sa c at i o n np r o c e s sc o n t r o o f n o n  n e ars y s t e m s T h em a nw o r ko f




pp
i i l i i l l i . i

t h i s
 p a p e r i s  a s  fo l l ows

F i r st l
y  fo r  t y p

i c a ln o n l i n e a rs
y ste m s , 
t h e  c o nt r o l s c h e m eo fr e i n fo r c eme nt l e a rn n


g i

al gor i t hm  i s  d e s g n e d  a n d  t h e  p e r fo r m a n c e  o f  d


i ffe r e n t  d e

t h  r e n fo r c e m e n t 
i l e arn i ng

al g o r hm s  nt h eo p t m z at o nc o n t r o o fn o n n e ars e m s ss t u d e d  T h e  e ffe c t ven e ss




ys
i t i i i i l l i t i i . i

of  t h er e n i fo r c e m e n t l e arn i n ga l


gor
i t hm  i s
p
rove d , a n dt h ee x i s ti n
gp r o b l e m s a r e b r o u g ht

fo rw ard 

Second h e  r e s e a r c h  u s e s  fe e d fo r w a r d  s t r u c t u r e  t o  r e d u c et h ed ffi c u ntens ve


yo f
t t 

y l
, 
i l  i i

l e a rn i n
ga n d t rai n n g T h r o u g hth
i . e  fe e d fo r w a r d  fe e d ba c ks tru c t ur e th ,
er e i n fo r c em e nt

e arn ng su s e da s h ee x t e rn a o m ze r o  r e t a n  t h e  fe e d b a c k  o o of h eo r g n a pro


l  t l t i i  t l t cess


p p
i i i  i i l
 

con t ro s y s t e m T h e nt h ec o nt r o r o b e m ss i mp i f e dt oo


p t i m z a t o np r o b e m a n dt h e


p
l . l l i l i i i l ,

c o nve nc es e e do fr e n fo r c e m e n t  e a rn n sa c ce e r a t e d F na y c o m p a r e dw ht h e



ge g t 

i i

l i l . i l l i

ona n fo r c e m e n t  e a rn n m e th o d h es m u a t o ne x e r m e n t 


ad sd e s
gn e
dt o
pro v e
t r t l r e i i
t i 

g p
i i l i l i i i

t h es u
per o
i r i t
yo
f  t h em e t h o d  .
M e an wh i l e c o , ns d i er i n gt h et m e i

v a r y n gc h i ara c t er i s t i c so 



on t h et r a d o n a r e n fo r c e m e n t  e a r n h mw h a v et h et r a n s


pro on
c e s sc o 


ga g o
t r l

i t i l i l i l r i t i l l i t i

e mt oa d a tt on e wo b I nv e wo ft h b em h ee x


p ro b
ec t s s ro t s t e n c e  o f  fe e d b a c k  o o
p p 


l . i i l ,
i l

i nt h e
p
r opo s e dm e t h o dw i l l  i m p r o v e h er o b u s t n e s so t ft h ec o n tr o l s
y s t e m .  T h es m u i l a t i on

ex m e n sd e s
gn
e dt ov eri f
yt h ee f e c
f v e n e s so f h et m var n go b e m e hod
pe
 e

r t t c  t

i i i i t i i t 

i 


华北 电力 大学硕 士学位 论文

T he n ,
c o n si d e r
i n g  t h e  c o m p l e x  p r o c e s s  c o nt r o l  s y s t e m  i t  i s  d i ,
i cu
f lt  t o e s t a b l i s h

a c c u r a t e  s i mu l at i o n m o d e l  fo r  t h e  t r a i n i n g  o f  r e i n fo r c e m e n t  l e ar n i n
g  a l g o r i t hm . A

r e i n fo r c e m e n t  l e a r n i n
g  a l g o r i t h m b a s e d  on n e t w o rk s up e r v i s o r y  c o n t r o l  a l g o r i t hm  i s

prop o se d .  T h e  s t r a t e gy  n e t w o r k  i sc o n s t r u c t e d  a c c o r d i n g  t o  t h e  h i s t o r i c a l  d at a  o f p r o c e s s


o p e r a t i o n b y  t h e  m e t h o d  o f n e t w o rk  s u p e r v i s o r y  c o n t r o l  a l g o r i t h m
 

, 
a nd  t h e n  o p t i m i z e d  b y

t h e  r e n fo r c e m e nt 
i l e arn i n
gm et
h o d  Th e  e ff
. e c ti v e n e s s  o f  th e m e t h o d  i s  v e r i f i e d  b y

s i m u l at i o n  ex
p e r i m e nt s .  F na
i ll
y , 
t h e  p a p e r  s umm a r i z e s  t h e  c on t e n t  o f t h e  f u l l  t e x t  a n d p u t s



fo r w a r d  t h e  p r o b l e m s  a n d  f u t u r e  r e s e a r c h
 p r o sp e c t s  o f th e  m e th o d
 

K ey w o r d s D e e p : 

l e arni n
g ; 
r e i n fo r c e m e n t  l e a r n i n
g ; 
fe e d fo r w a r d ; 
ad a
pt ive ; 
n o nl i n e ar


y s te m ; o p t i m al  c o nt r o 



i 


华北 电力 大学硕士 学位论文

目 

觀  

Abstra ct  I I

第 1
章 绪论  

1 . 1
研究背景及意义  

1 . 2 强化学 习 研 宄现状  

1 . 3 强化学 习 的应用 问 题  

1 . 4 本文 的创作动机与 结构安排  

第 2 章 强化学 习 理论基础  

2 . 1 强化学 习 理论基础  

2 . 1 . 1 强化学 习 基本概念  

2 . 1 . 2 马 尔可夫决策过程  

2 . 1 . 3 探索与 利用  

2 2 .
强化学 习 常 用 算 法  1 

2 2 Q  学 习 Q e arn ng 


. . 1 l i  1
( )

2 2 . . 2 策略梯度 (
P o l i c yG r a d i e n t )  1 

2 3 .

深度强化学 习  1 

2 3 . . 1 D QN 算法  1 

2 3 . . 2D D P G算 法  1 

第 3 章 基于 强化学 习 的 非 线性 系统 自 适 应 控制  1 

3 . 1 ■ 描述 |
 1 

3 . 2 强化学 习 算法 设计  1 

3 . 2 . 1
环境设计  1 

3 . 2 2 .
网络设计  1 

3 . 2 3 .
通用 参数设计  22

3 . 3 仿真实验  22

3 . 4 小结   24

第 4 章 基于强化学 习 的 自 适 应 补偿控制 系统  2 5

4 . 1 基于强化学 习 的 自 适应补偿控制算法  2 5

4 . 1 . 1
前馈 反馈控制 系 统

 2 

4 . 1 . 2 强化 学 习 前馈控制器  2 6

4 . 1 . 3 强化 学 习 前 馈控制 器 训 练算 法  2 8

I 


华北 电力 大学硕士学位论文

4 . 2 仿真实验  2 9

4 . 2 . 1
实验对 象  2 9

4 . 2 . 2 强化学 习 自 适应补偿控制 系 统搭建  3 0



4 . 2 . 3 纯强化学 习 控制系 统搭建  3 3



4 . 2 . 4 实验结果  3 3

4 . 3 / J

^  3 8

第 5 章 无模型强化 学 习 自 适应补偿控制 系统  3 9

5 . 1
神 经 网 络前 馈监督控制 器  3 9

5 . 2 无模型 强化 学 习 自 适应补偿控制  4 0

5 . 3 仿真实验    42

5 . 4  44

第 6 章 总结与展望  4 5

6 . 1
本文的 主要工作及贡献  45

6 . 2 问 题与 展望  46

参考 文献  4 8

攻读硕 士 学 位期 间 发 表 的 论文及 其 它 成 果  5 2

酬  5 3




华北 电 力 大 学 硕 士 学位论 文

第 1 章 绪 论

1 . 1
研究背 景及意 义

近年来 , 机器学 习 作 为人工 智 能 的 热 点 方 向 得 到 了 快速 的 发展 , 并 逐渐进入我



们的 常生活 机器 学 习 来源 于 模 式 识 别 和 人工 智 能 领 域 是 计 算 机科 学 领域 的


日 。 ,

部分 随着 各行各业 的 发展 数据量增 多 对 数据 处理 和 分析 的 效率 有 了 更 高 的



[ ]

。 , ,

要求 系 列 的机器 学 习 算 法应运而 生 神经 网 络基于 数据 驱动 的 建模方法为控






2]
, 。

制 算法 的 设计 提供 了 新 的 思路 数据 预测 技 术在工业 设 备状态监测 中 得 到 应用 [
3 ]

, 

图 像识别 技术在 动驾驶 无人机等 领域得 到 应 用 强化 学 习 在 决 策控 制 上 的 表




4]

, ,

现逐渐趋于 人类甚至 超过 人类 [
5 ]


机器学 习 的 发展 同 时 影 响 着其 他行业 的 研 究方 向 , 刘 吉臻院士在 20 1 6 年提 出



智 能 发 电 的 概念 趋优等 更高 的 要求

对运行 控 制 提 出 了 工业设备

学习 

6]
自 自

, 、 。

不 断升级 , 逐渐 步入 智 能 化方 向 。
首先 ,
现有 电厂 的 数字 化 信 息 化及 , 自 动化水平 已

经达 到 了 较高 的 水准 再次 网 络 与 计算机技术快速发展 使得 电 厂 能够支持更



7]
。 , ,

加 复杂 的 运算 。 研宄 先进 的 智 能建模 , 控制 ,
优化理论是 工 业 智 能化 的 重要 技术方


向 [ ]


强化学 习 作 为机器 学 习 的 个重要方 向 因 其 无监督 学习 趋优 的 特 点


, ,
自 ,
自 

拥 有 巨大 的 发展潜力 。
本文 旨 在 研 宄针对非线 性 系 统 ,
如 何 利 用 强化学 习 算 法 设计

控制系 统 , 研 宄 强化学 习 算法在 非 线 性 系 统控制 中 的 表现 。 并根据 实 际工 业对 象 时



变等特性 , 对 强 化 学 习 算 法进 行 改进 , 结 合 经 典 前馈 反馈 控 制 算 法 ,
提 出 了 基于 强

化 学 习 算法 的 适应补偿控制 系统 给 出 了 强化学 习 算法 种新 的应用 思路


自 , 

1 . 2 强化学 习 研究现状

机器学 习 (
M ach i n e  L e ar n n g ) i
的 目 的 是使 计算机 能够模仿 人类 的 学 习 能力 , 是人

工智 能的核心方 向 学 习 是 人类在 复 杂环境 中 赖 以 生存 的 行 为 人类通过 学 习 来





9 ]

。 ,




华北 电 力 大学 硕 士 学 位 论文

不 断 提升 自 己 机器 学 习 就 是 让 计 算 机拥 有 学 习 能力 的 技 术 [
1 G】
。 

强化学 习 Re n fo r c e m e n t  L e ar n n g  RL 方法起源 于 动 物 心 理 学 相 关 的 原 理
1 1
[ ]
i i , 


( )

类 似 人类 采 用 试 错 的 学 习 方 式 , 通过 尝 试不 同 行为对环境 带 来 正 面或 负 面 的 作 用 来

获得学 习 信 息 , 根据 反馈 的 信 息 学 习 状态 到动作 的 映射 , 以 获得 不 同 环境状态 下 最



优 的 决策 强化学 习 的机制 使得其具有 学习 趋优 的 特 点


1 2]



自 、 

强化 学 习 的 概念产 生 于 世纪 年代 在 年描述 的 种 随机


3]

20 n S ky

0 954

5 ,
i 1

“ ”

神 经模拟 强 化 计 算 器 采用 试错 学 习 的 思想 年 在马 尔
4]


了 Be
1 1

m an
[ [ ]

, 。 1 957 , l l

可 夫链 的 基础 上提 出 了 马 尔 可 夫 决 策过程 (
M arko v  D e c i s i onP ro c e s s , MD P ) , 为强化

学 习 的 研 究提供 了 重要 的 数 学模型 , 强 化 学 习 问 题其 实 就 是 马 尔 可 夫决策过程求 取



最优解 的 过程 ; 同 时 并提 出 了 著名 的 b e l l m an 方程 用 动 态 规划 来求解 最优控 制 问 题 



为 强 化 学 习 的 求解 提 供 了 数 学 工 具 。 至此 现代 强化学 习 理论 的 基本要素就 出 现 了
, 


年 S ut o n 提出 了 时 序 差 分学 习 的 概念 年 S ut o n 首 次提 出 了 多



1 983 , ,
1 988 ,

步 时序 差 分 TD 算法 , 采用 单 步预 测 方法 简 化值 函 数 的 计 算 ,
大大 降低 了 强化学 习

求解 的 难 度 年 Wa 提出的 方 法 极大 的 推动 了 强化学 习
8]


1 7] 1

。 1 98 9 ,
t ki n S [


l e am i n g

的 应 用 与 发展 , 直 到现在 ,

l e am i n g 仍然是应 用 最具有 代表性 的 形 式 。 2000 年 



为 了 解决 面对连续动 作 时 的 局 限 性 提 出 了 策略梯度
9]
Th o m a s 

e ami n g Po

Q cy

l ,

l i

Grad i e nt , P G ) 算法 ,
将 离散动 作 空 间 转换为连续 的 策 略模 型 。 至此 , 经 典 的 强化学

习 理论知 识基本完善 

传 统 的 基于 马 尔 可夫决策过程 的 强化学 习 拥 有强大 的 自 主决策能力 ,


但对环境

的特征提取 能力 有 限 导 致算法面对 高维 数据 时运算过 于 复杂 所以 就有人提





2 G]
。 , ,

出 利 用 深度 学 习 方法 来 处 理 高 维 数 据 ,
从此 , 深度 强化 学 习 的 概念 就 出 现 了 。 强化

学 习 利 用 深 度 学 习 的 感 知 能 力 改进 自 身策略 , 实现从 原始 环 境 到被控对 象 的 直接控



制 深度 学 习 在 非 结 构 化 数据 上 具 有优 秀 的 表 现 使计算模型 能够从多 个层次 的




2 |


。 ,

数据 中 逐步 学 习 特征 在基于 马 尔 可夫假设 的 传 统强化学 习 中 深度学 习 带来的





22 ]
。 ,

派生方法可 以 帮 助 强化学 习 大大减少 问 题 的 深度 [


23 ]


最早 的 深度强化学 习 是 于 年提 出 的深度 网络
24
D e epM i nd 团队 [ 1
20 1 3 Q (
D e ep Q

 

采用 卷积网 络代替 的表格法 又提 出 了


2 5
Ne t w o rk , D Q N ) ,

l e am i n g ,
20 1 5 年 [ ]

, 




华北 电力 大学硕 士学位论文

D QN 算法 的 改进 在 初始 D QN 的 基础 上 添 加 了 个 标网络 Ta r g e t N e t w o r k ) 


, 目 ( ,

过 目 标 网 络 与 原 本 的 卷积 网 络配合 , 大 大提升 了 算 法 的 稳定 性 。
实 现 对 复 杂 环 境状

态的感知 与 决策 , 使得 D QN 算法在 复 杂 工 作 中 达 到 人类 水平 的 能 力 。 之后 , 针对

这 算法 出 现了 很多进 步 的 改进算法 如 算法 解决值 函 数




2 6]
D QN D oub D QN
一 一


, ,
l e

过优化 的 问 题 算法 入优 势 这 概念来丰 富 值 函 数 的
27]
D ue D QN 引 A d v an 

ng

ta
, li
( ge)

估 计加 快 了 算法 的 收敛速度 。 然而 ,
D QN 的 改进 算 法并 不 能解 决 D QN 存在 的根本

缺陷 , 那就是 D QN 算 法动 作 空 间 的 离 散性 ,
无 法解 决连续 动 作 的 问 题 。 20 1 6 年 

提出 深度 确 定 性 策 略梯 度算 法 D e ep  D e
2 8]
L 了 m i ni s t i c  P o l i cy Gr ad i ent

il li cra ter
p  (


D DP G) 采 用 深度神经 网 络作 为策 略 网 络 , 直接 完 成状态到 动作 的 映射来代 替 D QN



状态到 价值 的 映射 , 解决 了 连续动作场 景 的 控制 问 题 

目 前 , 深度强化 学 习 活跃在视频游戏 、 机器人 、 自 动 驾 驶等领域 , 不 断有 先进



的 算法被 研 宄 出 来 。 20 1 6 年 , A l
ph a  Go 战 胜 围 棋世 界冠军 李世石 ,
轰动世界 。
随后

改进 的 A p h aG o M as 战胜 当 今 围棋第 人柯 洁 再之后 改进 的 A ph a G o Z er o 


l ter 。 ,

后 击 败 了A 和 强化 学 习 在 围 棋 领 域 占 据 了 统 治 地 位
2 9]

ph aG o A l
p ha G o  M a s t e r

, 

Z hu _ 等 人 采 用 示 范 增 强 策 略 梯 度 算 法 (
D e m o n s t r at i o nA u gm ent e d  P o l i cy

Grad DA P G 实现机器人手 的 多 指复杂 行为控 制 任务 等人 提 出 树状结 构






e nt ,
[ ]
i 。 Jie

强化学 习 有 效 识 别 视频 中 的 多 个对 象 采用 多 智 能体强化学 习
32
S am ah  E T a n t aw y 

- [ ]
。 l

方法 (
MAR L ) ,
实 现 多 个 相 邻 路 口 交 通信 号 灯 的 协调 控 制 缓解 高 峰 时 段 交 叉 路 口 的

 ,

拥 堵程度 等人 同 样利 用 多 智 能体 强化 学 习 方法研 究 无人 驾 驶
3 3
SS h a l e v S h w ar
tz

[ 1
。 

实现超车 , 让步 ,
会车 , 左 右转弯 等复杂 的 交 互技巧 

强化 学 习 在 某 些 领域 已 经 表现 出 超越 人 类 的 学 习 能 力 ,
但 目 前 的人工 智 能技术

与 人类智 能甚至动 物 智 能都仍存在着很 大 的 鸿沟 ,


强化学 习 仍有 很大 的 发展潜力 

1 . 3 强化学 习 的应 用 问题

不 同 于 经 典 的 神 经 网 络要 与 其 他控制 算 法配合进 行 设 计 控制 系 统 ,
深度强化学

习 自 身 就具有独立 的 决策控制 能力 能够 主完成学 习 与 控制 过程 训 练好 的 强




3 4]

, 。

化 学 习 算法在 解 决控制 问 题 时 具 有 优 秀 的 能 力 但训 练 的初期阶段产生 的 都是 







华 北 电 力 大学硕 士 学 位 论文

不合理 的 动作 深度强化学 习 算法 的 应 用 仍有 问 题 需要 解决

3 5]
, 

首 先 是 收敛 的 问 题 强化 学 习 被诟病 的 个主 要 问 题 就 是 收敛 慢 同 时存在着


, ,

无 效 或 者 危 险探 索 ; 现在 深度 强化 学 习 比 较 诟 病 的 事 情 是 需要 经 历 远 比 人类 高若干

数量 级 的 经验 才行P 深度 强化 学 习 拥 有 优秀 的 环境感 知 能 力 和 动 作 决


6]

e xp e r
i enc e 。

策能力 , 但 是深度强 化 学 习 的 智 能体 (
A gen t
) 的 逻辑推 理性很弱 % 比如在控制倒 立

摆平衡 的 时候 , 智 能 体 并 不 能很快理解摆 在 左 边 ,
就左移小车 , 摆在右 边就右移 小

车 。 通过长 时 间 的 试错训 练 , 智 能体会学 习 到正 确 的控制规律 ,


但 这是通过遍历 环

境数据得 到 的 而 不 是 根据 环 境 规 律 推 理 的 这就 导 致 了 智 能体学 习 过程有很 多





3 8]
, 。

是无 效 的 

另 可 能存在 的 情 况 是 智 能体在 学 习 过程 中 有可 能探索 出 些意 外 的 策略


一 一

, , 

这些策 略 可能是很好 的 以 种 意 外 的 更加 灵活 的 方式解 决 问 题 但也可 能是危险




, ,

的 违背设计 初衷 的 行 为 如 动 驾 驶 中 的 危 险操作
3 9]

, 


强化 学 习 应用 的 另 个 问 题 是 探索 学 习 的 过 程 中 对环 境存在 损 坏 包括越界


4 1 )

, 

震荡等 ?

, 强化学 习 控制 的 输 出 有上 下 限 ,
但上 下 限 并 不 能保证模型 的 稳 定 , 尤其是

复杂 的控制 环境下 强化学 习 会输 出 些很糟糕 的控制 动 作 在 模拟环 境 中 无非就




, ,

是 比较浪 费训 练时 间 但 是 在 实 际 机械 应 用 场 景 中 不可 能 允 许把 个 实体 的 机器


, ,

人摔 那 么 多 次 前 的 很 多 研 宄都是基于 仿 真模 型 利 用 仿 真模 型 训 练 智 能体
4 1

42 1

[ [
。 , 

但是在 工 业控制 中 ,
模 型 越 界代表着工业事 故 ,
甚至可 能 引 起跳机等严重 问 题 ,


来 巨 大 的 经济损 失 。 因此 ,
在 无模 型 的 情 况 下 , 强化 学 习 试错 的 成本很 高 , 不 能直

接用 于控制 [
43 ]


针对收敛慢 的 问 题 ,
提 高采样 效 率 (
s am
p l e e ic
f i ency) 是很有效 的策略 ,
其主流

方法就 是 经 验 回 放 离 线策 略 算法
44

ex i e n c e  r ep a y )  +
p er l

o f -

p o〗 i c
y  al g o r
i t hm ) [ ]

。 在深

度强化学 习 中 , 经验池 的 加入让采样 效率 己经得 到 了 提高 ,


并且证 明 是有效 的 [
4 5 ]



在经验 回 放 的基础上 还 有 资 格迹等经验池优 化 方法 1


4 6]
, 

强化 学 习 的 本质 仍 是 优化 问 题 所 以 就像优化 问 题 受 标函数的影响 样
4 7 ]


, 

强化学 习 的 学 习 过程受到奖励 函 数 的 影响 。 通过设计 非稀疏奖励 函 数 ,


非稀 疏 奖励

函 数设计 成越接近 目 标 ,
得 到 的 即 时 奖励越 大 , 这样通过奖励 累 加 最大化原 则 , 





华北 电 力 大 学 硕 士 学 位论 文

化学 习 智 能体 能够 很 快 的 找 到 收敛 到 标的策略 但 非 稀 疏奖励 函 数 的 设计 没有



4 8]

目 ;

固 定 的 标准 , 而且 非稀疏奖励 函 数设 计难度 大 ,
设计 的 不 恰 当 的 话会影 响 强化学 习

的 稳 定 性 或 陷 入奖励 循环 。
并且 非稀 疏奖励 学 习 得 到 的 策 略分布 受 数值影 响 很大 

细 小 的 环 境 变 化 就 可 能 导 致策 略 的 偏 差 容 易 理解 人类学 习 过程 中 如果 直得


。 , ,

不 到 学 习 的 奖励 学 习 的 效率就会 下 降 而如 果每学 习 段时间 就 能得到 定的




一 一

, , ,

激励 , 那 么 就更 容 易 接近学 习 目 标 。 强化学 习 也类似 , 设计 形 式化奖励 , 即 越接 近



奖励 目 标 系 统给 予 的 奖励 就越 多 利 用 这种 方 式 能 够 加 快 收敛 但 会影 响 稳 定 性
, 。 , 

如何将 强化 学 习 的 优化 标调 整成人类 标 仍 然 是 个难题


49 ]
目 目



个解 决 问 题 的 方 向 是添 加 先验 知 识 通过先验知 识解决 领域 的 复杂 性 


一 5 G
[ ]
, ,

强化 学 习 提供行 为 指 导 如 果我们 给强化 学 习 个指 导 者 指 导 强化学 习 的 学 习





1 一
[ ]

方向 , 那 么 就 能让 强化学 习 无 需让模 型 超界才 认识 到控制 错 误 。 强化 学 习 智 能体可



以在 指 导 学 习 的 过程 中 得 到 指 导 者 的 反馈支持 采用 策 略搜 索 强化学 习 和 交互 式



52 ]

机器 学 习 的 混合 策 略 , 从环节 , 奖惩 函 数和 专 家 纠 正 反馈 中 受益 , 以加速学 习 过程

强化 学 习 算 法具有很 大 的 潜力 但 它 的 广泛应 用 仍有很 长 段路要走



53] 一

。 , 

1 . 4 本 文 的创 作动机与结构 安排

强 化 学 习 算法拥 有 的 无模 型 特 点 带来 的 通用 性 与 自 趋优 ,
自 学 习 的 能力 ,
非常

适合进 行 非 线 性 系 统优 化控 制 的 研 宄 。
本文研 宄 强化学 习 算法 的 应用 问 题 , 将经典

过程控 制 算法及 智 能控 制 算 法 与 强 化 学 习 相 结 合 ,
设计 相 应 的 解 决方 案 ,
为强化学

习 算法 的 应用 提供 了 个新 的 思路 实现无模 型 的 非线 性 系 统 适应控制

, 自 

文 章 的 结构安排如 下 

第 章 绪论 介 绍 机器 学 习 以 及 强化 学 习 的 研 宄 背 景 意义 介绍 分析 了 强


, 。 、 ;

化学 习 理 论 的 发展及 研 宄现 状 , 并 简述 了 其在 各个领域 的 应用 ; 分析 了 强化学 习 算



法的 应用 问 题及 些解决方 向 最后 简述文章 的结构安排


; 

第二章 , 强化学 习 理论基础 。


介 绍 并 解释 了 强化 学 习 算 法 的 基础 概念 、 基本 结

构 ; 介 绍 了 强化学 习 所用 的 马 尔 可 夫 决策 过程 , 引 出 强化学 习 的算法原理 ; 介绍两



类强化学 习 常用 算法 ,
Q 学 习 与 策 略梯度 , 并对其进行 公式推导 ; 最后 , 在 强化学


华 北 电 力 大 学硕 士 学 位 论 文

习 算法 的 基础 上 , 详 述 引 入 了 深度 学 习 的深 度强化学 习 算 法 , 并 从离散与 连续 两个

方 向 分 析 介 绍 了 两 种 深 度 强 化 学 习 算 法 D QN 与 DDP G ,
分析 各 自 特 点 与 适 用 领 域 

第三章 ,
强化学 习 非线 性 自 适应控制 。 针对非线性 系 统研 宄 强化学 习 算法应用 

在 S i m u l i nk 仿 真 平 台 搭建 钟 摆 系 统 作 为 非 线 性 研 究 对 象 ; 分 析 被 控对 象 ,
分 别 设计

两种 典 型 深度 强化学 习 算法 ; 通过仿真实验分析强化学 习 算法 的控制 特性 



第四章 , 基于强化学 习 的 自 适应 补 偿控 制 系 统 针对 强化 学 习 算 法训 练难度 高


。 

收 敛 速度 慢 同 时 鲁 棒 性 较 差 的 问 题 , 参 考 经 典 控 制 算 法 中 的 前 馈 反馈 控 制 框 架 , 

功 设计 了 基于 强化学 习 的 自 适应补偿控制 算法 ; 利 用 线 性 控制 器 降低 改变 强化 学 习

训 练的环境 , 从而提 高强化学 习 的 收敛速度与 稳定 性 , 同 时 利 用 反馈调 节 提 高 系 统



鲁棒性 ; 设 计 仿 真 实 验 与 原 始 的 强 化 学 习 算 法在 性 能 上 进 行 对 比 分 析 ,
得 出 实验结

论 

第 五 章 无模型 强化 学 习
, 自 适应补偿控制 。 针对无法建立对 象仿 真模型 的 情景 

结合神 经 网 络监督 学 习 与 强化学 习 前馈算法 设计 了 种 无模 型 强化 学 习 监 督 自 




应补偿控制 系 统 ; 在 网 络监督控制 算法 的 基础上 , 结合强化学 习 自 适应补偿控制 结



构 需 求对其进 行 改进 , 通过 改进 的 监 督控 制 算法代 替 强 化 学 习 的 探索 过程 ; 最后 设

计仿真实验 , 对该 方法 的 收敛性 与 有 效 性 进 行验证 



第六 章 总 结 与 展 望 针对本文研 宄 的 课题进 行 了 总 结 概述 了 本文 主要 工 作
, 。 , 

论述 了 本文所述方法 的 优 点 ; 同时 ,
指 出 本文 所述方法仍存 的 不 足之 处 ,
并对未来

的 研 宄方 向 进 行 了 展望 




华 北 电力 大学硕 士学位论文

第 2 章 强化 学 习 理论基础

本 章 首 先 简 要 论述 了 强 化 学 习 方 法 的 基础 理 论 ,
介 绍 了 马 尔 科夫 决 策过程 以 及

相 关 的 概念 , 强化 学 习 框架 的 建模 过程 , 智 能体 的 训 练过程及 常 用 的 算法 。
其次介

绍 并 分析 了 深 度 学 习 与 强 化学 习 结 合 的深度 强 化 学 习 , 以 及深度 强化学 习 常用 算法



的 搭建 与 训 练过程 ,
分析 算法特 点 , 为算法 的 设计 与 应 用 打 下 理论基础 

2 . 1 强化学 习 理论基础

2 . 1 . 1
强 化 学 习 基 本概 念

机器学 习 是 门 涵盖数学 心理学 计算机科学 自 动 化技术等 多 领域 的 交叉




、 、 、

学科 是 种 经验驱动 的 主 学 习 的 原 则 性数 学框架 其核 心 是运用 算法来解析






5 5 ]


自 。

数据信 息 通过不 断地学 习 寻找规矩积 累 经验 并对今后 的 发展做 出 决 策或预判 [


5 6]
, , 

强 化 学 习 作 为机器 学 习 的 个重要方 向 与监督学习 无监 督 学 习 共 同 组成机器 学




, ,

习 三种学 习 方式 。
机器 学 习 的 核 心 就 是建立 从输入数据 到输 出 数据 的 映射 ,
如果 己

知 正 确 的 输 出 数据 来 进 行 网 络 训 练 就 是 监 督 学 习 而强化学 习 不 同 于监督学 习 [
5 7]
, 

其仅 知 环 境状态信 息 ,
利 用 环境状态 的变化 , 通过迭代 的 方式逼近 正确 的 动 作 ,


成环境 到动作 的 映射 实现强化学 习 算法 的 主 要元素为 智 能体 ,



A g e nt )
、 状态 (
S t at e



奖励 (
R e w ar d )
、 环境 (
E nv i r o nm e n t



智 能体指 的 是 能够获 取环境信 息 ,


自 主采取动作影 响环境 ,
并 根据 环 境 的 反馈

来完善 身 的系统 其核 心特 点 是对 未 知 环境 的 学 习 能力 8]
智 能体 的 形 式主 要


自 自


表现为策略 Pol 和值函数 Va u e  F un c t o n ) 中的 个或全部





y) (
l i 

策略是决定 智 能体输 出 动作 的 机制 , 它 完整定 义 了 智 能体在 不 同 环境状态 S 



输 出 的 各种 可 能 动 作 及 概率 ,
其表达式如 下 

= =
a \




)  (
2 -




根据输 出 动 作 的 概率 选 择 不 同 , 策略分 为确 定 性策 略和 随机性策略 。 确 定性策







华北 电力 大学硕士学位论文

略 根据 状态直接输 出 确 定 的 动 作 即 概率 为 1 ,
而 随 机 性策 略会根据 状态输 出 每个可

能动 作 的 概率 输出 个概率分布

, 

值 函 数是智 能体用 来评 价状态 或动 作 的 好坏程度 , 其 根据 环 境 的 反馈奖 励 来进



行更新 。 值 函 数通常分为两种 , 分别 是状态价值 函 数与 状态动 作 价值 函 数 。


状态 价

值 函 数用 来表示 , 其可 以评价环境状态 S
的好坏 , 反 映 当 前 状态距离任 务 目 

的 距离 , 距 离完成任务越接近 , 其值越大 。 状 态 动 作 价值 函 数 用 来表 示 , 

示在 状态 s 下 采取动 作 《 的价值 , 是 智 能体选 择输 出 动 作 的 重要 参考 



强化学 习 的 原 理如 图 2 -


所示 不 同 于监督学 习 技术直接告 知 正 确 的 输 出
, 目 标 

强化学 习 通过干涉环境 ,
并 根 据 环 境 反 馈 来 逐 渐逼 近 正 确 的 输 出 动 作 , 实现 自 学习

的过程 。
智 能体采样环境状态 t 根据 自 身 策略计算输 出 动作 《 ,
动作 《 影响 环境产

生下 一

状态 V ,
同 时 根据 环境状态情 况然后 新 的 状态再送入 智 能 体进 行计 算 。
根据

反馈奖励 信 息 更新 智 能 体 的 值 函 数 , 进而 更新 智 能体 的 策略 , 如 此循 环 下 去 , 智能

体与 环境不 断交互 , 经 过 有 限 次数 的 迭 代 学 习 之后 , 智 能体 能够学 到完成 目 标的最



优控制 策略 , 这种 自 学 习 的 方式使得强化学 习 拥有优秀 的 自 趋优 能力 



动作

  

(  ^
奖 励 广 ^

v  
) v   





状态


V 


图 2 1
强化学 习 原理 图




华北 电力大学硕士 学位论文

2 . 1 . 2 马 尔可夫决策过程

马 尔 可 夫 决 策 过程 (
MDP ) 是 强 化 学 习 建 模 的 基础 。 其过程 即 为智 能体与 环境 的

交 互过程 智 能体接 收 当 前环 境状 态 , I 根据 自 身 当 前 策 略采 取动 作 《 与环境交互 



环境在 《
的 影 响 下 转移 到 下 状态 V 智 能 体根据 下 环境状态 f 采取下 动作


一 一 一

, ,

如 此循环 下 去 就是 马 尔 可 夫 决策过程

? , 

马 尔 可 夫 决 策过程 由 四 元 组 (
S A
, , P , R ) 构成 ,
S 为 智 能 体 所在 环 境 状 态 集 合 

A 为 智 能 体 有 可 能 选 择 的 行 为 集合 , 为系 统在状态 s 时 ,
智 能体选择行 为

a 使环境状态转移 到 ^ 的 概率 ,
々 (& ? , < ) 为系 统在 状态 s 时 , 智 能体选择行 为 《 使环

境 状态转 移 到 V 的 奖励 值 

马 尔 科 夫 决 策 过 程 根据 动 作 价 值 函 数 决 定 动 作 策 略 , 定义 为状态 s 

采取策 略 ^ 选择动 作 所 能得 到 的 奖励 的 期望 可 以 通过 贝 尔 曼 方程来表达




a ;

Q 〇 ) ^P  


 a )+y (
s a s s \  7t { s ))
 , , 
( 


2 2 _







" ^ "


^ R + yP Q
  (
2 -




为状态 下 选 择 行为 a 的 瞬 时 奖励 值
s ,
Y 为折扣 因 子 ,
P 为状态转 移概

率 。
折扣 因 子取 0

1 之间 , 其 值越大 ,
表示未来 回 报 值所 占 比 重越 大 , 通常稀疏奖

励 的 强 化 学 习 算 法会 设 立 较大 的 折 扣 因 子 

对于任何 MDP 问 题 总存在 个确 定 性 的 最 优 策 略 强化 学 习 的 最 终 标就




, ; 目

是找 到 这个最优策 略 ,
使得采 取这条策 略 能够 获得 的 累 积 奖励 期 望 最 多 。 

tt*
 (
a卜 ) =
ar

ae

ma x

Q〇 a

 , 

 (

2 4



J


_

2 . 1 . 3 探索 与利 用

强化学 习 是 种 试错形 式 的 寻优算法 只 有 在 环境 中 尝试过 的 策 略 强化学 习




, ,

才 能正 确评估策略 的好坏 但 次 错 误 的 尝 试 很 有 可 能 为环 境 带 来 负 面 的 影 响 


, ,

此 , 是 否 允许智 能 体进 行试错 , 或 者 允 许 多 少 程度 的 试错 , 是 需要权衡 的 问 题 



“ ” “ 

强化学 习 针对试错 问 题 , 提 出 了 探 索 (
Exp l o r at o n )i
与 利用 (
Ex p o l i t at i o n)




华北 电力 大学硕士 学位论文

的 概念 , 探索 是指 智 能体在 某个状态下 采取 当 前策 略之外 的 新 的 行为 , 用 来挖掘 更



多 的环境信 息 利 用 是 指 智 能 体 完全 按 照 当 前 策 略采 取行 为 每 步都获得 当 前最


。 ,

大 化 的 奖励 

打 个形 象 的 比方 去 餐厅 点 菜 探索就是点 个 以 前没有 吃过 的 菜 这个菜




一 一

, , ,

可 能很符合你 的 胃 口 也有可 能你完全无法 下 咽 利用 就是点 个你 以 前 吃 过 的 认





为 最好 吃 的 菜 这样 能够稳 定 的 吃 到 喜 欢 的 菜 但 可 能 永 远 点 不 到 餐 厅 最好 吃 的 菜
, , 

探索 与 利 用 是对 立 的 , 其对强化学 习 又都非 常 重要 。
在进行强化学 习 的 训 练时 ,


根据 情 况进 行 权衡 

探索 与 利 用 的 策 略主要有 两种 , 策略与 高斯策略 。 其表达 式如 下 所示 




a <r ar
g m ax a  Q s a

 


( 

F o r allaeA ( s )


W 策略

卜 2 -



( 

w +  &⑷

 



, / A (


i fa ^ a
i | |

对 于 局 部 最优 的 动 作 a

, 其被 选择 的 概率 最 大 , 其 余 的 动 作 概 率 都为 甽 a |
。 

种策 略用 于 基 于 值 函 数 的 离散动作 空 间 强化学 习 算法 ,
即 Q

l e am i n
g 系 列 的 强化学

习 算法 

高斯策 略 :

2 -




通过添加 高斯分布 的 随机噪 声 来增 加 动 作 的 多 样 性进 行探索 , 多 用 于基于策略



梯度 的连续动 作 空 间 强化学 习 算法 

2 2

强化学 习 常 用 算法

2 2
. . 1
Q 学 习 Q (

l e ami n
g)

学习是 种经典 的基于值 函 数 的强化 学 习 算法 其算法 的 核 心 目 标是得到 正




Q 。

确 的状态动 作价值 , 从而 通过 状态 动 作 价值 决 定动 作 策 略 

Q 学 习 利 用 表 格 的 形 式存储动 作 价值 智 能体通过查表 的方 法获得 Q 值 



其通过迭代 的 方 式逼 近正 确 的 动 作 价 值 , 直至 Q 值收敛结束 , 迭代公 式如 下 



1 


华 北 电 力 大 学硕 士 学 位论文

a ) + a [ R + y m ax d

Q s a )< Q Q s a) Q s a)]
- -

s \
{ ,  ( ,

 
 
( ) { , ( ,


2 -

7)

式中 为 状 态 s 下 选择 行 为 《 的 状态 行为价值 为状态 s 下选择行为 a 后




, s

的 环境状态 , a 为学 习 率 , 为状态 下选择行为 a 的 即 时奖励值 ,


Y 为折扣 因子 

当 迭代达 到 定 次数 获得准 确 的 状态 动 作 价值 表格 后 我 们 就 可 以 根据 式

, , 2 -

5 


中 的策 略 , 选择最佳 的 控 制 动 作 

其 算 法 过程 如 下 



) 初始化 Q 表格 , 所有 Q 值初始为 


2) 重复 以下步骤 

初始化状态 s 


重 复 以 下步骤 

根据 当 前 状 态 s 选 择 动 作 

执行动作 得 到 奖励 下 状态 , 和 终止符 


山 〃 、

通过式 (

) 更新 Q 表格




S= s

直至 终止状态

直至 表 的 更新幅度 小于 个很小 的 值

Q /
/ 

其 中 终止符 d 信 号代表是 否 达 到 终止 状态 ,
若 当 前 状 态 为终止状态 ,
则 卢 1 

否则 卢0 。 终止 状态 的 含义为环 境 允 许 的 边界 状态 。
Q L e a rn

i ng 算法 虽然有 良 好 的

稳定性和 收敛性 ,
但 受 到 动 作 空 间 和 状态空 间 的 大小 限 制 ,
若状态和 动 作 空 间 维度

过大 ,
会 导 致表格 陷 入 维度 灾 难 

2 2 2
. .
策略梯度 (
Po l i c
yG ra d ent )


策略梯度 (
PG) 算 法 是基 于 概率 分 布 的 算法 , 智 能体 的 策 略直 接输 出 各 种 动 作 的

概率 即 =
其 算法 思 想 为根据 某 状态 下 某 动 作 得 到 的 奖励 值 大


一 一





)
 。

小 , 来增 加 或 降低该动 作被选择 的 概率 , 即 通过不 断迭代 ,


增加好动作被选择 的 概

率 ,
降 低坏动 作 被选 择 的 概率 

1 


华北 电力大学硕士学位论文

主要迭代 公 式如 下 

6  <

0 + o V
  c


 (
7t
q ^   (
2 -




其中

^ Zf 
 )
]  (
2 9)


式中 0 为智 能体策 略模型 参数 , ( X 为学 习 率 ,
▽, ( 巧 ) 为梯 度 ,
T V 为轨迹样 本数 

T 为 单个轨迹长度 ,
i? 为 即 时 奖励 

其 算法过程如 下 

构造 个 策 略模 型 并 随机初 始 化模 型 参 数


1 




) 重复 以 下步骤 

初始化状态 * y

 

重复 以 下 步骤 

根据 当 前 状态 s 选择动 作 

执行动作 得 到 奖励 下 状态 V 和 终止 符 A 并存入 当 前轨


A 〃 、

迹& 中

直 至 终 止 状 态 心w

当 轨迹样 本 数 大 于 定 数 量 科训 练开始




抽取 i V 个轨迹样 本 , 通过式 (
7) 计算梯度 

v〇j
 k )

^ zr zL
v >^

 (
a - 1  ^ )

( ^ )


更新e 
 —
 ,
■ /
( % 

直至达 到 指 定 重 复次数 

不 同 于 基 于 值 的 方 法输 出 动 作 的 价值 ,
PG 算 法智 能体输 出 动 作 的 概率 分布 

求取数学期 望 来获得连续 的 动作 空 间 。
采用 策略梯度 能够输 出 连续动 作 , 控制稳定

性相 比 更好 但 收敛性 般

Q e am ng

] i , 

1 


华北 电力大学硕士学位论文

2 3 .
深度强化学 习

强化学 习 拥 有优秀 的动 作 价值评估 能力 , 进而拥 有 强大 的 决 策 能 力 。 然而强化



学 习 对环境 的 感知 能力 存在不 足 ,
复杂 的 环境 导 致强化学 习 的 分 析变得 困 难 。 深度

学习 拥有强大 的 感知 能力 , 能够从环境 中 提取特征 ,


降低输入维度 。 将 深度 学 习 的

感知 能 力 与 强化学 习 的 决策 能力 相 结合 即 为深度 强化学 习 ,


两种 方法在 很 大程度 上

是正交 的 问 题 ,
强化 学 习 提供训 练 的 目 标 , 而深度学 习 提供 了 解决 问 题 的方法 。


此 , 通 过 深度 强化 学 习 可 以 实现基 于 环境 的 直接控 制 。 D QN 和 DDPG 是两种常见



的深度 强化学 习 算法 ,
分别 对 应 基 于 值 的 和 基 于 策略梯度 的 深度 强化 学 习 方 法 

2 3 . _ 1  D QN  算 法

D QN D e ep Q N e 是 种将深度神经 网 络与 L e ar 相 结合的 算法

w o rk) n ng

( 
t ,
Q 
i 

D QN 利 用 深度 神 经 网 络代替 Q L e arn n g 中 的 Q 表格 解 决 了Q L e ar


n ng 在面对


- —




复杂环 境时 的 维度 灾 难 问 题 。
利 用 深度神 经 网 络其 强大 的 拟 合 能力 逼近状态动 作 价

值函数 , 通过 深度 神 经 网 络 能够 直接将 原 始环境作 为输入 , 进而 直接输 出 动 作 价 值



Q 。
其 算 法框 图 如 图 2 -

2 所示 

D QN 损失函数


^  ^  7 \ |

误 差 函 数 的 梯  n
, ,

Q (s a)  n a x ^ s 
a v

^
, r i


a)




,  a ( ,

_ _


丄 . 每隔N时 ,  . .


环培  孟计 值 尚 间 步 拷 目 标值 网


 f

% 参 数  络 
 、




( s , a) 

( s a , r , 5

2^

 

^  经 验 池 _ 

_

图 2 2D Q N 算 法框 图

D QN 算法包含两 个初始参数 致 的神经 网 络 其名 称与 功 能定位如 下


, 

U古 值 网 络 :
负 责根据 当 前状态 s 计算动作 空 间 中 所有动作 的价值 Q (
s ,
a ) ,



1 


华北 电力 大学硕士学位论文

据 策 略输 出 动 作 用 于 和 环境 交互生成下 采样 时 刻 状态 以 及 即 时 奖励

, s ,
r 

标网络 负 责 计算 标 值中 的 g 部分 取 计 算 结 果 的 最大值 作 为 下


2 .
目 : 目 Q (
s ,
a) ,

采样 时刻状态价值 V 网 络参 数 定 期 从 估 值 网 络 复制


( 〇 ;


估值 网 络将 环境 状态变量 s 作 为 网 络输入 , 计算得到 动 作 空 间 中 全部动 作 的 动



作价值 ? ,
巧 , 采用 策略 以 (

的 概率 选择价 值 20 , 

f ,
巧 最高 的 行为 

将 当 前 状态 与 反馈信 息 组 构 成 组数据 存 入 经 验 池 将 旧 的 数据 剔 除 保 持


经验池总 量 不 变 ,
从经 验 池 中 随机抽 取 部 分 数据 进 行 估 计 值 网 络 的 训 练 

网 络训 练 的 目 标值 由 目 标 网 络结合 即 时 奖励值 r 给出 ,
其计算公式如 下 

S ar

e/  + (
2 -

1 0


其算 法流程如 下 



) 初始 化经验池 D , 初始化估计 网 络参 数 < 9 , 初始化 目 标 网 络参数 化 =



2) 重复 以 下步骤 

初始化状态 s 

七 

重复 以下步骤 

根 据 当 前 状态 s 选 择 动 作 

执行动作 得到奖励 下 状态 , 和 终止符 必




a , r 、

记录样本 至 经 验池 若 容量 不 足则 从头 覆盖记录


s ,
a ,
r ,
s ,
<=

〇 D ,


当 经验池样本 数大 于 定 数量 尺 训 练开 始




( )

从 经 验 池 随 机 采样 m i n i b at c h 样本 5 个 分别 输入两个 网 络



计算 & 沒 d >

va 

) 、 0

厂  + X 1

 m ax 0 (
5 ,
沒 )
g e, f
l 
/ , a r 
 ( ) 

通过最小 化损 失 函 数 -

0叫 £,

来更新估

计 网 络参 数 I

每隔 c 步更新 R  — 没 

直至终止状态 L / 

直 至达 到 指 定 重 复 次数 

1 


华北 电 力 大学硕 士学 位论 文

D QN 相比 Q

l e am in
g 主 要 改进 以 下 三 点 

1 、 使用 深度 神经 网 络 , 直 接 从 环 境 映射 到 动 作 价 值 Q 

2 、 采用 经验池训 练 , 充 分利 用 历 史数据 

3 、 增加 目 标 网 络形成双 网 络结构 , 提 髙 稳 定 性 与 收敛 性 

D QN 这种 拥 有 经验 回 放 能力 的 算法 叫 做离 线策 略算法 , 重 复使用 过去 经验不



能用 于 所有 的 强化 学 习 算法 , 但在 Q L e am

i ng 类 的 算法上很有 效 。 D QN 算 法解决

了 传 统 强化学 习 的 维度 灾难 问 题 ,
但 D QN 是基于 Q L e am

i ng 算法 结 构 的 , 因此需

要计算每

个状态 下 每

个动 作 的 动 作 价 值 , 导 致输 出 动 作 必 须 进 行 离 散 化 , 使得

D QN 的 控 制 精 度 下 降 , 所以 D QN 不适合独立解决连续动作 空 间 的 控制 问 题 

2 3 2  DD P G 
. .
算法

虽然基于 值 的 算 法结 构清 晰 , 便 于 理解 ,
收敛 性 和 稳 定 性 较 高 ,
但很多 问 题 需

要连续 的 动作 空 间 来控制 。 D D P G D e epD e (


te r m i ni s ti c  P o l i c y  G r a d i e nt ) 算法是 结 合基

于值 的 与 基于策略梯度 的 方法 ,
并参考 D QN 的 训 练方 式所提 出 的方法 。 DDP G 

算法 吸 收 了  D QN 的 双 网 络 结 构 , 并扩 展成两种 网 络 ,
动作 网 络 (
Ac t or Ne t w o rk ) 与评

价网络 i c N e tw o rk )
Cr t 因 此 DDP G 共 拥 有 四 个深 度 神 经 网 络 其名 称与功 能定


i  。 ,

位如 下 

1 .  Ac t or 当前网络 :
作为 DDP G 算法策略 的 实现 网 络 , 又名 策略 网络 ,
负 责根

据 当 前状态 s 输 出 控制 动 作 a 

Act 标网络 通过经验池 中 下 时亥 状态 ,预测 下 个输 出 动 作 辅助




or 目
一 一

2 . :
U a ,

策略网络 的更新 ; 网 络 参数定 期从策略 网 络复制 



3 .  Cr
it i c 当前网络 :
负 责 评 估 策 略 网 络输 出 动 作 的 价 值 ,
根据 当 前状态 s 计 算策

略 网 络输 出 的动作 a 的 价值 

标网络 通过经验池 中 下 时 刻状态 ,与 下 动作 计算




4 C r


i ti c 目 : a

辅助 Cr i t i c 当 前 网 络的更新 ; 网 络参数定期从 Cr i ti c 当 前 网 络复制 



1 


华北 电力 大学硕士学位论文

DDPG 的算法结构 如 下 

A c t or 网 络 损 失 函 数 Cr i t i c 网络损失函数

 梯 度

梯 度 Q (
s ,
a) m ax a
( ^  .
aj  ?


^ 2


X c t o r^ r  Act or

 
(! r i  t i c 湓前

j 
Cr l t  j  c  _  


 网 络  络 厂 网
| 1

口

 


网 络 1 1
^ 






a

 (
S ’

)  (

 ’

S W )
经 验 池


( ,

图 3D D P G 算 法框 图


_

A ct
or 当 前 网 络将环 境状态变量 s 作 为 网 络输入 , 直接输 出 控制 动 作 a ,
将下


采样 时刻 状态变量 输入 Act 标网络 得到下 采样 时 刻 最优动 作 将得到




or 目

s ,
a ,

的信息 存入经验池 将 旧 的 数据 剔 除保持经验池 总 量 不变 , , 从经 验池 中



随 机抽 取部 分数据 进 行 Ac t or 当前网络与 Cr
i t i c 当前网络的训练 。 其中 Cr i t i c 网络

与 D QN 的 双 网 络训 练方法相 同 , 而 Act
or 网 络采用 梯 度上 升 法求解 ,
Ac t or 网 络更

新 函 数如 下 

J = m


Q i o {
s , 
7:
d {

))  (
2 -

1 1


连续动 作 空 间 中 的 学 习 难 点 主 要在 于 策 略 的探索 ,
通过将从噪 声过程 n 采样 的

噪 声 添加 到我 们 的 参 与 者策 略 中 来构造 探 索 策 略 从 而对输 出 动 作进 行 剪裁 

1 


华北 电力 大学硕 士学位论文

算法 的 流程 如 下 



) 初 始化经验池 D , 初始化两个策略 网 络参数 =
初 始 化 两 个评 价 网 络 参

教 =
 9 



) 重 复 以下步骤 

初 始 化 状 态 S 

重 复 以 下 步骤 

根据 当 前状态 X 选择动 作 《= 其中 i V 为 随机噪 声 



执行动作 得 到 奖励 下 状态 f 和 终止 符 A


r 、

记录样本 a, 尺 至经验池 D , 若容量不 足则 从 头覆盖 记录 



当 经 验池样 本 数 大于 定 数量 玢训 练开始




从 经 验 池 随 机采 样 m n b at c h
i i
样本 B 个 分别 输入两个 网 络
, 

M ^ Q 6r )


i 8

8 ^

a )-

r  + r i

d ni a x
a Q (s ,
a ,
ev a / ar
g el (

r ) 

最小化损 失 函 数
^  更新评价 网 络

 w

参数

最大化价值 函 数
士  更新策略 网 络参

数心

每隔 步 更新

C 6 >

0 、 妒 

直 至 终 止 状态 

直至达 到 指 定 重复次数 

DDP G 算 法 能够 解 决 连 续 动 作 空 间 问 题 , 但 其 训 练难度 要 高 于 D QN 算法 , 

常在解决 问 题时 , DDPG 算 法 需 要 更 多 的 训 练 数据 和 训 练 时 间 

1 


华北 电力 大 学硕 士学 位 论文

第 3 章 基于 强化 学 习 的 非 线性 系 统 自 适 应 控制

3 . 1 问 题描述

本 章 针对 类连 续 时 间 的 非 线 性 系 统 设 计 基于 强 化 学 习 的 适应控制 算法 


自 ,

现 非 线 性 系 统 的 快 速准 确 控 制 。 为验证 强化学 习 的 自 适应 控 制 性 能 , 设计仿真 实验



对 目 前经典 的 强化学 习 算法进行训 练与 控制 效果 的验证 。


实验对 象 为 倒 立 摆 的 起摆

及 稳摆控 制 

考虑 个简 单 的无摩擦 的钟 摆 最初挂在 个 向 下 的 位置 钟 摆质 量均 匀 


一 一

, , ,

够绕 端 自 由 转动 通 过施加 左 右 两 个方 向 的 扭矩进 行控制 钟 摆顶 端质 量为


, 。 m 

摆杆质 量忽 略不计 , 长度 为 1 , 重力 加 速度为 g , 钟 摆 与 垂 直 向 上方 向 的 夹 角 为 0 



用 于控制 的扭矩大小 范 围 为 H 其中 +2
= =
w 2 w

, 


( ax ) , m n i
; m ax

则 重力 在转动方 向 的 分扭矩为 m g/ s i n



。 其 角 度计算表达式如 下 

H )
ml

 *
d 6=mgl


sin

&) + u 
  (

3 2 .
强化学 习 算法设计

3 . 2 . 1
环境设计

观测 器输入 为钟 摆 的 可 测 参 数 , 即角度 0 与 角 速度 其 中 角 度 的 计算方式为




° °

弧度 的 形 式 , 即角度的范围为 -

3 . 1 4

3 . 1 4 rad 对应 -

1 80
 -
+ 1 80 。 考虑钟 摆在垂直

向 下 的 位置 时 , 钟 摆左 右变化很小 的 角 度 , 但 弧度 却 会 从 -

3 . 1 4 跳 跃 到 +3 . 1 4 , 形成

数据 的 断层 也 就是说 单 纯 观测 弧度 数据 会存在 突 变现象 这 不利 于 网 络 的 收敛


, , , 

为解决这 问 题 将角 度这 单 变量进 行 分解 用 角 度 的 正 弦 值 与 余 弦 值两 个变量




一 一

, ,

表示角 度 的 大小 , 如下 图 3


所示 , 弧度 分解 后 解 决 了 空 间 不 连 续 的 问 题 

1 


华北 电力大学硕士学位论文




1  /I

/\ w\
/\f

^ ^

i ;
; r/  / Tn  i / 


/ /  /


 !

/ / 





/ / 弦值


J  v / f :

 

余 弦值
 i  ,  i  ,    u

弧度


0 2 4 6 8 1 0 1 2 1 4 1 6 1 8  20

时间 / 

图 弧度 分解示意 图


3 1

奖励值 的 计算 需 要考虑 多 个参数 , 包括角 度 心 角 速度 控 M量 f w 。


其 表达

式如 下 所示 


2 2

r=


〇 . l

^ )

〇 〇〇
. l

? (




角 度作 为控制 目 标 ,
肯 定 是奖励值设计 时 最 先考虑 的 ,
角度越大 , 距离控制 

标越远 ,
就应获得更少 的 奖励 。 同样 , 在钟 摆到达稳定角 度 时 ,
角 速度 的 大小 也会

影响 钟 摆 能否稳住 , 显然 ,
角 速度越 小越有利 于钟摆 稳定 。 最后 ,
实现控制 目 标所

用 的 控制 量越 小 ,
说 明控制 性能越好 ,
但这 不 是 完成控制 目 标的 决定性 因 素 , 所以

控制 量 的 权重设置 的 比较小 ,
仅在 稳定时 即 角 度 0 ,
角 速度 ^ 全为 ^
〇 值 附近的 时

候起作用 

由 于钟 摆 在任何 角 度 都有可 能 ,
所 以 不 设立终止条件 ,
即 终 止 变 量 卢0 

3 . 2 2 .

网 络设 计

D QN 设计 :
DQN 算法基于离散动 作 空 间 , 算法 中 包 含两个神 经 网 络 。
当前 

网络与 目 标 Q 网络 。
为便于 D QN 算法过程 中 ,
将当前 Q 网 络 的权值拷 贝 到 目 标 

网络中 ,
D QN 的两 个神经网络采用 相 同 的结构 。
Q 网 络根据状态 S 计算状态动 作

价值 采用 全连接层结 构 设计神 经 网 络 包含 个输入层 两 个全连接 隐 含




, ,

层 个输 出 层 输入层 节 点 与 观测 器输 出 维 数 致 即 输入层节 点 数 为 两层



, 。 , 3 ,

1 


华北 电 力 大学硕士 学位论文

隐含层 节 点 数 分 别 为 个 个 输 出 层节 点数与 状态空 间 的 维数 致 这里输




24 、 48 , ,

出 的动作 空 间为 {

2 , 0 2



因此 ,
输 出 层节点数为 3 。
所述 网 络结构 如 下 图 3

2 

不 

深度强化学 习 算法 的 核 心仍是神 经 网 络 ,
设计深度神 经 网 络 的 结构 对 强化学 习

算 法起着 至 关重 要 的 作 用 , 由 于 深度神 经 网 络 隐含层层 数 多 ,


网络结构复杂 , 因此

为 了 加 快深度神经 网 络 收敛速度 , 在 设计 的 强 化学 习 算法 中 ,
策略 网络与 评价 网 络

的 隐含层均采用 re l u 函 数 

r e l u


)

 m ax

〇 ,

)  (




re l u 函 数计算简单 ,
无 需指 数运算 , 能 大大加 快反 向 传 播速度 

输 出 层 基 于 状态动 作 价 值 , 没有 固 定 的数值范 围 ,
因 此不 设激活 函 数 


输人层

) 
/ \ 
/ 隐含层
1  V




\ 隐 含 层


输出层




\ n AH/


图 2 Q 网络结构 图


DDPG 设计 DDPG 共 拥 有 四 个深 度 神 经 网 络 两 个策略 网 络与 两 个评价 网




: ,

络 其 中 同类型 的 网络结构相 同 即 分别 设计 个策略 网 络和 个评价 网 络 即 可


一 一

, , 

策 略 网 络采用 全连接层 结 构 包含 个输入层 两个隐含层 个输 出 层


一 一 

, , , ,

个缩放层 同样 输入层 与 观测 器输 出 维数 致 即 输入 层 节 点 数为 由 于连续




。 , ,
3 ,

状态空 间 策略输 出 更加 复杂 ,
两层 隐含层节 点数分别为 400 个 , 3 00 个 ,
激活函数

采用 re l u 函数 。 由 于策 略 网 络直 接输 出 连续 的 控制 动作 , 输 出 层节 点 数 为 控 制 变量

的个数 即 输 出 层 节 点 数 为 1
个 

对于输 出 连 续动 作 的 强化学 习 算法 ,
策 略 网 络 的 输 出 层根据 实 际输 出 的 范 围 选

择采用 双 曲 正切 t a nh 函 数或者 s i

mo d i
函数 

2 0


华北 电力大学硕士学位论文





a nh x = - —

^

( ) 7 3

4)
( 

mo d

^ —





i i


3 5

^ ( 

这里采用 t a nh 函 数 作 为输 出 层 激 活 函 数 该 函 数将 动 作 限 制 在 ,



+ 1
的范围 内 

因此它 是 0 均值的 。 最后 设置 缩放层 缩放 系 数 为 2 ,


保证策 略 网 络输 出 的 幅值 是合

理的 

/  \

 /
: rYT


\ g Au/


图 3D D P G 策略 网络结构 图


评 价 网 络 包含 两 部 分输入 ,
观 测 器输入 与 动作 输入 , 其 结 构 包含两 个输入层 

个隐含层 个叠加层 个输 出 层 两 个输入层 分 别 接 受观 测 器输入 与 动 作 输




一 一 一

, , 。

入 ,
其节 点 数分别 为 3 个和 1
个 , 隐含层 位 于 观测 器输入层与 叠 加层 之 间 ,
节点数

为 400 ,
激活函 数为 re l u 函 数 。 叠加层将观测 器端 隐含层 的输 出 与 动 作 端输 出 通过

全连接方式叠加 起来 , 节 点数为 3 00 ,
激活 函 数为 re l u 函数 ; 输出 层节点数为 1
个 

无激活 函 数 。 其结构如下 图 3

4 所示 

观测 器端
一^

管  / \ 

输入层 Re
 /  叠 加 \
i u
广




^  J  v  y \/  层  V输 出 层y


 ( 

Re l u
个 

^ 动作端 \ /


Vm x m
 _



图 4DD PG 评 价 网 络结构 图


2 


华北 电 力 大学硕 士 学位论文

3 . 2 3 .
通用 参数设计

为验证 不 同 算 法 的 特 点 , 选用 相 同 的 训 练参 数 , 其 中 仿真步长为 0 05.


s , 每次迭

代仿真时长 20s ,
折扣 因 子为 0 9 .
, 学习 率为 0 00 . 1 ,
奖励池大 小 为 3 000 ,
训 练的 b at ch

为 64 。 训 练 的 结 束条件 为 :
到达 5 000 次迭代或 者 最近 5 次训 练 的平 均 累 积 奖励 高

于 -

1 1 00 

3 . 3 仿真实验

在同

计 算机 中 运行 仿 真 环 境 ,
计算机 C PU 主频为 3 .
8 GHz ,
其 中 不 同 强化学

习 算 法 的 训 练过程如 下 图 3

5 、 3

6 所示 

0 .

 X  /
? ?


v k V *  X  XX X 
 x  v x 乂  V  







3 00 0 


 公f
2


X *




5 〇〇°

1 \ |
f 1   1 \

7 00 0  i  I

 


i l

 P

 I
1/





8 00 0  \
 j  \
l i

0 




9 00 0 




1 1

00 00 

0 5 1 0 1 5  2 0 25 3 0 35 4 0 4 5 5 0



Ep i s o d e  N u m b e r

图 3 5 钟摆模型 D QN 学 习 训 练过程 累 积奖励 曲 线



5 00


2 〇〇 〇
 t

〇^f

Q ^  ft



3 50 0
^ £ 



1 

4 00 0

0  1 0  2 03 04 0 50 6 07 08 0



E p s o d e  N u m b e r

图 3 6 钟摆模型 D D PG 学 习 训 练过程 累 积 奖励 曲 线


2 2


华北 电 力 大学硕 士 学 位论 文

从 图 中 可 以看 出 , D QN 算 法 训 练初 期 存 在 幅 度 很 大 的 波 动 , 这是探索 过程不稳

定导致的 , DDPG 算法初期存在较小 的 波动 , 整体奖励 曲 线 呈稳 定上 升趋势 ,


波动

幅值很小 , 也就是说 DDPG 算法 的稳定性更加 优秀 。 在 收敛速度 上 ,


D QN 算法所

用 迭代次数较少 , 同 时考虑算法 的 复杂度 , 最终影响 的是训 练时长 , 其中 D QN 



法训 练 需要 47 代 ,
训 练时长 42 6 2 9s .

; D D P G 算法需要 76 代 , 训 练时长 1 2 62 7s



D QN 算 法 的 收敛速度 是 快于 DDPG 很多 的 

D QN 算法 虽然 收敛 性 明 显 好 于 DDPG 算法 ,
但离 散状态输 出 带 来 的 局 限 性会

影响控制 的 效果 。
下图 3

7 、 3

8 所示为不 同 控制 算法 的 控制 过程 

一 , 

0 4
     


1 1 .

 X1 65


? 1 .


U  Z
3 K ^  Y  0 0 223

1 7 2


衿七 I



[v y

Z 扣 


^ 1 

2


 

 y 



0  2 4 6 8 1 0  1 21 4 1 6  1 8 20

时间 / 

图 3

7D Q N 算 法钟 摆控制 过程


4




NH J  f

\v \

2 Y -

0 .
0 1 5 6 7 0 


」 四 r 


 

0  5  1 0  1 5  2 0

时间 / 

图 3 8D D P G 算法钟摆 控制 过 程

通过计算 1 5 s

20s 之 间 数据 的标准差 , 验 证 不 同 算 法控 制 效 果 的 优 劣 , 其结果



如下 :
D QN 算法 :
0 002
. 1 ,
DDPG 算法 :
2 0 . 3 8 6e

0 7 。 从结果看 出 ,
D QN 算法受控

制动作空 间 维度局 限 ,
DDPG 算法 的稳态特性 好于 D QN 算法 

23


华北 电力 大学硕士学位论文

3 4

小结

本章针对钟 摆这 非线性系 统 通过设 计仿 真 实验 研 宄 了 不 同 的深度强化学




, ,

习 算法 的 训 练与 控制 特 点 。 通过 实 验可 以 得 到 以 下 结 论 

不 同 强 化 学 习 算 法 都 能 完 成 钟 摆 的 起摆 及 稳 摆 控 制 , 在 相 同 的 训 练参 数 条 件 下 

D QN 算法 的 收敛性 最好 , 但控制 性 能 局 限大 , 基于连续动 作 空 间 的 D DP G 算法 改



善 了 控制 效果 , 但训 练所 需 的 时 间 大大增 加 。 不 同 的 算法特 点 不 同 , 因 此 需要 综合

考虑控制 性 能与 收敛性 , 根据 不 同 的 需 求 选 择 合 适 的 强 化 学 习 算 法 

强 化 学 习 能 够 实 现模 型 理 论 最 优 的 控 制 策 略 , 但 当模型 是 时 变对 象 时 , 例 如被

控对 象 的 增 益发生 改变 时 , 强化学 习 控制 器 需要 学 习 新 的 控 制 策 略来适应 对 象特性



的变化 , 这是存在

个学 习 过程 的 。 然而 , 纯粹 的 强化学 习 算法 , 其 训 练过程 需 要

大量 的数据 从而 需 要很 长 段时 间 来 自 趋 优 的 学 习 到 最优 策 略 因此 强化 学 习



。 ,

算 法独 立 用 于 时 变对 象过程控 制 时 , 收 敛速度 慢 , 鲁棒性不 能得 到保 障 



24


华北 电力 大学硕 士学位论文

第 4 章 基于 强化 学 习 的 自 适 应 补偿控制 系统

本 章 针对 强化 学 习 收敛速度慢 鲁棒性不 足这 问题 提出 了 种 全新 的基于




一 一

, ,

强化 学 习 的 自 适应 补 偿控 制 系 统 。 其 中 强化 学 习 算 法 作 为 前馈控 制 器与 反馈控制 器

构成 自 适应 补偿控制 结构 。
反馈控制 器起主 导 控制 作 用 , 强化学 习 的 决策输 出 起优

化控 制 作 用 。
反馈控 制 器 的主 导 控制 作 用 加 快 强化学 习 算 法 的 收敛速 度 与 稳定 性 

强化学 习 的 输 出 提高反馈控制器 的控制 性 能 。 将强化学 习 与 前馈控制 结构相 结合 



使双通道 复合控制 器相 互补 充 , 不仅可 以 实现高精 度 的 非线 性系 统控制 , 而且解决



了 强化学 习 的 鲁棒性 问 题 。
新 的 控 制 系 统 降低 了 非线 性 系 统控制 器 的 设计难度 ,


时 具 有 强 大 的 鲁 棒 性 和 抗干扰 能 力 , 并且理论上达 到最优 的 控制 效 果 



4 . 1 基于强化学 习 的 自 适 应 补偿 控制 算 法

4 則馈 反 馈 控 制 系统


. 1 . 1

在 工业过程 中 ,
如 果 被控对 象存在 明 显 的 可测 干扰 , 通常会在 控制 回 路 的 设计

上加入 前馈控制 器 。
例 如 汽包 炉 协调 系 统 中 , 该系 统是

个两入两 出 的 耦合 系 统 

控制 量为给煤量与汽 轮机 阀 门 开度 ,
被控量为主汽压 力 与 机组 负 荷 。 如 果单看给煤

量与主汽压力 的控制 回 路 , 那 么 负 荷 变化就 可 以 看 作 可测 外扰 ,


根据 机组 负 荷 与 给

煤 量 曲 线 设 计 前 馈 控 制 器 加 在 给煤 控 制 回 路 上 ,
将 大大增 加 控制 回 路 的 稳定 性 

在 前馈 反馈控制 系 统 的 设计过程 中


很明显 ,
前馈控 制 器 的 设计不 受线 性反馈

控制 器 的影响 ,
前 馈控制 器 的 加 入 能 补偿可 测 干扰对控制 回 路 的 影 响 , 等价于 降低

了 回 路 的 控 制 难度 。 因此 , 前馈控 制 器 的 加 入 对 反馈控 制 器 的 参 数 影 响 也 不 会 很 大 

前 馈控制 回 路 与 反馈控制 回 路之 间 , 前 馈控 制 回 路 能够立 即 做 出 响 应 , 但不能



准 确完 成控制 。 而 反馈控 制 回 路 , 由 于 控 制 量 是 根据 被控 量 与 设 定 值 的 偏 差 来计算



的 ,
因 此存在 时 间 上 的 滞后 ,
但最 终 的 结 果是趋于 零偏差 的 。
因 此反馈 控 制 回 路 是

慢速 的 但 准 确 的 面 对控制 难 度较 高 的 对 象 前馈 是 解 决 问 题 的 个有 效 的 方法


。 , 

25


华北 电 力 大学硕士学位论文

4 . 1 . 2 强化学 习 前馈控制 器

搭 建 前 馈控 制 器 时 需 要 建 立对 象 的 模 型 , 进 而 通过计 算 获得 。
如 果 能够 根据 数

据 获得 通 用 的 前 馈控制 器 , 那 么 将 大 大 降低控 制 系 统 的 设计难度 。 神经 网 络拥有优



秀 的非线性映射 能力 , 如 果 能够利用 神 经 网 络来设计前馈通道 , 那 么 前 馈控 制 器 设



计将大大简化 

结 合上 章强化学 习 的 自 适应控制 能 力 示教 学 习 的 思 想 前 馈 反馈控 制 系 统




, ,

双 回 路互补结构 提出 了 种基于 强化学 习 的 适应补偿控制 系 统 强化学 习 智 能




, 自 ,

体作 为前馈控制 器 , 对反馈控制 起优化补偿作用 ,


同 时将反馈控制 器 引 入 强化 学 习

算法 中 ,
提高 强化学 习 的 收敛性 与 稳定 性 。 其算法结构 如 下 

前 馈回 路

可 测扰 动 不 可测 扰 动

  [
m mJ

设趙

 _ L   ̄
— 

|  〇

 反 馈问路 

图 强化学 习 自 适应补偿控制 系 统结 构


4 1

如图 4 -


所示 ,
控 制 系 统 由 前 馈 回 路与 反馈 回 路 组成 ,
反馈控制 器 与 强 化学 习

前馈控 制 器 是 双通道交叉 串 并联的 关系 ,


被控量 的 设定 值 与 实 际 值 的 偏 差送入反馈

控制 器 , 反馈控 制 器 根据 偏 差 给 出 方 向 正 确 的 反馈控制 动 作 《 ,
该动作 同 时送入强

化学 习 的 观测 器 , 构成 串 联关系 ,
强化学 习 智 能 体 收 到 反 馈控制 动 作 信 息 后 , 同时

根据环境状态计算控制 策略 ,
给 出 前 馈优 化控制 量 《 , 反馈控 制 动 作 w 与 前馈优化

控制量 a 叠加 , 构成并联关 系 ,
作 为最终动 作 用 于 控 制 被控对 象 

算法搭 建过程如 下 

第 步 反馈 回 路的 设计 由 于 强化 学 习 己经拥有 适应能 力 如 果 反馈控制




, :
自 ,

2 6


华北 电力 大学硕士 学位论文

器也采用 自 适应控制 器 , 那 么 在 前馈 反馈 的双通道结构 下 -


两个 同 时 自 适应 的 控 制

器会互相 影 响 , 产生过度校正 ,
从而 降低控 制 品 质 。
根 据 被控 对 象 特 性 , 设计经典

控制算法如 P ID 控制 、 模糊 控 制 、 预测控制 等 。 如 果被控对 象存在 非线性环节 , 



取 稳 定工况 下进行 局 部线 性化 再 设计线性控制 器


, 

在 进 行 反 馈控 制 器 参 数 整 定 时 , 由 于 其 与 强化 学 习 配合 进 行 优 化控 制 , 反馈控

制 器 只 需 稳 定 完成控 制 目 标即可 。
因此 ,
采用 保 守 的 设计 目 标 , 在参数整定 时 看重

稳态特性 ; 由 于 强化学 习 前馈控制 器 的 优化作 用 ,


快速 性 可 以 通 过 前 馈进行 补 偿 

注 意 反馈控 制 器积 分 问 题 由 于 训 练过程 中 控制 标不 能按 时完成 误差 直存在


, 目 , 

因 此积 分容 易 饱和 所 以 动 作 预估器如 带有积分作 用 定要进行抗积 分饱和 优化


, , 

设控 制 器 输 出 的 范 围 为 , 心 ? ) , 以正作用 的 P ID 算法为例 ,
当 控制量 w  > ?
max 

且 e >0 时 ,
令积 分增 益 归 零 ,
防止控制量 《 的 继续增加 ,
同 理 当 控 制 量 w 

且 e < 0 时 ,
令积 分 增 益 归 零 ,
防止控制 量 w 的 继续减小 

第二步 , 前馈 回 路 的 设计 :
前 馈 回 路 的 设计 过程 中 , 强化学 习 的 参数设计采用

普遍 的 方法 即 可 在上 章 中 讲过 的 强化 学 习 设计方法在 这里 同样 适用 就不再赘


, ,

述 。
需 要 注 意 的 是 强 化 学 习 前 馈控 制 器 的 输入 变量 的 选 择 与 结 构 的 搭 建 以 及输 出 层

缩放系 数 的 设置 

强化 学 习 智 能体作 为 前馈控制 器 与反馈 回 路构 成 复 合控制 系 统 , 强化学 习 算法



的 训 练方式 需 要 配合 反馈控制 。 首先 , 经验池 需 要进 行扩 充 , 经典强化学 习 经验池



的 扩充为 其中 扩充 的 为反馈 回 路 的 控制 量
’ ' '

^ ,
" 3 1


《 ,
0 !



% 1 ?

《 , ,
《 


( ) ( )

其次 ,
强化 学 习 的 观测 器 同 步进 行扩充 , 由 经典 的 环境信 息 S 扩 充 为 环 境信 息

与 反 馈控 制 量 (
A ?


将反馈 回 路 的 信 息 作 为 策 略 网 络 的 输入 ,
便于 强化学 习 的 自 

应控 制 

再次 ,
根据 实 际控制 系 统 的 控 制 量范 围 ,
设置缩放 系 数 的 大 小 ,
缩放 系 数理论

上不大于 控制 量 的 上 限值大小 

最后 , 搭建前馈 回路 , 将 强化学 习 前馈控制 器 的输 出 与 反馈 回 路 的 控制量进 行



叠加 ,
作 为 最 终 的 控制 量送入被控 对 象 

2 7


华北 电 力 大学硕士 学位论 文

4 . 1 . 3 强化学 习 前馈控制 器训练算法




+ ^  最 终动 作




前 馈补 偿 动 作

   


( ^ 奖 励 (  ^
智 能体 ? 

环 境


V k  J V 





 状态
 \



^ 

参考学 习 动作

r 

线 性反 馈 控 制 器


V t  J



图 4 2 强化学 习 自 适 应补 偿控 制 系 统 流 程 图

过程控制 系 统是基于 数据 的 , 连续 的 ,
非线性 的 。 D QN 算 法输 出 离 散 的 控 制 动

作 ,
在过程控制 中 的 适用 性较差 ,
DDPG 是基于 策 略梯度 的 优 秀 算法 ,
输 出 连续 的

动 作 空 间 并且面对基于 数 据 的 环境 时 有 良好的稳定性和 收敛性 。 因 此本 文主要 研 究



的强化学 习 算法是 以 DDPG 为 基础 的 



基于 强化 学 习 的 前馈控制 器 与 传 统 的 前 馈控制 器作 用 略有 不 同 ,
强化学 习 以神

经 网络作 为策 略计算 的 内 核 ,
其 优 势 在 于 神 经 网 络支持任 意 数量 的 输入参数 ,
从而

可 以 轻松将可 测 扰动信 号 作 为训 练数据 ,


实现可测 扰动 的 克 服 ,
即 使 对控 制 回 路影

响较小 的扰动 ,
作为参数 参 与 强化 学 习 训 练也 能提 高控制 精度 。 强化学 习 自 适应 补

偿控制 算法 同 时 保 留 了 强化学 习 与 反馈控制 的 优 点 ,


使 得新 的 控制 算法 同 时 具有 强

化学 习 的 自 趋优 能力 与 反 馈控制 的 鲁棒性 

上 节介绍 了 控制 系 统框架 的搭 建与运行原理 本 节介 绍 强 化学 习 前馈控 制 器




中 智 能 体 的 训 练方 式 

28


华北 电 力 大 学硕 士 学 位 论 文

其 训 练算 法流程 如 下 



) 初始化经验池 D , 容量为 P ; 初 始 化 线 性 反 馈 控 制 器参 数 以 W  =  / 〇y ) 表示 

初始 化两 个 策 略 网 络参数 I 化 心 初始 化两 个评价 网 络参 数


2 =



) 


3) 初始化环境 状态 =
重 复 以 下 步 骤 

计算 m


 /〇) 、 a=
 々〇 y

w , 供) 

最终控制 动 作 

执行动 作 % 得 到 奖励 下 状态 , 和 终止符 r 计算 w / f

r =

? a/ ,
, f ,

 ( ) 

记录样本 夂 《 4 至 经 验池 〇 若容量不足则从头覆盖记录


^ ? ,
《^ , , ,


s=s 

当 样本数大于 定数量 K 训 练开始


, 

从经验池 中 随机采样 m i n i b e ac h 样本 B 个 ,
分 别 输入 四 个 网 络 

计 算 匀 m ax 
’ ’ '


0卜 M a 炉) 、 2

, + r 1

M  a 炉 )
g e,
 , , ,
, ar 
 (  a , , ,


最小 化损 失 函 数 更 新评价 网 络参数 ?

最大化价值函 数 1^ 及 ?, ¥) 為 以 (
更| 策 略 网 络

 1

| > ( ( ) )

? , 5 ?

参数 ( 9 

每隔 C 步更新

沒  <

0 、
妒 

直至 终止 状态或重 复 N 

直至重 复 M 次

4 2 .
仿真实验

4 2 . . 1
实验对象

水箱液位控 制 系 统包括 个形状规 则 的容器 个水泵 个排水 阀 门 如图




一 一

, , 。

4 -

3 所示为单 容 水 箱液位控制 系 统工 艺 图 底 面积 〇 为 ,
2m

2m 。
图中 私 ( 单位为 m

/s


为入 水 流量 , 由 水 栗进 行 控 制 , 最 大入 水 流量 为 1 0m

/ s 。
容器输 出 管道流量 不

可调 节 其 管道 阀 门 截面积 定 义 为 水流量定义为 位为

M( 单




< 3 〇 〇2 5 .
m , m / s 


?? ,

29


华 北 电 力 大学硕 士 学 位论 文

控制 目 标 为 水箱 的 液位高度 ,
定 义 为 A 单 位 为 (
m) ,
水箱最大高度为 2 0m 。 水箱液

位控 制 系 统作 为 经 典 的 非 线 性 被控 对 象 , 其 主 要 特 点 为运行 过程 中 参数发生 变化 导

致存在 非线性 是 适应 控制 算法解决 的 主 要对 象特 性之


, 自 

qC
^


a h (

)  

a o ut

D ¥0
— 


 qn


图 单容水箱 液位控制 系 统


4 3

根据 设 定 条件 , 该 仿 真模 型 表达 式如 下 

 4 -



dh { t ) . .  .  .
( 

a t


4 -




4 2 2
. .

强化学 习 自 适 应 补 偿 控制 系 统搭 建

模型确定后 , 进行控制 系 统 的 设计 。 首 先 设 计反馈 回 路 ,


由 于水箱液位控制 系

统是 个 非 线 性 系 统 在 水 箱液 位 高度 的工 况 下采 用 泰勒展 开 局 部线性化建立



l 〇m

局 部 线 性模 型 。 设水 箱表达 式 中 非 线性部 分为 / (
/7
)

 V^ , 在 /!

1 0 时进 行泰勒展开

得到下式 

/ (
1 0  + A/ j
)

 Vi 〇 + —

i = A /7  (
4 -

3 

2 V l 

根据 局 部 线 性 化 后 结 果 ,
得到局 部线性传递 函 数如 下

Ah

s)
 _
 1 2 .

 (
4 -

4 )

aw
 ⑴ 5 0 . 6s + 1

根据传递 函 数 , 整定 P I D 反馈控 制 器参 数 ,
参 数整 定 追求鲁棒性 ,
釆用 PI 

构得到整定参数为 分 =
2 ,
幻 =
0 . 06 

3 


华北 电 力 大 学硕 士学位论文

—
— ■ ■ ■ 






8 /



S 

S 6 

然 

睬 



4

设定值


 

2
-  



1 

〇

0  50  1 00  1 50  20 0

麵《 _ /s

图 线性 D 控制 下 液位 高度控制 曲 

线

4 4 P I

强化学 习 前馈控制 器 需 要设计 的 参数主要 有 观测 器 的 设计 , 终止 条件 的 设计 



奖励 值 的 设 计 , 强化学 习 网 络 设计 ,
训 练参数 设计 

观测 器反 映输入智 能体 的 环境信 息 , 取 水箱 液位测 量值 ,


水箱 液位偏 差 当 前值

及 累 积值作 为观测 器输入 。 水箱液位 值反映 系 统非线性信 息 ,


水箱液位偏差 当 前值

及其 累 积值反 映控制 目 标完成度 , 这些信 息基本满 足 强化学 习 训 练 的 环境状态要 求 



终止 条件 的 设计 是反 映训 练是 否 中 断 的 标 志 , 取液位高度高于上 限 2 0m 时 , 

止符 d

l 。
奖励 值主要根据 偏差与 终止符进 行设计 , 取 偏 差 绝 对 值 进行 计 算 。 其计

算方式为 , 当 误差绝对 值 |


<〇 . l m 时 ,
奖励 值 r 

 l 〇 , 否则 r = -

] ,
当 时 ,
r = -

l 〇〇 

强化 学 习 前馈控制 器采用 DD PG 算法 ,
因 此 同 样 需要设计策 略 网 络 与 评价 网 络 

策 略 网 络采用 全连接层 结 构 包含两 个输入层 个叠加 层 两 个 隐含层


一 

, , , ,

个输 出 层 个缩 放层 观测 器 端 输入层 与 观 测 器 输 出 维 数 致 反馈动作 端输入





, 。 ,

层 与 反馈动 作 维 数 致 即 输入层 节 点 数分 别 为 个和 个 叠 加 层 与 两个 隐含层




, 3 1 ,

节点数为 48 个 ,
激活 函 数均采用 re l u 函数 。 由 于 策略 网 络 直接输 出 连续 的控 制 动

作 ,
输 出 层 节 点 数为控制 变量 的 个 数 即 输 出 层节 点 数 为 1
个 。
采用 s i

mo d i
函 数作

为输 出 层激活 函 数 该 函 数将输 出 限 定 在 ,


+ 1
的范围 内 。
输 出 层缩放系数 的选择 

由 于缩放 系数 的 大 小 决 定 强化学 习 前 馈控 制 器 输 出 的 控 制 量 幅 值 , 直接影响 强化学



习 前 馈控 制 器 对 反馈控制 回 路 的 影 响 比例 。
因此 ,
缩放 系 数是强化学 习 控制 器设计

的 个主要 参数 容易想象 缩 放 系 数越 大 强 化学 习 前 馈控制 器 对反馈 回 路影 响




。 , ,

能力越强 ,
结合强化学 习 的 自 趋优能力 , 控制 效 果 也会越好 ,
为保证最优 的控制 效


3 


华北 电力 大学硕士学位论文

果 , 取缩 放系 数 为控 制 量 上 限 值 1 0 

\  \

 \

反馈 力 / \ Re l u  A R e u  A R e l u
 

U ^  A A /

 ^






y —

? v _
y —

? v _

图 强化学 习 前馈控制 器策 略 网 络结 构 图


4 5

评价 网 络包含三部 分输入 , 观测 器 端输入与 两个动 作输入 , 其 结 构 包含三个输



入层 两 个 隐含层 个叠加层 个输 出 层 三 个输入层 分别 接 受观测 器输 出



, , , 。 

前馈动 作 输 出 与 反馈动 作 输 出 ,
其节 点数分别 为 3 个 ,

个和 1
个 , 隐含层 与 叠加

层节 点数为 4 8 , 激活 函 数为 re l u 函数 ,
输 出 层节点数为 1
个 ,
无激活 函 数 。
其结构

如下图 4 -

6 所示 

 ̄  ̄





^ (
隐含  J \

 \ 个
端 输 入 层 1
 //   \



\ /7 
e l u

 T^ 

\ 隐 输出层
叠加层
y , 〔 

 A  /
Re l u
Re i u
前馈动作 端输

反馈 动 作 端输 n !  丨 ^

 /
J

入层 

? V j   V 



 

图 4 6 强化学 习 前 馈控制 器评价 网 络 结 构 图



智 能体参数 的 设计主要 包括 ,
采样 时 间 ,
每 次训 练的时 间 长度 , 学习率 ,
折扣

因子 ,
缩放系数 , 经验池大小 ,
每次训 练的 b at c h 大小 , 训 练结 束 的 累 积 奖励 阈 值 

本 实验 设计 参数 如 下 :
采样时 间 为 〗 s ,
每次训练时长 6 00s ,
学习率 0 000
. 〗 。
折扣 因


3 2


华北 电 力 大学硕士学位论文

子影 响 策 略对 未来 奖 励 的 重视程度 , 越大越注 重 未来 奖励 , 但 不 能大于 1 ,


否则会

陷 入循环 陷 阱 。 为 了 快速实现控制 目 标 令偏差



e 趋于 0 ,
未来奖励 是 比较重要 的 

因 此折扣 因 子取 0 99
. 。 经验池 大 小 为 1 000 , 训 练采样 b at c h 为 3 2 。
根据 时 长 与 奖励

设计 , 理论 累 积 奖励 小 于 6000 , 因 此 当 累 积奖励达到 3 600 时停止训 练 



4 2 3
. .

纯 强化 学 习 控制 系 统搭建

为 了 验证强化学 习 适应 补 偿控 制 系 统 的 有 效 性 针对 同 被控对 象设计 纯强




自 ,

化 学 习 控制 系 统进 行 对 比 实验 。 其控制框 图 如 下 图 4 -

7 所示 

纯强化学 习 控制 系 统 的 设计 强化学 习 智 能体作 为唯 控制器 智 能体 以 外 的




, ,

部分对于 智 能体来说都算作 外 部环境 。 观测 器 取水箱 液位测量值 , 水箱液 位偏 差 当



前 值及 累 积值 , 可测 扰动 作 为输入信 息 ,
反映控制 系 统状态 。
为便于 实验对 比 , 

止 条件 ,
奖励 值 与 智 能 体 参 数 的 设 定 与 强化 学 习 前 馈控 制 器 相 同 

可测扰动 不可 测 扰动


^丄



I f器
 ̄ 

图 4 7 纯强化学 习 控制 系 统 结构 图

4 2 4
. .

实验结果

训 练过程 中 ,
每 次初始化参数 的 时候 , 需要初始化 水箱液位 , 也 要对 反馈控 制

器进行初始化 , 尤其 是 带积分作 用 的 。 训 练过程 如 下 图 4 -

8 所示 

实验 为验证强化学 习 前馈控制 器框架 能提高 强化学 习 收敛性 与 稳 定 性 




: ,

用 相 同 参数 的纯强化学 习 控制 器针对该模 型进 行训 练 ,
训 练过程 如 下 图 4

9 所示 

3 3


华北 电 力 大学硕士学位论文

uuu 






3 500 
 





3000 

 

|
2 5 00 
 

? 2 000 
 


I  


, 


z  ,

1 0 00
产

 —






二 


s oo 

::


 ^

Q
 1   

i  i 
if
 ! 

兵 
L 
4 

1  1 5  22 .
5 33 5 4 4 5 5

 . .

E p sod e
i  N u m b e r

图 4 8 强化学 习 前馈控制 器训 练 累 积 奖励 曲 线



 

3 500 

 

3 000
 




2 500 

 

I  2 000   l I

! 1 500


f \ 





八 /

N/


i


5 00
 r
 

5 00  卩 V ^ -

 J  J   i
— 

00 0 

0 2 4 8 8  1 0 1 2 1 4  1 6  1 8  20

Ep i
s od e  Nu mbe 

图 4 9 纯强 化学 习 控制 器训 练累 积 奖励 曲 线

从图 4

8 和图 4 -

9 可 以看出 ,
相 比 与 纯强化学 习 的 训 练过程 ,
强化学 习 前馈控

制 器 的 训 练主要有 以 下 特 点 

从收敛 时 间 上看 针对 同 被控对象 强化学 习 前馈控制 器 的 训 练收敛速度 更




, ,

快 ,
图 4 -

8 中 强 化 学 习 前 馈控 制 器 第 5 次迭 代 就完 成 了 训 练 ,
而图 4

9 中 纯强化学

习 需要 20 次迭代 

从收敛 曲 线 的 趋势看 ,
图 4 -

8 中第 1
次迭代时 ,
就有基础 的 正 向 的 累 积奖励 

并且在 训 练过程 中 直保持正 向 的 累 积奖励 而图 中 纯强化学 习 在前 代都





4 -

9 1 2

是 负 的 累 积 奖励 , 在第 1 4 代 开 始 才 快速 增 加 累 积 奖励 , 之后 累 积 奖励 曲 线与 图 1


似 。 因此 ,
相 比 于纯强化 学 习 的 训 练过程 , 强 化学 习 前 馈控制 器 的 学 习 过程 中 ,


大缩短甚至 省 略 了 强化学 习 初 期探索 花费 的 时 间 , 从 而 帮 助 强化学 习 快速 的 找 到 最



优策略 

3 4


华北 电 力 大 学硕 士 学 位论 文

水箱 液位



    


* *

1 f

厂 、

、




/ 


广
— 产 、
 一一
、 ―




0 、

z 产

J /



j  K  /

液 位反 馈 值


液 位设 定值



  
?   

 

5

g

〇

  强 化 学 习 控 制 屋  

^V x

> AA

v r

VVV
\ WV ^V

A H /A vv
vv vw

VV

J  

》 ^y
〇 L   I  j 







0 1 00  200  3 00  400  500  60



时间 / 

图 有 反馈控 制 情况 下 第 次学 习 过程



4 1 0

水箱液位


20 




 
*    - 

/ !


-  

1 〇 f


5 

〇 | : 
 i

 ,   i 


 ̄  ̄  ̄ _
奖励
_

 


T



 


50 

-    

1 00 

强化学 习 抟制 镦

左 〇
 

| 5

* ■


 

0 1 00  2 00  300  400  500  600



时间 / 

图 无 反 馈控 制 情 况 下 第 次学 习 过程



4 1 1

学 习 过程 的 稳定 性 ,
根 据 学 习 初 期 的 探 索 过 程 的 水 位 变化情 况 分 析 算 法 的 稳 定

性 如下 图 4 所示分别 为强化学 习 前馈控制 器 与 纯 强化学 习 控 制 器第 





4 -

1 0 ,

1 1

迭代的学 习 曲 线 , 通过 图 4 -

1 0 , 4 -

1 1
可 以看 出 , 在 稀疏奖励 的 情况下 , 带有反馈

控制 器指 导 的 强 化学 习 前馈控制 器 的 探索 过程是 有方 向 的 ,
并且趋 于 目 标 收敛 , 

会超 出 模 型 允许 的 界 限 。
而纯强化学 习 的探索 过程是无序 的 ,
不 断 地试错会带来 很

多 实 际 系 统不 允许 出 现 的超 界情况 。 这也是强化学 习 收敛初期存在 负 收益 的 原 因 



从学 习 过程 中 , 可 以 反 映 出 强化学 习 自 适应补 偿控制 器 的 两个主要优点 : 1


) 

3 5


华北 电 力 大学硕士学位论文

练速度 快 ;

) 对 原 系 统影 响 小 。 这对 强化 学 习 的 实 际 应用 具有重 要 价 值 

实验 二 针对 同 被控 对 象 同 初 始 条件 分析 不 同 控制 算 法 的控制 效果

: , , 

其仿真结 果 如 下 

〇 ^ 乂 一 
二 二
■ j .


一   

厂 二 ^


/ I  







I 



?   6 i

扫 

疾 

a 




?

 强化 学 习 前 馈 控制

2 | | 

设定值


P I



| | | 1 j | |
    

q

0  2 0  40  60  8 0  1 00  1 2 0 1 40 1 60  1 80  20 0

时 间 / s

图 4 1 2 纯 P i d 与 带 强 化 学 习 前 馈 控 制 器控 制 效 果 比 较

由 图 4 -

1 2 可 以看 出 , 在 无外扰情 况 下 ,
强化学 习 前馈控制 器 能够优化 PID 

控制效果 

实验三 针对 同 被控对象 同 初始条件 添加 未知惯 性扰动通道 即训练




一 一

: , , ,

时 未 添加 的 扰动 。
分 析 不 同 控制 算法 的控制 效果 ,
其仿真结 果如 图 4 -

1 3 所示 。 由 图

4 -

1 3 可 以看 出 , 通过训练 , 智 能体能够实现基于 误差 的 控制 效果 , 进而抑制 未知惯



性通道 下 干扰对控制 量 的影 响 ,
并输 出 相 应 的 优化控制 量来抵消 干扰 的影 响 

0
 - 

二 _ 一



曰8
、 /

M  / 
 I

W 6   /



 /

^ 

/ 丨

*  




 




_

^ 1  

设定值

2 强 化 学 习 前 馈 控 制

P D



0

0 2 0 4 0 6 0  80 1 0 0 1 2 0 1 4 0 1 6 0 1 8 0 2 0 

时间 /t

3 


华北 电力 大学硕士学位论文

图 4 1 3 惯 性 扰 动 通道 控 制 量干扰 下控 制 效 果对 比

实验 四 :
在 实验二 的基础上 ,
改变水箱参数 ,
修改水箱入水 阀 门 特性 ,
将实际

出 水流量 变 为 原 流量 的 40 % 。
仿真结果如 下 图 4 -

1 4 所示 

n  

 |

  I

 





, - —

- - —  _
_ —
a .



  ̄

/  —
 —




J  ,r





,

/  ,


 


6

S /

蟫 i
/   丨 ;



铤  —

设 定值 \


2

P D + RL

 前 馈 

P D
I

〇
  ̄  —  —

RL 

0  20  40  6 0  80  1 00  1 20  1 40  1 60  1 80  200

时间 7 

图 时 变对 象控制 效 果 对 比 图


4 1 4

从 图 中 可 以看 出 ,
水箱 的特性 改变之后 , 纯强化 学 习 算法鲁棒性 差 的 缺 点 完全

暴露 了 出 来 , 不 仅没 能 完成控制 , 甚至存 在 发散趋势 。 PI D 算法 由 于 在设计 时就考



虑 的 优先鲁 棒性 其 仍 能稳定 的 完成控制 过程 控制 效 果最好 的 是


, 。 PID+ 强化学 习 前

馈控制 器 算法 ,
其不仅使水箱液位达 到 了 设定 目 标 , 并且 保 留 了 强化学 习 算法 的优

化效果 

3 7


华 北 电力 大学硕士 学位 论文

4 . 3 小结

本 章 针对 强 化 学 习 算 法面对 时 变对 象鲁 棒性 差 ,
学 习 速度慢 的 问 题 , 搭建 了 强

化学 习 自 适应 补 偿控 制 系 统 。
首先 , 通 过反 馈控 制 器 分析 环 境 状态 , 输 出 参考控制

动作给智 能体 ,
智 能体 同 时 分析环境状态与 参考控制 动 作进行动 作选择 与 策 略更新 

利用 强化学 习 自 适应补偿控制 系 统 , 能 够 有 效 降 低 强 化 学 习 收敛难度 , 减少 不必要



的 无 效探索 与 危 险探索 ,
从而 提 高 强化 学 习 收敛 的 稳 定 性 , 加 快强化学 习 算法 收敛

速度 仿 真 实验证 明 针对 同 被控对 象 强 化 学 习 前 馈 控 制 器 收敛 需 要 的 迭 代 次


。 , ,

数 少 于 纯强化学 习 过程 , 同 时 强 化 学 习 前 馈控 制 器 将 反 馈 回 路 的 控 制 效 果 提 高 到 了

与 强化 学 习 同 样 的 水平 

反馈控 制 器在提 高强化学 习 算法学 习 效率 的 同 时 , 它 的 存在还保障 了 控制 系 统



的鲁棒性 使得 面对 时 变被 控 对 象 时 强化 学 习 算法拥有 定 的 鲁棒适应性 为强




, , ,

化学习 自 趋优 的 适应新 的 对 象 参数 提供 了 发 挥 空 间 

虽然算 法本身 是无模型 的 , 但 其 搭建及训 练过程 需 要 仿 真 模 型 作 为 训 练环境 



但是 , 当 系 统 的 模型 未知 时 ,
算法无法建立仿真模型进行强化学 习 智 能体 的训 练 

如 果 直 接将 智 能 体置 于 实 际 环 境进 行 训 练 , 智 能体 的 探 索 过程在 大 部 分情 况 下 时 不

允许的 在下 章 将 讨 论如 何在 无模型 的 情 况 下 进行 智 能 体 的 训 练

。 , 

3 8


华北 电力 大学硕士学位论文

第 5 章 无模型强化学 习 自 适应补偿控制 系统

本章 针对 无法建 立仿 真模 型 的 非 线 性 被控对 象过程 控制 , 首 先通过参考 网 络监



督控制 算法 的方式 ,
设计 了 适用 于 前馈结 构 的 网 络监督控制 器算法 。
其利 用 运行数

据 进行 预 学 习 来 建立 快速有 效 的 前 馈控 制 器 ,
再结合强化 学 习 的 更新方式进行优化 

继而设计 了 种 适应 无模 型 情 况 下 的 强化 学 习 算 法结 构 最后 通过仿 真实验验证 了




该方法 的 有 效性 

5 . 1
神 经 网络前馈监督控制 器



偏差e  I

际衡




设定


图 5 1
神 经 网 络前馈监 督控制 系 统结构

在 个运行 的 工业控制 系 统 中 用 个新 的 控制 算法 代 替 原 本 的 控 制 算法是


一 一 

个很谨慎 的行为 种 比 较稳妥 的 方法是让新 的 算法 与 旧 算法使 用 样 的 输入 参 数





起运算 但 新 的 算 法输 出 不 参 与 实 际 系 统控 制 通过观察新算法 的 输 出 量判 断 算


, ,

法是 否 符 合控 制 特性 ,
符合要 求 的 情 况下 再通过跟踪输 出 以及无扰切 换将 新 的控 制

算 法投入 系 统运 行 

在 有模型 的情况 下 通过 建立数学模型 来设计控制 器 能够 从 定 理论上 保 障




, ,

控制 器 的有效 性 ,
但实 际物理环境 中 , 经 常存 在 无法 建立准 确 数学模 型 的 情 况 。


此 针对无模 型情 况 下 无法根据 仿真模 型进 行策 略 网 络 的 训 练 设计 种预学 习




, , ,

方法进 行 神经 网 络控 制 器 的 设计 。
其 设计思路如 下 

3 


华北 电力 大学硕士学位论文

神 经 网 络控 制 器 作 为 前 馈 控 制 器 , 其 作 用 在 于 超 前 采取 动 作 , 因 此将 A M 作为

目 标 值 对 神 经 网 络控 制 器 的 权 值 进 行 监 督 训 练 。 如图 5 -


所示 , 将实 际值 ;

与 偏差

作 为 网 络 输入 前 时 刻 与 当 前 时 刻 的 反 馈控 制 量 差 值 A w 作为 标值对神 经 网


e , 目

络 控 制 器进 行 更 新 , 

E {

)

 \1 2

un {

up

k + up


k (
5 -





^ ^

式中 ,
叩 ⑷ 为线 性控 制 器 的输 出 ,

⑷ 为 网 络控制 器输 出 。 训 练好 的 神 经 网

络 控 制 器 作 为 前 馈控 制 器 参 与 系 统控 制 。 图 中 虚 线 部 分表 示 网 络 有 预 学 习 与 在 线 投

入两种状态 , 在预学习状态中 ,
神经 网 络控制 器 的输 出 值并不参与 控制 即

其 仅 通过 观测 输入输 出 数 据 来进行 网 络权值 的 学 习 , 在 线 投入后 ,




终控 制 量 由 反馈控制 器与 神 经 网 络控 制 器 叠加 后 组成 即 《


)

叩 (
At
)
+ M?


A:

。 由于

神 经 网 络控 制 器 的 投 入会 与 原 本 的 学 习 方 式耦 合 ,
因此 , 

在 线 投 入 状 态 的 网 络 无法

再 使 用 预 学 习 的 方 式 进 行 权值 的 更 新 

5 . 2 无模型强化学 习 自 适应 补偿控制

采用 预 学 习 方式搭 建 的 神 经 网 络前馈监 督控制 器具 有 简 单 易 行 ,


优化控制 的优

点 但其 上 限就是 A w 固 定 带来 的 步超前 效果 并且 没有在 线 学 习 能力 由于




, ,
自 。

上节 所述方法 , 其优化控制 器核 心为神 经 网 络 结构 , 与 强化学习 的策略 网 络结构是



致的 因 此利 用 预 学 习 方 式 得 到 的 神 经 网 络代 替 强化 学 习 通过 仿 真模 型 试错 方 式


得到 的策略 网络 ,
从而 实 现无 仿 真 模 型 的 强 化 学 习 算 法 

由 于原 始 的 强化学 习 算法 , 其评价 网 络 与 策 略 网 络 同 步更新 ,


引 入预学 习 的策

略 网 络后 评价 网 络与 策略 网 络 的 不 致会影 响 算法 的 收敛 为此 在预学 习 的策


, 。 ,

略 网 络 投入 使 用 前 需要 为评价 网 络 的收敛 留 出 定的空间


, 

其最 终算法实现流程如 下 所示 



) 初始化经验池 D ,
容量为 P ; 初始化线性反馈控制 器参数


2) 初始化两 个策略 网 络参数 =
初 始 化 两 个 评 价 网 络 参 数 f 



3 ) 预学习 部分 ,
采集 被 控对 象 历 史 数据 状 态 I控制 器输 出 《 , 重复 以下步骤 

40


华北 电 力 大学硕 士学位论文

从 历 史 数 据 中 随 机采 样 m i n i b e a ch 样本 B 个 

计算 
Am 

 w m 、 0 Ca / 


 0 0s ,
M ,
A m 炉) , 

' r



 ^  + / m ax Q (
^ \
u a p




, ar
g ?
  〇 
  , ,

最 小 化损 失 函 数 -

2_ ;

更 新评价 网 络参数 t

计算 
a=  ;r
0 〇y ,
M , 炉) 

最小 化损 失 函 数
士& > A
^ 更新 策略 网 络参数 l


vw w

每隔 C 步更新 ? 妒 

直至重 复 N 次 

直至重复 M 



) 强化 学 习 部 分 , 重复 以 下步骤 

根据 环境状态 八 计算 m 

 / 〇s ) 、 g =
 %〇 ,
w , 供) 

最终控制 动 作 =
w + a  


执 行 动 作 士 ^ 得 到 奖励 下 状态 , 和 终止 符 计算 m / ^)

『 =



 ( 

记录样本 … 至经验池 D 若 容量不 足 则 从头 覆盖记录


' '

s ,
w ,
a , 
r , 
5 , 
w , , 


当 样 本数大于 定数量 K 训 练开 始

, 

从 经 验 池 中 随 机 采样 m inibeach 样本 B 个 ,
分 别 输入 四 个 网 络 

计算 么 的 卜

w 2 w + X
… m ax a 供

a 、


va /  ,  ,
, ar

? 
 ( a , 

最小 化损 失 函 数 G J 更新评价 网 络参 数 识




最大化价值 函 数 E "
) )
更新策略网 络



参数 0 

每隔 步更新

C 0 ?
炉 沪



< <



直 至 终止 状 态 或重 复 J 

直至重 复 K 


4 


华北 电 力 大学硕士学 位论文

5 . 3 仿真实验

仿真对 象 取上 章 使用 的 水箱 采集 不 同 工 况 中 水箱在 鲁 棒 PID 控制器下 的状




态数据 ,
根据运行数 据 利 用 神 经 网 络反 向 传 播算法 ,
对神 经 网 络控 制 器进行训 练 

得到效果如下 图 5

2 所示 。 在 完全 没有 依赖模 型 的 情况 下 ,
采用 预学 习 方法训 练前

馈 网 络控 制 器 其产生 的超前动作对控制 具 有 定 的 改善 效 果 控制 系 统 的 快速性




, ,

得到 了 提高 

!        




| (




 











/ 

i 


     -
一 …  ̄ … … " " "  "  '  

爸  T
u


I 

t  设定值


i li

^     



1 丨





P D+ 预 学 习 1



P D
1

2  
 1 

 



 ■

  
 

〇


 


 

   |  

0  20  40  60  80  1 00  1 20  1 40  1 60  1 80  200

时间 / 

图 5 2 预学 习 神 经 网 络 前馈控制 效 果

以 预学 习 得 到 的神经 网 络控制 器为基础 ,


将其神经 网 络权值作 为强化学 习

DDPG 算法 中 的 策略 网 络 ,
引 入强化学 习 的 自 学 习 能力 。
其结果如 下 图 5

3 所示 

、J

|  1 00 0 

 J i

g  J



 I
 6

5 00 

|


|

"  '




 ,
 v   i 

  .


 
_


  

5 00 

0  1 0 2 0 3 0 4 0 5 0 6 0

Ep i so d eN u m b e r

图 5 3 累积 奖励训 练曲线

42


华 北 电 力 大学硕 士 学 位论文

每次迭代运行 200s 。
为保证控制 算法 能够应对各种 不 同 工 况 ,
每 次运行 初 始 水

位和 设定 水位条件 都是在 (

1 5

1 5
) 范围 内 随机的 。
训 练结 束 条件 为连续 5 次迭代 奖

励值大于 1 8 00 .
其 训 练过程 如 图 5

3 所示 。 通过 图 5

3 发现 , 在预学习 策略网络后 

再进行 强化学 习 算法 的迭代 ,


训 练过程基 本 维 持很 高 的 正 收益 , 代表偏差 的 时 间 

比很少 。 每次 的奖励低 估都是在 学 习 新 的 工 况 。 基于 预学 习 的 强化学 习 算法 收敛更



加 快速和 稳定 

学习 段时 间后 验证 学 习 效 果 如 下 图 所示 通 过 强化 学 习 算 法更 新 




4 , ,

制 器 的控制 效 果得到 了 优化 , 其 响应速度大大加 快 



      |

( j


 

1 0
 T 



 


- ^ - 

 i ll

\ \ 

_
H 



县


f
if


p 

 设定值


诞 ! f



m

 
D+预学 习


P I

   

2 : 

P D

 I

P D+ 预学习 训 练后


|       

0  2 0  40  6 0  80  1 00  1 20  1 40  1 60  1 80  2 00

时间 / 

图 5 4 不 同 算 法控制 效 果 对 比 图

5 . 4 小结

本章研宄 了 无模型情况下 适应 前馈控制 器 的 设计 问 题 成 功 设计 了 种新的




自 ,

无模型 自 适应强化学 习 自 适应 补偿控制 算法 。


算法结 合 了 网 络监督 学 习 与 前馈反馈

控制 结构 , 解 决 了 强化 学 习 面 对 数据 集外 的 情 况 时 无法 计 算 正 确 控 制 量 的 问 题 。


时 网 络 监 督 学 习 解 决 了 强化学 习 前馈控制 器依赖仿真模 型进 行训 练 的 问 题 ,


实现 了

完全 的 无模 型 控制 算 法 。 最后 , 通过仿真对象证 明 了 算法的有 效性 

43


华北 电 力 大 学硕士 学 位论文

第 6 章 总结与展望

在本章 中 , 对 本文 的 工 作 内 容进 行 总 结 , 包 括对 本 文 提 出 算 法 的 特 性 总 结 , 

其 与 传 统控 制 方法及 智 能控 制 方法 比 较 的 优缺 点 。
再 次对 算 法未来研 究提 出 展望 

6 . 1 本 文 的 主要工作及 贡 献

过程控 制 的 标主要是 稳定性 快速性 准确性 强化 学 习 本质 上 也 是 




目 , , , 。

寻优 的算法 寻优 的 效果 受奖励设置 的 影响 般奖励 的 设置 是 与 误 差 挂 钩 的 




, , ,

此强化学 习 拥有准确 性 , 但 探索 过程 的 随机性 以 及 与 时 间 无 关 的 寻优 目 标 , 导致强 



化 学 习 的 稳 定 性 与 快速 性 不 定满足控制要求



我们 通过 前 馈反馈 的 控 制 结 构 来 降 低 了 环 境 的 控 制 难度 让智能体从 个主控




制 器 的 角 色转 变成 个 前 馈优 化 器 通过仿真实验 证 明 强 化 学 习 前 馈优 化 后 的 控


, ,

制 会优于 原 环境 的 控制 效果 , 并且 , 反 馈 控 制 器 对 强 化 学 习 前 馈控 制 器 的 训 练 学 习

过 程 起示教作 用 ,
大大缩短 了 强化 学 习 的探索 时 间 , 这 意 味着 智 能体 学 习 过程对 环

境 的 负面影响 较小 ,
有着更 高 的 稳定 性和 安全性 

强 化 学 习 的 核 心 思 路 是 根据 环 境 找 到 最 优 的 控 制 方 案 , 初始 的智 能体 A g en t


机性强 , 不知道正确 的控制方 向 。 工 业控制 系 统 的 算法首 先追求 的 是 稳 定 性 , 即面



对不 同 的环境 控制 器都会做 出 正 确 的控制 动 作 不 定是最优 的 但 定 是方 向





, , ,

正确 的 。 通 过 引 入 反馈控 制 器 , 可 以 大大 减少 强化 学 习 试错成本 , 反馈控 制 器 的 控



制 作 用 可 以 防止 强化学 习 探索过程 中 的 模型超界 , 比如机器人摔倒 , 水箱水位溢 出 



综上所述 ,
将反馈控 制 与 强化 学 习 结 合提 出 的 方法主 要 有 以 下 优 点 

1 .
通用 性 强 ,
强化学 习 前馈优化器可 以 外挂 在 控制 回 路上 , 无 需 改变原控制 回

路 作为 种 辅 助 优化控 制 器 实现改善控制 效 果 的 功 能

, ,


2 .
收敛 速度 快 , 稳定 , 相 同 参 数 的 强化学 习 控制 器 ,
有反馈控制 的 收敛 只 需要

约 纯 强 化学 习 收 敛所 需 迭代 次数 的 1 / 4 ; 并且 反馈控制 器 的 存在使得强化学 习 的 寻

优过程 带有方 向 ,
使得 强化 学 习 训 练过程更 加 稳 定 

3 .

抗干 扰 能力 强 智 能 体模 型 为 神 经 网 络 结 构 将 扰动 变 量 作 为输入 给 智 能 体
, , 

44


华北 电力 大学硕 士学位论文

可 以 让 智 能 体 有 效 学 习 抗干扰策 略 ; 实现 复杂 工业 系 统 的 智 能 自 主 控 制 技 术 。 同时 

本 文提 出 的 算 法是 基 于 误差 的 控 制 算 法 , 对未知 扰动 也有抑 制 作 用 

4 .

鲁棒性强 , 面对参数 时 变对 象 , 未 建 模特 性 会 让 独 立 的 强 化 学 习 算 法 失 效 

但反馈控 制 器 的 存在 克 服 了 这 缺点 使强化学 习 适应 补 偿控 制 系 统拥 有 鲁 棒性

, 自 

5 .
不基于模型 的 自 适应 控 制 算 法 , 自 适应 自 趋 优 的 过 程 不 依赖 模 型 的 辨 识 , 

是 直 接 根据 输 入 输 出 数 据 更 新 控 制 器 , 这个过程是连 续 的 , 收敛 的 , 克服 了 自 适应

控制 中 更新控制 器参 数产 生 的控制 量扰动 问 题 



6 2

问题与展望

目 前 的 论文研 究仍有很 多 不 足和 值得 改进之处 , 反馈 回 路 的 设 计 与 强化学 习 参



数 的选择仍 需深入 的 研 究 。
对于 不 同 的对 象 ,
本文提 出 的框架 的 有 效性仍 需理论或

实验验 证 。 对 象 的 不 同 特 性对框架 的 影 响 仍 需进行研 究 。 本文 的核 心 思想是强化学



习 算 法 结 合 前 馈反馈控 制 结 构 得 到 的 强化 学 习 自 适应 补 偿 控 制 算 法 。 其发挥 了 强化

学习 自 学习 ,
自 适应 ,
自 趋优 的 优 点 的 同 时 , 利 用 前馈反馈控 制 结 构 解 决 强化 学 习

的 鲁棒性 问 题 为 强化 学 习 算法在 工 程应 用 提 供 个思路


, 

根据 理论 分析 与 仿 真实验 的验证 , 强化 学 习 输 出 层 的 缩 放系 数 是影 响 强 化学 习

适应 补偿 控 制 系 统控 制 效 果 与 收 敛 性 的 个 重要参 数 缩 放系 数 小 则 强化学 习 优


自 ,

化效果较弱 , 但收敛波动 小 , 缩放系 数大 则 优化 效果好 但 收敛过程波动 大 , , 因此 



类似神 经 网 络在 训 练过程 中 采用 变学 习 率 的 方 式 ,
强 化 学 习 前 馈控 制 器 的 缩 放 系 数

在 训 练过程 中 也可 以 是变化 的 。 在训练 的初期 ,


采用 较 小 的 缩放 系 数 , 稳定 柔和 的

训练 然后 增 加缩放 系数 再次训 练 段时 间后 交 替 重复训 练与 修 改缩放系数 的




, , ,

过程 ,
最终达 到优化效果 的极 限 

通过变缩 放 系 数 的 学 习 方法 , 可 以 将 学 习 初期探索对环境的 影 响 降 到 最 小 ,


有 利 于 嵌入 式 强化 学 习 前馈控 制 器在 真 实物 理世 界 的 使用 

强化学 习 在面对存在迟滞 的 被控对象 问 题 时 , 迟滞 的 存在会导 致环境与 动 作 不



匹配 , 从而 导 致经验池存储 的 经 验 是过 时 的 无 效 的 经 验 。 最终导致强化学 习 算法无



法正 确评价 身试错 行为的好坏 系 列 的 行 为误判 会 导 致强化 学 习 无法 收敛


自 , 

45


华北 电 力 大学硕士学位论文

经 典 控 制 算 法 中 也 存 在 类似 的 问 题 , 内 模 控 制 算 法在 应 对 纯 滞 后 系 统 时 , 会设

计 史密 斯预估 器 其通过 引 入 个和 被控对 象 并联 的 补偿环节对滞后 进行 削 弱 和 消




除 ,
将控 制 通道传 递 函 数 中 的 纯滞 后 部 分与 其 他 部 分 分 离 。
史密斯预估器相 当 于预

先估计 出 系 统在给定 信 号 下 的 动 态特 性 , 使控 制 器提前 动 作 , 从而加 速调 节过程 



分析史密斯 预估器 的 特 点 , 将 纯滞 后 部 分 分 离 从而得 到 估 计 的 动 态 特 性 , 相当



于 为控 制 器 提 供 环 境 的 先 验 知 识 。
参考 这种 思 路 , 在 强化 学 习 过程 中 添加 类似 史 密

斯预估器 的 环节 , 为智 能体提供环境 的 先验知 识 , 从而 实现迟滞 非 线 性 系 统 的 优化



控制 

另 个 思 路是建立 虚 拟模 型 根据 被控对 象 的 输入输 出 数据 利用 神经 网络建




, ,

立被控对 象 的 虚拟模 型 ,
利用 虚拟模型 作 为仿真模型进行强化学 习 的 训 练 , 最后 将

训 练好 的强化学 习 前馈控制 器投入使用 



本 文 提 出 的 方 法 是 使 用 前 馈 反 馈控 制 系 统 的 结 构 进 行 强 化 学 习 算 法 的 使 用 , 

种 方法 能为 强化学 习 带来 收敛帮助 , 但 强化学 习 作 为辅助优化器是否 发 挥 了 自 身全



部 的潜力 呢 本文最后 的 个 展 望 就 是 希 望 强 化 学 习 能 够 自 主 实 现控 制 为此 


一 一

。 ,

思 路就是将优化后 的 自 适应 补 偿控 制 动 作进 行 监 督学 习 建立 新 的 神 经 网 络控制 器 

并 以 此 控 制 器 建立新 的 强 化 学 习 算法 达到 种 算 法迁移 的 效 果 迁移之后 的 控制




, 。

器更新 由 强化 学 习 独立完成 ,
将会完 全 发挥 强化 学 习 自 身 的优势 

以 上是本 人猜想 的 研 宄方 向 , 希望对本文提 出 的 强化学 习 框架感兴趣 的 人与 我



共 同 深入研 宄 

46


华北 电力 大学硕士学位论文

参考文献

M o h s s e n M o h a m m e d  a nd  M uh a mm a d  B a d r



 J
a dd i n K h a n ,  M ach i n e  L e ar ni n g


A l
g o r i t hm s  a n d  App li c at i on s i n 5 
C R C  p r e s s  Ta y l o r  an d  F r an c i s  G r o up , 
20 1 7 


2] 徐洪学 孙 万 有 杜 英 魁 汪 安祺 机器 学 习 经 典算 法 及其 应 用 研究 综 述
, , ,





电脑知识

与 技术 ,
2 02 0 ,
1 6(3 3 ) : 1 7 -

1 9 



] 刘畅 ?
电 站 设 备 辅 机 状 态 监测 与 故 障诊 断 [
D ]

华北 电 力 大 学 北京 ( ) ,
20 1 7 


4] 王 文 庆 人 工 智 能 在 汽车 自 动 驾 驶 中 的 应 用 .





时代农机 ,
20 1 9 46 (09,

: 28 -

29 




Rao D   
. L e v e r ag i n g hi i m an 
 D oma i n  Kn o w l e d g e  t o  m o d e l  an  e m p i r i c a l  R e w ar d  fun c t i o n

fo r  a  Re i n fo rc e m e n t  L e a r n i n g p r o b e m [ J ] 
l , 2 0 1 9 



] 刘 吉绩 智 能发 电 . :
第 四 次工业革命 的 大 趋势 [
N ]

中 国 能 源报 ,
20 1 6 -

07 25

 -



] 刘 吉 臻 胡 勇 曾 德 良 夏 明 崔 青 汝 智 能 发 电 厂 的 架构 及 特征
, , , ,





中 国 电机工程学

报 ,
20 1 7,3 7 22
( )
: 64 63

6 4 7 0+ 6 7 5 8 



] 柴 天佑 工业 人工 智 能 发 展 方 向 .





自 动化学报 ,
2 020 46 , (
1 0

: 2005 -

20 1 2 


9] Jor
g e
N o c e da l
§
.  O pt i m i z at i o n  M e t h o d s  fo r  L a r g e S c a l e  M a c h i n e  L e a r n i n g  [ J ]  S I AM

 -

Rev i ew , 
20 1 6 , 
60

2) 


1 0] 徐洪 学 孙 万 有 杜 英 魁 汪 安 祺 机器 学 习 经 典算 法 及其 应 用 研究综述
, , ,





电脑 知

识与技术 ,
2 02 0 ,
1 6(3 3 ) : 1 7

1 9 


1l

A ru l kum ar a n  K  5 
De i s e nr o t h M  P   B r un d a g e  M 
? , 
et al .  D e ep R e 
i nfo r c e m e n t  L e a r n n
g i 

A Br i e f S urv e 
y [J] _ I E E E  S gn a i l  P r o c e s s n gM a g az n e
i i

20 1 7 , 
34



: 26

3 8 


1 2] 陈圣磊 .
强化学 习 及其 在 MA S 协 同 概念设计 中 应 用 的 研究 [
D ]

南 京理工大

学 ,
2006 


1 3

T h e o ry  o f n e u r a  l

a n a l o g  r e n fo r c e m e n t  s y s t e m s  a n d  i t s  ap p
i l i c at i o n  t o  t h e  b r ai n m o d e



em
pro b l 

4] B e m anRE  D y n am cP r o
gr am m n g [ M ] Pri n c et o nU n v e r s t
yP r e s s Pr nc eto n NJ
1 l l i i i i i
 
. .

[ , , 

1 95 7 


1 5

Be l l m a nR E .  A  M a rk o v  d e c i s i o np r o c e s s [



J o u r
n alo f Ma t h e m at c a  M e c h  i l

1 957 

47


华北 电 力 大 学硕 士 学位 论 文

6 67 9 6 84
: 


1 6 ] B art o  A G 
? S u
tt o n R  S ? 
A n d e r s o n  C  W N e ur o n .  l i kee l e m e n t s  t h at  c a n  s o l v e  d i f f i c u l t

l e arn i n g c o n tr ol  p r ob l em s [J] . I E E E Tr a n s a c t  i o n s  o n S y st e m s , 
M an , 
an d  C yb e r
net i c s ,

9 8 3 1 3 835 846

1 : 


1 7 ] S ut o n  RS ,  L e ar n i n g  t o
 p r e d i c t  b y  t h e  m e th o d  o f  te mp o r a l  d i fe r e n c e s [ J ] .  Mach i ne

L e ar
ni n g ,  1 988 , 
3 : 9 -

44 


1 8

Wa t k i n s  C  J  C  H  L e a r n i n g  f r o m  D e l a y e d R e w a r d s [ D ]  P h  D  t h e s i s  C a m b r
. i dg e

 .

Un i v e r s i ty ,
C am b r i dge , 
Eng l a nd , 
1 989 


1 9 ] T h o m a s  P h i l i p  S  B r un s k i l l  E mm a  P o l i c y  G r a d i e n t 
, ? ,
. Me t h o d s  fo r  R e i n fo r c e m e n t

L e arni n g w 
i t h  F un c t i o n  App r o x i m at i o n  an d  A ct i on -

D ep e n d e n B a s e t li ne s [ J] , 
2000 


2 0] 杨文乐 .
基于 强 化学 习 的 倒立摆控制 算法研究 [
D ]

西 安理工 大 学 ,
20 1 9 


2 1
] 詹亮 .
深 度 学 习 在 强 化 学 习 中 的 应 用 研究 [
D ]



2 2 ] H as s an i en  A  B h at n a g a r  R  D a r w



i sh A .

 (
e ds
)  A d v a n c e d M a c h n e  L e a r n n g

 i i

Te c h n o l o g i e s  a nd  A pp l i c at i o n s .  A M LTA  2 0 2 0  A d v a n c e s  . i n  I nt e l l i g e n t  S y s t e m s  a n d

C o mp u t i n g , 
v o l1 1 4 1 , S
p r nge r

, 
S i n g ap o r e 


23] L i Y .  D e ep Re 
i nfo r c e m e n t  L e a r n i n g :  An O v e rv  i ew



,  20 1 7 


24 ] V Mn . i h  K  K a vu k c u o g u  D  S

. l

. i l v e r  e t  a l  P a y i n g  at a r  w

. l i i t h  d e e p  r e i n fo r c e m e n t

l e arn i n g  [
ar  X i v] 


25

V  Mn . i h  K  K a vuk c u o g u  D

. l

. S i l v er ,  e  a  H um a n
t l .

l eve l  c o ntr o  thr o u g h  d e ep




r e i n fo r c e m e n t  l e a m i n
g [J] .  Na t ur e , 
20 1 5 5,
1 8

7 540

: 5 29 -

53 3


2 6 ] v an H as s e l t
, 
etal .  D e ep R e 
i n fo r c e m e n t  L e a r n i n g  w i t hD o ub l e Q

l e am i n
g [J] .  ar X i ve 

pr nts i
, 2 0 1 5 1 5 0 9 ,
. 0 64 6 1 


2 7] Wa n g  Z  S c h a u  T  H e s s e  M  e  a L  D u e





t l i n g  N e t w o r k A r c h i t e c t u r e s  fo r  D e e p

Re i n fo r c e m e n t  L e a r n n g [ J ] i . 2 0 1 5 


28 ]
T P L . .  i l l i c r ap , 
J J  ,
. H un t
, 
A .  Pr i t ze l
,  e ta l .  C o nt n u o us i  c o ntr o l  w i t h  d e e p  r e n fo r c e m e n t

l e a rn

i n g arX v ] [
i .  h ttp s : // a rx v o r g / a b s / i . 1 5 09 . 0297 1

20 1 


29

R M TU n I i ve rs i t
y ;  A t a r m a s t e r 
i : N ew A  l s m a s h e s Go o g l e D eepM i n d  n  v d e o  g am e
i 
 i

48


华北 电力 大学硕 士 学位 论文

c h al l e n
ge [ J] .  N ews Rx He a  l t h &  S c i en c e 2 0 ?
1 9 79 :

83 


3 0

Z hu  H ,
G up t aA ,
R aj e s w a r a n  A ,
et al .  D e x t e r o u s  M an p u i l i i  D e ep
a t i o nw i t 

Re i n fo r c e m e n t  L e a r n i n g :  Ef
ic i ent , 
G ener a l
, 
an d  L o w

C o st [


.  20 1 8 


3  l

Ji e Z , 
L i an g  X 5
F en g 
J , 
et  al .  Tr e e S t r u c t u r e d R e nfo r c e m e n t L e ar n n g

 i  i

fo r  S e q u e n t i a l

O bj e c t L o c a  li z at i o n [ J ] .  20 1 7 


32
]
S .  E l

Ta nt a w y B A b d u h a , 
.  l i an d  H Ab d e .  l
g aw
ad , 
Mu l ti ag ent  Re i nfo r c e m e n t  L e ar n n g

 i

fo r  I n t e d  N e t w o r k o f  A d a t i v e  T r a f
i c  S i g n a l  C o n t r o l l e r s  ( MA R L I N AT S C )
gr a e


p 


M et h o d o l o gy  an d  L arg e -

S c a l e  A p p l i c a t i o n o n D o wn to wn  To r o n t o ,
 i nI E E E

Tr a n s a c t o n s o n i   I n t e l l i g e n t T r a n s p o r t at i o n  S y s t e m s


vo l . 1 4 , 
no . 3
,  pp . 1 1 40 -

1 1 5 0 , 
Se
pt 

20 1 3 5 
d o i 1 0 : . 1 1 0 9 /T I T S 2 0 . 1 3 . 22 5 52 8 6 


3 3

S hal ev -

S hw ar t z  S h a i  S h a k e d  S h a mm a h  a n d 
, , ,
A mn o n  S h a s h u a .  S a fe ^  M u l t i -

A g en t



Re i n fo r c e m e n t  L e a r n i n g  fo r  A ut o n o m o u s D r  i vi ng .  ar X i v  p r e p r i nt  ar X i v : l 6 1 0 03 295

.

20 1 6 

( )


3 4] 张 汝波 , 顾国昌 , 刘照德 等 ,

强化学 习 理论 、 算法及应用 [



控制 理 论 与 应 用 

2 0 0 0 1 7 5 

( ) ,


3 5
] 杨瑞 ?

多 步 强 化 学 习 算法 的 理 论 研 究 D [ ]
. 2 0 1 8 


3 6
] 徐娟 .
基 于 强 化 学 习 的 动 作 控制 与 决 策研究 [
D ]



3 7
] 刘全 , 翟 建伟 , 章宗 长 等 深度 强化学 习 综述 简 ,





计算机学报 ,
2〇 1 8



: 1
_

27 


3 8
] 喻杉 .
基于 深 度 环 境理解 和 行 为 模仿 的 强 化 学 习 智 能 体设 计 [
D ]

浙江大学 ,
20 1 9 


3 9

B o st ro m N S up er . i nte l l i
genc e [ J] .  C o m p ut e r  S c i e nc e ,2 0 1 6 


4 0] C ar o s  C  l
, 
J av i e r  R D   S , 
J en s K  .  A  fa s t h y b r i d  r e i n fo r c e m e n t  l e a r n i n g fr a m e w o r k  w i t h
 
 

h u m a n  c o r r e c t i v e  fe e d b a c k [ J ] .  Au t o no m o u sR o b o t s , 
20 1 8 


4 1

L i l l i c r ap T P , H un tJJ
, Pr i t z e l  A   et  a l  C ,
. O N T I NU O U S  C O N T R O L W T H  D E E P

  I

RE IN F O R C E M EN 丁 L E A RN N G  I : 


42] 赵冬斌 邵坤 朱 圆 恒 李栋 陈亚冉 王海涛 刘 德荣 周 彤 王成红 深度 强化学
, , , , , , , ,

习 

述 兼论计算机 围 棋 的 发 展




控制 理论 与 应 用 ,
20 1 6 3 3 , (
06) : 70 1

7 1 7 


43] 万 里 鹏 兰 旭光 张 翰博 郑 南 宁 深 度 强 化 学 习 理论 及 其 应 用 综述






模 式识别 与


4 9


华北 电 力 大学硕 士学 位 论 文

人 工智 能 ,
20 1 9 3 2(0 ,


: 67 -

8 1 

44 ] 傅启 明 刘 全 王辉 等 种基于线性 函 数逼近 的 离 策略 X) 算法 计算机




[ , , ,

Q ( [


学报 ,
20 1 4 (3 ) 6 7 7 :

686 


4 5 ] AH M ,
B F L L ,
A NS .  Int e
g r a l  r e i n fo r c e
m e n t  l e ar n i n g  a n d  e x p e r i e n c e  r e p l ay  fo r

a d ap t i v e  o p t i m a l  c o n t r o  o f  p art a l l y un k n o wn  c o n s t r a i n e d np u t  c o n t i n u o u s me


- -

ti

l i i

S c i e nc eD i r e c t [ J] Au m at i c a 20 4 2 02
y st e m s  to 5 0 93
- -

s  . 


 (
1 :  1 


, ,


4 6] 杨旭东 , 刘全 , 李瑾 .

种 基于 资格迹的 并行强化学 习 算法 [



苏州 大学学报

( 自 然科学版 ) ,
20 1 2 , 
28(00 1

: 26 -

3 3 

4 7 ] Yu a n  J   L a m p e r s k i  A   O n l i n e  c o n t r o l  b a s i s  s e l e c t i o n  b y  a  r e g u l ar i z e d  a c t o r  c r i t i c 


[ 5

a l g o r i t hm [ C ] //  20 1 7  Am e r i c a n  C o n t r o l  C o n fe r e n c e
(
AC C )
. I EEE , 
20 1 7 


4 8] 吕 萍丽 .

基于值 函 数 估计偏 差修正 的 强化 学 习 方 法研 究 [


D ]



4 9] 赵 星 宇 丁 世 飞 深 度 强 化 学 习 研究综 述 ,





计算机科 学 ,
20 1 8 45, (
07

: l

6 


50
]
K o b er J
5
B ag n e l l J A 5
P etersJ .  Re i n fo r c e m e n t  L e a r n i n g  i n  R o b o t i c s :  A  S ur v e y [ J ] 

I n at i o n a l  J o u r
nt e r na l o f  Robo ti c s  R e s e ar c h , 
20 1 3 


5 1

Wan g  W   L 5
i  R ? C h en Y 5 e
t  al .  F a c i l i t at i n
g H um an R o b o t  C o -

ll ab o r a t i v e  Ta s k s  b y

Te a c h n g L e a m n g C o


l l a b o r at i o n  Fr o m  H um a n D e m o n s  tr at i o n s [ J ] . I E E E Tr a n s a c t o n s

 i

on  A ut o m a t i o ne nc e &  E n g ne er n g 2 0 i i
, 
1 9 , 
P P (2 ) : 640

653 


52

H us s e i nA  ? 
G ab e r M  M  
,  E l y an  E ?  e t  a l  I m i t at i
. o n  L e arn i n g :  A  S urv ey  o f L e ar n  i ng

Me t ho d s [ J] .  A C M C o mp u  ti n g  S urv e y s , 
20 1 7 , 
5 0(2) 


53
] 李浩 基 于 学 习 人 类 控 制 策 略 的 多 自 由 度 机械 臂 运 动 规划 的 方 法研 究


D ]
.  2 02 0 


5 4 ] R i c h ar d ,  S  S ut t o n 

. I n t r o du c t i o n : T h e  C h a l l en
g e  o f  R e n fo r c e m e n  L e a r n i n g [ J ]
t i



M ach i n e  L e arn ng i
, 
1 992 


5 5

M it c h e l l  T M M ac h .  i n e  L e arn i n g [ M ] ,  M c G r aw H -

i l l
, 
2003 


5 6
] 周 志华 ?
机器学 习 : 

 M ach i ne l e am i n
g [
M ]

清华大 学 出 版社 ,
20 1 6 


5 7

陈学松 杨宜民 强化学 ,

习 研究综述 [



计算机应用 研究 ,
20 1 0 27(08) 28 34




2 8 3 8 +2 8 44 


5 8
] 高阳 , 陈世 福 ,
陆鑫 ?

强 化 学 习 研 究 综述 [



自 动化学报 ,
2 004 ,
3 0

00 1

: 86

1 00 

50


华 北 电 力 大学 硕 士 学位论 文

攻读硕 士 学 位期 间 发 表 的 论文及其 它 成果

发表 的 学术论文





] M a  Y lm n g P


i n g  B o y u L i u  G o n g q i n g L i a o  Yo n g w e n Z e n g  D e l i a n g
, , ’
.  F e e d fo r w ar d

F e e d b ac k C o ntr o l B a s e d on D Q N A [ ]

东北大学 、 中国 自 动化学会信 息物理系 统


控制 与 决策专业委 员 会 第 . 32 届 中 国 控 制 与 决 策会 议 论 文 集 (
3 )
[ C ] .
东 北大 学 

中 国 自 动 化 学 会 信 息 物 理 系 统控 制 与 决 策 专 业 委 员 会 : 《 控制 与 决策 》 编辑


部 ,
2 02 0 5: 

5 


华 北 电 力 大 学硕 士 学 位 论 文

致 

衷 心 感 谢 导 师 曾 德 良 教授对 本 人 的 精 心 指 导 。
本科学 习 阶段 , 曾 德 良 教授 作 为


我所 在 本 科 班 级 的 班 主 任 对 待 我 们 尽 心 尽 责 不 仅 在 学 习 上 督 促 我 们 要 不 断 进 取
, , 

还在 生 活上 给 予 了 我们 很 多 帮 助 。 曾 老师 严谨 负 责 的 工 作 , 和 蔼 亲切 的 性格吸 引 了

我 , 因 此我得 到 保研 资 格 之后 很快 就 找 到 了 曾 老 师 , 并幸运 的 成为 了 他的 学生 。 


究生 阶段 , 曾 老 师 给予 了 我细 心 的 研 究指 导 , 帮 助 我 实现从本科生到 研 究生 的 良好


过渡 , 对我整个 研究生 过程都起到 了 重要作 用 。 学 位论文方 面 , 曾 老师尊 重 了 我 的


意愿 , 让我 能够研宄 自 己感 兴趣 的 科研方 向 ,
并 以 此作为毕业论文 内 容 。
从论 文 的

开 题 到 最终 完成 ,
曾 老 师 多 次 为 我解 答 疑 问 , 并 经 常对我 的 工作表示鼓励 

同时 , 感谢胡 勇 老师 , 以及实验室 同 窗们 的 帮助和支持 。 胡 勇 老师经 常 带领我




们 进行 实验 室 的 项 目 工作 , 并带着 我去 过许 多 电 厂 参与 实 际 项 目 , 大大增加 了 我 的

视界 。 感谢我 的 师 兄高耀 趋 博 士后 , 在我刚 成为研 究生 的 时候 ,


为我解决 了 许 多 研


宄工作 上 的 基础 问 题 。 感 谢我 的 同 年 同 窗 廖 拥 文 他 与 我本 科 阶段就 是 同 学 兼 舍友, 

研 宄生 更 是 起保研进入 同 师门 并 且 我们 的 研 究 方 向 相 似 在平 时 的 研究学 习


一 一

, ,

工作 中 , 我们之 间 经常交流 , 互帮 互助 , 收益颇 多 



最后 感谢我 的 父母 , 在 家庭经济有 限 的 情 况 下 , 坚定 的支持我不 断提升 自 己的



学历 , 让我全 身 心 的 专注于 自 己 的 学业之 中 



52

You might also like