基于强化学习的前馈控制器马一鸣

硕士学位论文


基于强化学习的自馈ｔ
ｅ制裔

 １
Ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎｇ  ｆｅｅｄｆｏｒｗａｒｄ  ｃｏｎｔｒｏｌｌｅｒ


马一


鸣
２０２１年６ 

月
国内图书分类号：ＴＰ〗８
 学校代码
１：１００７９


国际图书分类号：６８１．５  密级公开 
 ：
硕士学位论文


基于强化学习的前馈控制器


硕士研究生马 

鸣
一
导 师：
曾德良教授


申请学位：工学硕士


学 科：
控制科学与工程


专 业：
控制理论与控制工程


所在学院：
控制与计算机工程学院


答辩日期：２０２１年６ 

月
授予学位单位：
华北电力大学


Ｃｌａｓｓｉｆｉｅｄ  Ｉｎｄｅｘ：  ＴＰ１８ 

１
ＵＤＣ
．．： ６８１． 

５
Ｔｈｅｓｉｓ  ｆｏｒ  ｔｈｅ  Ｍａｓｔｅｒ Ｄｅｇｒｅｅ


Ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎ
ｇ  ｆｅｅｄｆｏｒｗａｒｄ  ｃｏｎｔｒｏｌｌｅｒ


Ｃａｎｄｄａｔｅ
ｉ：
 ＭａＹＭｉｉｎｇ


Ｓｕｐｅｒｖｉｓｏｒ：  Ｐｒｏｆ  Ｚｅｎｇ Ｄｅ
．ｌｉａｎｇ


Ａｃａｄｅｍｉｃ ＤｅｇｒｅｅＡｐｐ  ｌｉｅｄ  ｆｏｒ： Ｍａｓｔｅｒ ｏｆ  Ｅｎｇｎｅｅｒｎｇ
ｉ

 ｉ
Ｓｐｅｃｉａｌｉｔｙ：  Ｃｏｎｔｒｏｌ  Ｓｃｉｅｎｃｅ  ａｎｄ  Ｅｎｇｉｎｅｅｒｉｎｇ


Ｓｃｈｏｏｌ：  Ｓｃｈｏｏｌ  ｏｆ Ｃｏｎｔｒｏｌ  ａｎｄ  Ｃｏｍｐｕｔｅｒ


Ｅｎｇｉｎｅｅｒ
ｉｎ 

ｇ
Ｄａｔｅ  ｏｆＤｅｆｅｎｃｅ  ：
 Ｊｕｎｅ， 
２０２ 

１
ＤｅｇｒｅｅＣｏｎｆｅｒｒ－
ｉｎｇ－
Ｉｎｓｔｉｔｕｔｉｏｎ：  Ｎｏｒ
ｔｈＣｈ  ｉｎａ  Ｅｅｃｔｒｉｃ  Ｐｏｗｅｒ  Ｕｎｉｖｅｒｓｉｔｙ
ｌ


华北电力大学硕士学位论文原创性声明


本人郑重声明：
此处所提交的硕士学位论文《基于强化学习的前馈控制器》， 

是
本人在导师指导下，在华北电力大学攻读硕士学位期间独立进行研究工作所取得的


成果据本人所知论文中除已注明部分外不包含他人已发表或撰写过的研究成果
。
，


。
对本文的研究工作做出重要贡献的个人和集体，均已在文中以明确方式注明。本声



明的法律结果将完全由本人承担 

。
作者签名：
３
－
嘧 日期：２。幻年月〕 

日
华北电力大学硕士学位论文使用授权书


《基于强化学习的前馈控制器》系本人在华北电力大学攻读硕士学位期间在导


师指导下完成的硕士学位论文。本论文的研究成果归华北电力大学所有，
本论文的


研究内容不得以其它单位的名义发表。本人完全了解华北电力大学关于保存、使用


学位论文的规定，同意学校保留并向有关部门送交论文的复印件和电子版本，

允许


论文被查阅和借阅，学校可以为存在馆际合作关系的兄弟高校用户提供文献传递服


务和交换服务。本人授权华北电力大学，可以采用影印、缩印或其他复制手段保存


论文，可以公布论文的全部或部分内容 

。
“ ”
本学位论文属于请在以上相应方框内打（
Ｖ）


：
保密□ ，在 年解密后适用本授权书


不保密


作者签名：
马
－
吃 日期：
＞２丨
年ｄ月３ 

日
导师签名：
日期：＞０２／年＜月 
■
＾ 

日
＾
华北电力大学硕士学位论文


摘要


当前的工业过程控制系统中，线性控制器仍占绝大部分。然而真实的工业系统



都是非线性的，工况切换，设备老化等等实际工业问题都对传统控制器带来挑战 

。
研究更加智能的，具有自学习能力的控制算法具有重要意义。
随着机器学习算法的


不断发展，以深度学习、机器学习为基础的强化学习算法使得非线性系统自适应控



制出现了新的研宄方向 

。
强化学习是具有自我决策能力的控制算法，通过探索与试错拥有类似人类的学


习能力，通过学习不断改善自身策略，
具有优秀的环境自适应能力。
好比工厂培训


新工人样强化学习算法在具有优秀控制能力之前需要个长时间的复杂的训


一一
，，
练过程，虽然拥有自适应的能力，
但学习过渡的过程中存在为控制系统带来负面影


响的可能。同时，当被控对象具有时变特性的时候，纯强化学习算法的学习过渡过


程会为算法带来鲁棒性问题。针对强化学习用于过程控制时的训练时间较长，过渡


性较差问题，
本文提出了基于强化学习的自适应补偿控制算法，讨论了其在非线性


系统过程控制中的应用问题。
本文的主要工作如下 

：
首先，针对典型非线性系统，
设计强化学习算法控制方案，研宄不同深度强化


学习算法在非线性系统优化控制中的表现，证明强化学习算法的有效性，同时引出


其存在的问题 

。
再次，研宄利用前馈结构降低强化学习训练难度。通过前馈反馈结构，将强化



学习作为外挂优化器，
保留原过程控制系统的反馈回路。
从而将控制问题简化为优


化问题，加快强化学习收敛速度，通过与传统的强化学习方法对比，设计仿真实验


证明该方法的优越性。
同时，
考虑过程控制中存在的时变特性问题，
传统的强化学


习算法会存在适应新对象的过渡问题针对这问题本文所述方法中反馈回路的


一
。，
存在会提高控制系统的鲁棒性，
同样设计仿真实验验证时变对象本方法的有效性 

。
接着，
考虑复杂的过程控制系统大多很难建立精确的仿真模型用于强化学习算


法的训练提出了种基于网络监督控制的强化学习算法利用网络监督控制方法
一
，。 

，
根据过程运行历史数据来求解基础的策略网络，结合强化学习方法对策略网络进行


后续的优化，并通过仿真实验验证了该方法的有效性。
最后，对全文内容进行总结


并提出了本文所述方法仍存在的问题及未来研究的前景 

。
关键词：
深度学习；
强化学习；前馈；自适应；非线性系统；
优化控制




１


Ａｂｓｔｒａｃｔ
Ｉｎ ｔｈｅ  ｃｕｒｒｅｎｔ  ｎｄｕｓｔｒａｉｉｌ
ｐｒｏｃｅｓｓｃｏｎ
ｔｒｏｌ ｓ
ｙｓｔｅｍ 
ｌｉｎｅａｒｃｏｎｔｒｏｌｌｅｒｓｓｔｉｌｌ ａｃｃｏｕｎｔ  ｆｏｒ  ｔｈｅ


 ，
ｖａｓｔ  ｍａｊｏｒｉｔ
ｙ．  Ｈｏｗｅｖｅｒ， 
ｔｈｅａｃｔｕａｌ ｉｎｄｕｓｔｒａｉｌ ｓ
ｙｓｔｅｍｓａｒｅｍｏｓｔｙｎｏｎｌｌｉｎｅａｒ， ａｎｄ  ｔｈｅ  ａｃｔｕａ 

ｌ
ｉｎｄｕｓｔｒａｉｌ
ｐｒｏｂｌｅｍｓｓｕｃｈ ａｓｓｗｉｔｃｈｉｎ
ｇｃｏｎｄ
ｉｔｉｏｎｓ， ｅｑｕｉ
ｐ
ｍｅｎｔ ａｇｎｇ ａｎｄ ｓｏ ｏｎ ａｒｅ

 ｉ
ｃｈａｌｌｅｎ
ｇｉｎｇ ｔｏｔｈｅｔｒａｄｉｔｏｎａｉｌ ｃｏｎｔｒｏｌｅｒｓｌ． Ｉｔｉｓｏｆ
 ｇｒｅａｔｓｉｇｎ
ｉｆｉｃａｎｃｅｔｏｓｔｕｄ
ｙｍｏｒｅ ｎｔｅｉｌｌｉ
ｇｅｎｔ


ａｎｄａｄａ
ｐ
ｔｉｖｅｃｏｎｔｒｏｌ ａｌ
ｇｏｒ
ｉｔｈｍｓ．  Ｗｉｔｈｔｈｅｄｅｖｅｏｐｍｅｎｔ ｏｆｍａｃｈｉｎｅ ｌ  ｌｅａｒｎｉｎ
ｇａｇｏｒ
ｌｉｔｈｍ， 
ｔｈｅ


ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎｇａｇｏｒｌｉｔｈｍｂａｓｅｄ ｏｎｄｅｅｐ ｌｅａｒｎｉｎ

ｇａｎｄｍａｃｈｉｎｅ ｌｅａｒｎｉｎｇｍａｋｅｓｔｈｅ


ａｄａｔｉｖｅｃｏｎｔｒｏ ｏｆｎｏｎｎｅａｒｓｙｓｔｅｍ  ａｐｐｅａｒａｎｅｗ ｒｅｓｅａｒｃｈｄｉｒｅｃｔｉｏｎ

ｐ
ｌ  ｌｉ 

．
Ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎｇ ｉｓａｃｏｎｔｒｏｌ ａｌ
ｇｏｒｉｔｈｍｗｉｔｈｓｅｆｄｅｃｌ
－
ｉｓｉｏｎ ａｂｉｌｉｔ
ｙ． Ｉｔ ｈａｓｓｍｉｉｌａｒ


ｈｕｍａｎ ｅａｒｎｎｇａｂｌｉｉｌｉｔ
ｙ  ｔｈｒｏｕｇｈ  ｅｘｐｏｒａｔｏｎ  ａｎｄ  ｔｒａｌｉｉｌ ａｎｄｅｒｒｏｒ Ｉ．ｔ ｃａｎｃｏｎｓｔａｎｔｌ
ｙ ｍｐｒｏｖ


ｅｉ
ｙ Ｌｋｅ
ｔｓｏｗｎｓｔｒａｔｅ
ｇｅｓ  ｔｈｒｏｕｇ
ｈ  ｅａｒｎｎｇ  ｓｏ  ｔ ｈａｓｅｘｃｅｅｎｔ  ｅｎｖｉｒｏｎｍｅｎｔａｌ ａｄａａｂｉ 

ｐｔｔ
ｉｉｌｉｉｌｌｌｉ．ｉ
，
ｆａｃｔｏｒ
ｙｔｒａｎｎｇｎｅｗｗｏｒｋｅｒｓｉｉ
， 
ｉｔｉｓ ｎｅｃｅｓｓａｒｙｔｏｓｔｒｅｎｇｔｈｅｎ ｅａｒｎｎｇａｇｏｒｌｉｌｉｔｈｍ  ｂｅｆｏｒｅ  ｉｔ ｈａｓ


ｅｘｃｅｌｌｅｎｔｃｏｎｔｒｏ ａｂｌｉｌｉｔ
ｙ  ，
ｉｔ ｎｅｅｄｓａ ｏｎｇｔｍｅｃｏｍｐｅｘｔｒａｎｎｇｐｒｏｃｅ

ｌｉｌｉｉｓｓ  ．Ａｌｔｈｏｕｈ
ｇ
ｉｔ ｈａｓ


ｈ  ｖｅ ｍａｃｔｏｎｔｈｅｃｏｎｔｒｏ ｓｙｓｔｅｍ  ｎ ｔｈｅ

ａｄａ
ｐｔｖｅａｂｙ ｔｅｒｅｓａ
ｐｏｓｓｂｙｏ
ｆｎｅ
ｇａ 

ｔｔ
ｔ
ｐ
ｉｉｌｉｉｉｉｌｉｉｉｌｉ
，
ｐｒｏｃｅｓｓ ｏ
ｆ ｅａｒｎｉｎｌ
ｇ
ｔｒａｎｓｉｔｉｏｎ  ．Ａｔ ｔｈｅ ｓａｍｅｔｍｅ ｗｈｅｎ ｔｈｅｃｏｎｔｒｏｉ
，
ｌｌｅｄ ｏｂ
ｊ
ｅｃｔ ｈａｓｔｍｅｉ


－
ｖａｒｙｎｇ ｃｈａｒａｃｔｅｒ
ｉｉｓｔｉｃｓ ｔｈｅ ｅａｒｎｉｎ
ｇ
ｔｒａｎｓｌｉｔｉｏｎｐｒｏｃｅｓｓｏｆ  ｔｈｅｐｕｒｅ  ｒｅｎｆｏｒｃｅｍｅｎｔ  ｉｌｅａｒｎｉｎｇ


，

ａｌｇｏｒｉｔｈｍ  ｗｉｌｌ ｂｒｉｎ
ｇｒｏｂｕｓｔｎｅｓｓｐｒｏｂｅｍｓｔｏｔｈｅａｇｏｒｌｌｉｔｈｍ． Ｉｎｏｒｄｅｒｔｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｓ


ｏｆ  ｄｉｆｆｃｕｉｌｔ
ｙａｎｄｐｏｏｒｔｒａｎｓｉｔｉｏｎ  ｏｆ  ｒｅｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒ
ｎｉｎｉ
ｇ ｎｐｒｏｃｅｓｓｃｏｎｔｒｏ
ｉｌ
， ｔｈｉｓ
ｐ
ａ
ｐｅｒ


ｐｒｏｐｏｓｅｓ ａｎａｄａｐｔｖｅｃｏｍｐｅｎｓａｔｏｎｃｏｎｔｒｏ ａｌｇｏｒｉｉｌｉｔｈｍ  ｂａｓｅｄ  ｏｎ  ｒｅｎｆｏｒｃｅｍｅｎｔ  ｉｌｅａｒｎｉｎｇ 


，
ａｎｄｄｓｃｕｓｓｅｓ ｔｓａｃａｔｉｏｎ ｎｐｒｏｃｅｓｓｃｏｎｔｒｏ ｏｆｎｏｎ  ｎｅａｒｓｙｓｔｅｍｓ Ｔｈｅｍａｎｗｏｒｋｏｆ



ｐｐ
ｉｉｌｉｉｌｌｉ．ｉ
ｔｈｉｓ
 ｐａｐｅｒ ｉｓ  ａｓ  ｆｏｌｌｏｗｓ


Ｆｉｒｓｔｌ
ｙ  ｆｏｒ  ｔｙｐ
，
ｉｃａｌｎｏｎｌｉｎｅａｒｓ
ｙｓｔｅｍｓ， 
ｔｈｅ  ｃｏｎｔｒｏｌ ｓｃｈｅｍｅｏｆｒｅｉｎｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｎ


ｇｉ
ａｌｇｏｒｉｔｈｍ  ｉｓ  ｄｅｓｇｎｅｄ  ａｎｄ  ｔｈｅ  ｐｅｒｆｏｒｍａｎｃｅ  ｏｆ  ｄ
ｉ
，
ｉｆｆｅｒｅｎｔ  ｄｅ
ｐ
ｔｈ  ｒｅｎｆｏｒｃｅｍｅｎｔ 
ｉｌｅａｒｎｉｎｇ


ａｌｇｏｒｈｍｓ  ｎｔｈｅｏｐｔｍｚａｔｏｎｃｏｎｔｒｏ ｏｆｎｏｎｎｅａｒｓｅｍｓ ｓｓｔｕｄｅｄ  Ｔｈｅ  ｅｆｆｅｃｔｖｅｎｅｓｓ



ｙｓ
ｉｔｉｉｉｉｌｌｉｔｉｉ．ｉ
ｏｆ  ｔｈｅｒｅｎｉｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇａｌ

ｇｏｒ
ｉｔｈｍ  ｉｓ
ｐ
ｒｏｖｅｄ， ａｎｄｔｈｅｅｘｉｓｔｉｎ
ｇｐｒｏｂｌｅｍｓ ａｒｅ ｂｒｏｕｇｈｔ


ｆｏｒｗａｒｄ 

．
Ｓｅｃｏｎｄｈｅ  ｒｅｓｅａｒｃｈ  ｕｓｅｓ  ｆｅｅｄｆｏｒｗａｒｄ  ｓｔｒｕｃｔｕｒｅ  ｔｏ  ｒｅｄｕｃｅｔｈｅｄｆｆｉｃｕｎｔｅｎｓｖｅ

ｙｏｆ
ｔｔ 

ｙｌ
， 
ｉｌ  ｉｉ
ｌｅａｒｎｉｎ
ｇａｎｄ ｔｒａｉｎｎｇ Ｔｈｒｏｕｇｈｔｈ
ｉ．ｅ  ｆｅｅｄｆｏｒｗａｒｄ  ｆｅｅｄｂａｃｋｓｔｒｕｃｔｕｒｅ ｔｈ，
ｅｒｅｉｎｆｏｒｃｅｍｅｎｔ


ｅａｒｎｎｇｓｕｓｅｄａｓｈｅｅｘｔｅｒｎａ ｏｍｚｅｒｏ  ｒｅｔａｎ  ｔｈｅ  ｆｅｅｄｂａｃｋ  ｏｏｏｆｈｅｏｒｇｎａｐｒｏ

ｌ  ｔｌｔｉｉ  ｔｌｔｃｅｓｓ


ｐｐ
ｉｉｉ  ｉｉｌ
 
ｃｏｎｔｒｏ ｓｙｓｔｅｍ Ｔｈｅｎｔｈｅｃｏｎｔｒｏｒｏｂｅｍ ｓｓｉｍｐｉｆｅｄｔｏｏ

ｐｔｉｍｚａｔｏｎｐｒｏｂｅｍ ａｎｄｔｈｅ


ｐ
ｌ．ｌｌｉｌｉｉｉｌ，
ｃｏｎｖｅｎｃｅｓｅｅｄｏｆｒｅｎｆｏｒｃｅｍｅｎｔ  ｅａｒｎｎｓａｃｃｅｅｒａｔｅｄ Ｆｎａｙ ｃｏｍｐａｒｅｄｗｈｔｈｅ

ｒ
ｇｅｇ ｔ 

ｉｉ
ｐ
ｌｉｌ．ｉｌｌｉ
，
ｏｎａｎｆｏｒｃｅｍｅｎｔ  ｅａｒｎｎｍｅｔｈｏｄｈｅｓｍｕａｔｏｎｅｘｅｒｍｅｎｔ 

ａｄｓｄｅｓ
ｇｎｅ
ｄｔｏ
ｐｒｏｖｅ
ｔｒｔｌ ｒｅｉｉ
ｔｉ 

ｇ ｐ
ｉｉｌｉｌｉｉｉ
，

ｔｈｅｓｕ
ｐｅｒｏ
ｉｒｉｔ
ｙｏ
ｆ  ｔｈｅｍｅｔｈｏｄ  ．
Ｍｅａｎｗｈｉｌｅ ｃｏ，ｎｓｄｉｅｒｉｎｇｔｈｅｔｍｅｉ
－
ｖａｒｙｎｇｃｈｉａｒａｃｔｅｒｉｓｔｉｃｓｏ 


ｆ
ｏｎ ｔｈｅｔｒａｄｏｎａ ｒｅｎｆｏｒｃｅｍｅｎｔ  ｅａｒｎｈｍｗ ｈａｖｅｔｈｅｔｒａｎｓ

ｐｒｏｏｎ
ｃｅｓｓｃｏ 

ｎ
ｇａｇｏ
ｔｒｌ
，
ｉｔｉｌｉｌｉｌｒｉｔｉｌｌｉｔｉ
ｅｍｔｏａｄａｔｔｏｎｅｗｏｂ Ｉｎｖｅｗｏｆｔｈｂｅｍｈｅｅｘ

ｐｒｏｂ
ｅｃｔｓｓｒｏ ｔｓｔｅｎｃｅ  ｏｆ  ｆｅｅｄｂａｃｋ  ｏｏ
ｐ ｐ 

ｐ
ｌ．ｉｉｌ，
ｉｌ
ｉｎｔｈｅ
ｐ
ｒｏｐｏｓｅｄｍｅｔｈｏｄｗｉｌｌ  ｉｍｐｒｏｖｅ ｈｅｒｏｂｕｓｔｎｅｓｓｏｔｆｔｈｅｃｏｎｔｒｏｌ ｓ
ｙｓｔｅｍ．  Ｔｈｅｓｍｕｉｌａｔｉｏｎ


ｅｘｍｅｎｓｄｅｓ
ｇｎ
ｅｄｔｏｖｅｒｉｆ
ｙｔｈｅｅｆｅｃ
ｆｖｅｎｅｓｓｏｆｈｅｔｍｖａｒｎｇｏｂｅｍｅｈｏｄ
ｐｅ
 ｅ
－
ｒｔｔｃ  ｔ
ｙ
ｉｉｉｉ ｔｉｉｔ 

．
ｉ 

］


Ｔｈｅｎ，
ｃｏｎｓｉｄｅｒ
ｉｎｇ  ｔｈｅ  ｃｏｍｐｌｅｘ  ｐｒｏｃｅｓｓ  ｃｏｎｔｒｏｌ  ｓｙｓｔｅｍ  ｉｔ  ｉｓ  ｄｉ，
ｉｃｕ
ｆｌｔ  ｔｏ ｅｓｔａｂｌｉｓｈ


ａｃｃｕｒａｔｅ  ｓｉｍｕｌａｔｉｏｎ ｍｏｄｅｌ  ｆｏｒ  ｔｈｅ  ｔｒａｉｎｉｎｇ  ｏｆ  ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎ
ｇ  ａｌｇｏｒｉｔｈｍ． Ａ


ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎ
ｇ  ａｌｇｏｒｉｔｈｍ ｂａｓｅｄ  ｏｎ ｎｅｔｗｏｒｋ ｓｕｐｅｒｖｉｓｏｒｙ  ｃｏｎｔｒｏｌ  ａｌｇｏｒｉｔｈｍ  ｉｓ


ｐｒｏｐｏｓｅｄ．  Ｔｈｅ  ｓｔｒａｔｅｇｙ  ｎｅｔｗｏｒｋ  ｉｓｃｏｎｓｔｒｕｃｔｅｄ  ａｃｃｏｒｄｉｎｇ  ｔｏ  ｔｈｅ  ｈｉｓｔｏｒｉｃａｌ  ｄａｔａ  ｏｆｐｒｏｃｅｓｓ



ｏｐｅｒａｔｉｏｎｂｙ  ｔｈｅ  ｍｅｔｈｏｄ  ｏｆｎｅｔｗｏｒｋ  ｓｕｐｅｒｖｉｓｏｒｙ  ｃｏｎｔｒｏｌ  ａｌｇｏｒｉｔｈｍ
 
， 
ａｎｄ  ｔｈｅｎ  ｏｐｔｉｍｉｚｅｄ  ｂｙ


ｔｈｅ  ｒｅｎｆｏｒｃｅｍｅｎｔ 
ｉｌｅａｒｎｉｎ
ｇｍｅｔ
ｈｏｄ  Ｔｈｅ  ｅｆｆ
．ｅｃｔｉｖｅｎｅｓｓ  ｏｆ  ｔｈｅ ｍｅｔｈｏｄ  ｉｓ  ｖｅｒｉｆｉｅｄ  ｂｙ


ｓｉｍｕｌａｔｉｏｎ  ｅｘ
ｐｅｒｉｍｅｎｔｓ．  Ｆｎａ
ｉｌｌ
ｙ， 
ｔｈｅ  ｐａｐｅｒ  ｓｕｍｍａｒｉｚｅｓ  ｔｈｅ  ｃｏｎｔｅｎｔ  ｏｆｔｈｅ  ｆｕｌｌ  ｔｅｘｔ  ａｎｄｐｕｔｓ




ｆｏｒｗａｒｄ  ｔｈｅ  ｐｒｏｂｌｅｍｓ  ａｎｄ  ｆｕｔｕｒｅ  ｒｅｓｅａｒｃｈ
 ｐｒｏｓｐｅｃｔｓ  ｏｆｔｈｅ  ｍｅｔｈｏｄ
 

．
ＫｅｙｗｏｒｄｓＤｅｅｐ： 

ｌｅａｒｎｉｎ
ｇ； 
ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎ
ｇ； 
ｆｅｅｄｆｏｒｗａｒｄ； 
ａｄａ
ｐｔｉｖｅ； 
ｎｏｎｌｉｎｅａｒ


ｓ
ｙｓｔｅｍ； ｏｐｔｉｍａｌ  ｃｏｎｔｒｏ 

ｌ


Ｖ
ｉ 

ｎ


目 

录
觀  

Ｉ
Ａｂｓｔｒａｃｔ  ＩＩ


第１
章绪论  

１
１．１
研究背景及意义  

１
１．２强化学习研宄现状  

１
１．３强化学习的应用问题  

３
１．４本文的创作动机与结构安排  

５
第２章强化学习理论基础  

７
２．１强化学习理论基础  

７
２．１．１强化学习基本概念  

７
２．１．２马尔可夫决策过程  

９
２．１．３探索与利用  

９
２２．
强化学习常用算法  １ 

０
２２ Ｑ  学习Ｑｅａｒｎｎｇ 

０
－
．．１ｌｉ  １
（）
２２．．２ 策略梯度（
ＰｏｌｉｃｙＧｒａｄｉｅｎｔ）  １ 

１
２３．
深度强化学习  １ 

３
２３．．１ ＤＱＮ 算法  １ 

３
２３．．２ＤＤＰＧ算法  １ 

５
第３章基于强化学习的非线性系统自适应控制  １ 

８
３．１ ■ 描述｜
 １ 

８
３．２强化学习算法设计  １ 

８
３．２．１
环境设计  １ 

８
３．２２．
网络设计  １ 

９
３．２３．
通用参数设计  ２２


３．３仿真实验  ２２


３．４ 小结   ２４


第４章基于强化学习的自适应补偿控制系统  ２５


４．１基于强化学习的自适应补偿控制算法  ２５


４．１．１
前馈反馈控制系统
－
 ２ 

５
４．１．２强化学习前馈控制器  ２６


４．１．３强化学习前馈控制器训练算法  ２８


Ｉ 

Ｖ


４．２仿真实验  ２９


４．２．１
实验对象  ２９


４．２．２强化学习自适应补偿控制系统搭建  ３０



４．２．３纯强化学习控制系统搭建  ３３



４．２．４实验结果  ３３


４．３ ／Ｊ
ｎ
＾  ３８


第５章无模型强化学习自适应补偿控制系统  ３９


５．１
神经网络前馈监督控制器  ３９


５．２无模型强化学习自适应补偿控制  ４０


５．３仿真实验    ４２


５．４  ４４


第６章总结与展望  ４５


６．１
本文的主要工作及贡献  ４５


６．２问题与展望  ４６


参考文献  ４８


攻读硕士学位期间发表的论文及其它成果  ５２


酬  ５３




Ｖ


第１章绪论


１．１
研究背景及意义


近年来，机器学习作为人工智能的热点方向得到了快速的发展，并逐渐进入我



们的常生活机器学习来源于模式识别和人工智能领域是计算机科学领域的


一
日。，
部分随着各行各业的发展数据量增多对数据处理和分析的效率有了更高的


１
［］
。，，
要求系列的机器学习算法应运而生神经网络基于数据驱动的建模方法为控



一
［
２］
，。
制算法的设计提供了新的思路数据预测技术在工业设备状态监测中得到应用［
３］
， 

，
图像识别技术在动驾驶无人机等领域得到应用强化学习在决策控制上的表



４］
自
［
，，
现逐渐趋于人类甚至超过人类［
５］


。
机器学习的发展同时影响着其他行业的研究方向，刘吉臻院士在２０１６年提出



智能发电的概念趋优等更高的要求
”
对运行控制提出了工业设备
“
学习 

６］
自自
［
，、。
不断升级，逐渐步入智能化方向。
首先，
现有电厂的数字化信息化及，自动化水平已


经达到了较高的水准再次网络与计算机技术快速发展使得电厂能够支持更


［
７］
。，，
加复杂的运算。研宄先进的智能建模，控制，
优化理论是工业智能化的重要技术方


８
向［］


。
强化学习作为机器学习的个重要方向因其无监督学习趋优的特点

一
，，
自，
自 

，
拥有巨大的发展潜力。
本文旨在研宄针对非线性系统，
如何利用强化学习算法设计


控制系统，研宄强化学习算法在非线性系统控制中的表现。并根据实际工业对象时



变等特性，对强化学习算法进行改进，结合经典前馈反馈控制算法，
提出了基于强


化学习算法的适应补偿控制系统给出了强化学习算法种新的应用思路

一
自， 

。
１．２强化学习研究现状


机器学习（
Ｍａｃｈｉｎｅ  Ｌｅａｒｎｎｇ）ｉ
的目的是使计算机能够模仿人类的学习能力，是人


工智能的核心方向学习是人类在复杂环境中赖以生存的行为人类通过学习来



［
９］
。，


１


不断提升自己机器学习就是让计算机拥有学习能力的技术［
１Ｇ】
。 

。
强化学习Ｒｅｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｎｇ  ＲＬ方法起源于动物心理学相关的原理
１１
［］
ｉｉ， 

，
（）
类似人类采用试错的学习方式，通过尝试不同行为对环境带来正面或负面的作用来


获得学习信息，根据反馈的信息学习状态到动作的映射，以获得不同环境状态下最



优的决策强化学习的机制使得其具有学习趋优的特点

１２］
自
［
。
自、 

。
强化学习的概念产生于世纪年代在 年描述的种随机


３］
Ｍ
１
２０ｎＳｋｙ
一
０９５４
［
５，
ｉ１
“ ”
神经模拟强化计算器采用试错学习的思想年在马尔
４］


５
了Ｂｅ
１１
ｍａｎ
［［］
，。１９５７，ｌｌ
可夫链的基础上提出了马尔可夫决策过程（
Ｍａｒｋｏｖ  ＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ， ＭＤＰ），为强化


学习的研究提供了重要的数学模型，强化学习问题其实就是马尔可夫决策过程求取



最优解的过程；同时并提出了著名的ｂｅｌｌｍａｎ方程用动态规划来求解最优控制问题 


，
为强化学习的求解提供了数学工具。至此现代强化学习理论的基本要素就出现了
， 

。
＾
年Ｓｕｔｏｎ提出了时序差分学习的概念年Ｓｕｔｏｎ首次提出了多


１
１９８３，，
１９８８，
步时序差分ＴＤ算法，采用单步预测方法简化值函数的计算，
大大降低了强化学习


求解的难度年Ｗａ提出的方法极大的推动了强化学习
８］


１７］１
［
。１９８９，
ｔｋｉｎＳ［
Ｑ
－
ｌｅａｍｉｎｇ
的应用与发展，直到现在，
Ｑ
－
ｌｅａｍｉｎｇ仍然是应用最具有代表性的形式。２０００年 


，
为了解决面对连续动作时的局限性提出了策略梯度
９］
Ｔｈｏｍａｓ 
１
ｅａｍｉｎｇＰｏ
［
Ｑｃｙ
－
ｌ，
（
ｌｉ


Ｇｒａｄｉｅｎｔ， ＰＧ）算法，
将离散动作空间转换为连续的策略模型。至此，经典的强化学


习理论知识基本完善 

。
传统的基于马尔可夫决策过程的强化学习拥有强大的自主决策能力，

但对环境


的特征提取能力有限导致算法面对高维数据时运算过于复杂所以就有人提



ｔ
２Ｇ］
。，，
出利用深度学习方法来处理高维数据，
从此，深度强化学习的概念就出现了。强化


学习利用深度学习的感知能力改进自身策略，实现从原始环境到被控对象的直接控



制深度学习在非结构化数据上具有优秀的表现使计算模型能够从多个层次的



２｜
］
［
。，
数据中逐步学习特征在基于马尔可夫假设的传统强化学习中深度学习带来的



［
２２］
。，
派生方法可以帮助强化学习大大减少问题的深度［

２３］


。
最早的深度强化学习是于年提出的深度网络
２４
ＤｅｅｐＭｉｎｄ团队［１
２０１３Ｑ（
ＤｅｅｐＱ

 
采用卷积网络代替的表格法又提出了

２５
Ｎｅｔｗｏｒｋ， ＤＱＮ），
Ｑ
－
ｌｅａｍｉｎｇ，
２０１５年［］
， 



２


ＤＱＮ算法的改进在初始ＤＱＮ的基础上添加了个标网络ＴａｒｇｅｔＮｅｔｗｏｒｋ） 

通
一
，目（，
过目标网络与原本的卷积网络配合，大大提升了算法的稳定性。
实现对复杂环境状


态的感知与决策，使得ＤＱＮ算法在复杂工作中达到人类水平的能力。之后，针对


这算法出现了很多进步的改进算法如算法解决值函数



２６］
ＤＱＮＤｏｕｂＤＱＮ
一一
［
，，
ｌｅ
过优化的问题算法入优势这概念来丰富值函数的
２７］
ＤｕｅＤＱＮ引Ａｄｖａｎ 

一
ｎｇ
［
ｔａ
，ｌｉ
（ｇｅ）
估计加快了算法的收敛速度。然而，
ＤＱＮ的改进算法并不能解决ＤＱＮ存在的根本


缺陷，那就是ＤＱＮ算法动作空间的离散性，
无法解决连续动作的问题。２０１６年 

，
提出深度确定性策略梯度算法Ｄｅｅｐ  Ｄｅ
２８］
Ｌ了ｍｉｎｉｓｔｉｃ  Ｐｏｌｉｃｙ Ｇｒａｄｉｅｎｔ
［
ｉｌｌｉｃｒａｔｅｒ
ｐ  （


，
ＤＤＰＧ）采用深度神经网络作为策略网络，直接完成状态到动作的映射来代替ＤＱＮ



状态到价值的映射，解决了连续动作场景的控制问题 

。
目前，深度强化学习活跃在视频游戏、机器人、自动驾驶等领域，不断有先进



的算法被研宄出来。２０１６年，Ａｌ
ｐｈａ  Ｇｏ战胜围棋世界冠军李世石，
轰动世界。
随后


改进的ＡｐｈａＧｏＭａｓ战胜当今围棋第人柯洁再之后改进的ＡｐｈａＧｏＺｅｒｏ 

先
一
ｌｔｅｒ。，
ｌ
后击败了Ａ和强化学习在围棋领域占据了统治地位
２９］
ｌ
ｐｈａＧｏＡｌ
ｐｈａＧｏ  Ｍａｓｔｅｒ
［
， 

。
Ｚｈｕ＿等人采用示范增强策略梯度算法（
ＤｅｍｏｎｓｔｒａｔｉｏｎＡｕｇｍｅｎｔｅｄ  Ｐｏｌｉｃｙ


ＧｒａｄＤＡＰＧ实现机器人手的多指复杂行为控制任务等人提出树状结构



３
Ｚ
１
ｅｎｔ，
［］
ｉ。Ｊｉｅ
）
强化学习有效识别视频中的多个对象采用多智能体强化学习
３２
Ｓａｍａｈ  ＥＴａｎｔａｗｙ 

－［］
。ｌ
方法（
ＭＡＲＬ），
实现多个相邻路口交通信号灯的协调控制缓解高峰时段交叉路口的

 ，
拥堵程度等人同样利用多智能体强化学习方法研究无人驾驶
３３
ＳＳｈａｌｅｖＳｈｗａｒ
ｔｚ
－
［１
。 

，
实现超车，让步，
会车，左右转弯等复杂的交互技巧 

。
强化学习在某些领域已经表现出超越人类的学习能力，
但目前的人工智能技术


与人类智能甚至动物智能都仍存在着很大的鸿沟，

强化学习仍有很大的发展潜力 

。
１．３强化学习的应用问题


不同于经典的神经网络要与其他控制算法配合进行设计控制系统，
深度强化学


习自身就具有独立的决策控制能力能够主完成学习与控制过程训练好的强



３４］
自
［
，。
化学习算法在解决控制问题时具有优秀的能力但训练的初期阶段产生的都是 


些
一


３


不合理的动作深度强化学习算法的应用仍有问题需要解决
［
３５］
， 

。
首先是收敛的问题强化学习被诟病的个主要问题就是收敛慢同时存在着


一
，，
无效或者危险探索；现在深度强化学习比较诟病的事情是需要经历远比人类高若干


数量级的经验才行Ｐ深度强化学习拥有优秀的环境感知能力和动作决


６］
（
ｅｘｐｅｒ
ｉｅｎｃｅ。
）
策能力，但是深度强化学习的智能体（
Ａｇｅｎｔ
）的逻辑推理性很弱％比如在控制倒立


摆平衡的时候，智能体并不能很快理解摆在左边，
就左移小车，摆在右边就右移小


车。通过长时间的试错训练，智能体会学习到正确的控制规律，

但这是通过遍历环


境数据得到的而不是根据环境规律推理的这就导致了智能体学习过程有很多



［
３８］
，。
是无效的 

。
另可能存在的情况是智能体在学习过程中有可能探索出些意外的策略

一一
，， 

，
这些策略可能是很好的以种意外的更加灵活的方式解决问题但也可能是危险



一
，，
的违背设计初衷的行为如动驾驶中的危险操作
３９］
自
［
， 

。
，
强化学习应用的另个问题是探索学习的过程中对环境存在损坏包括越界
一
［
４１）
】
， 

，
震荡等？
，强化学习控制的输出有上下限，
但上下限并不能保证模型的稳定，尤其是


复杂的控制环境下强化学习会输出些很糟糕的控制动作在模拟环境中无非就



一
，，
是比较浪费训练时间但是在实际机械应用场景中不可能允许把个实体的机器


一
，，
人摔那么多次前的很多研宄都是基于仿真模型利用仿真模型训练智能体
４１
］
４２１
目
［［
。， 

。
但是在工业控制中，
模型越界代表着工业事故，
甚至可能引起跳机等严重问题，


带
来巨大的经济损失。因此，
在无模型的情况下，强化学习试错的成本很高，不能直


接用于控制［
４３］


。
针对收敛慢的问题，
提高采样效率（
ｓａｍ
ｐｌｅ ｅｉｃ
ｆｉｅｎｃｙ）是很有效的策略，
其主流


方法就是经验回放离线策略算法
４４
（
ｅｘｉｅｎｃｅ  ｒｅｐａｙ）  ＋
ｐｅｒｌ
（
ｏｆ－
ｐｏ〗ｉｃ
ｙ  ａｌｇｏｒ
ｉｔｈｍ）［］
。在深


度强化学习中，经验池的加入让采样效率己经得到了提高，

并且证明是有效的［
４５］


。
在经验回放的基础上还有资格迹等经验池优化方法１

４６］
， 

。
强化学习的本质仍是优化问题所以就像优化问题受标函数的影响样
４７］
一
目
［
， 

，
强化学习的学习过程受到奖励函数的影响。通过设计非稀疏奖励函数，

非稀疏奖励


函数设计成越接近目标，
得到的即时奖励越大，这样通过奖励累加最大化原则， 

强


４


化学习智能体能够很快的找到收敛到标的策略但非稀疏奖励函数的设计没有


［
４８］
目；
固定的标准，而且非稀疏奖励函数设计难度大，
设计的不恰当的话会影响强化学习


的稳定性或陷入奖励循环。
并且非稀疏奖励学习得到的策略分布受数值影响很大 

，
细小的环境变化就可能导致策略的偏差容易理解人类学习过程中如果直得


一
。，，
不到学习的奖励学习的效率就会下降而如果每学习段时间就能得到定的



一一
，，，
激励，那么就更容易接近学习目标。强化学习也类似，设计形式化奖励，即越接近



奖励目标系统给予的奖励就越多利用这种方式能够加快收敛但会影响稳定性
，。， 

。
如何将强化学习的优化标调整成人类标仍然是个难题

４９］
目目
［


。
个解决问题的方向是添加先验知识通过先验知识解决领域的复杂性 

给
一５Ｇ
［］
，，
强化学习提供行为指导如果我们给强化学习个指导者指导强化学习的学习

５


１一
［］
，
；
方向，那么就能让强化学习无需让模型超界才认识到控制错误。强化学习智能体可



以在指导学习的过程中得到指导者的反馈支持采用策略搜索强化学习和交互式


［
５２］
机器学习的混合策略，从环节，奖惩函数和专家纠正反馈中受益，以加速学习过程


强化学习算法具有很大的潜力但它的广泛应用仍有很长段路要走

［
５３］一
。， 

。
１．４本文的创作动机与结构安排


强化学习算法拥有的无模型特点带来的通用性与自趋优，
自学习的能力，
非常


适合进行非线性系统优化控制的研宄。
本文研宄强化学习算法的应用问题，将经典


过程控制算法及智能控制算法与强化学习相结合，
设计相应的解决方案，
为强化学


习算法的应用提供了个新的思路实现无模型的非线性系统适应控制
一
，自 

。
文章的结构安排如下 

：
第章绪论介绍机器学习以及强化学习的研宄背景意义介绍分析了强


一
，。、；
化学习理论的发展及研宄现状，并简述了其在各个领域的应用；分析了强化学习算



法的应用问题及些解决方向最后简述文章的结构安排

一
； 

；
第二章，强化学习理论基础。

介绍并解释了强化学习算法的基础概念、基本结


构；介绍了强化学习所用的马尔可夫决策过程，引出强化学习的算法原理；介绍两



类强化学习常用算法，
Ｑ学习与策略梯度，并对其进行公式推导；最后，在强化学




习算法的基础上，详述引入了深度学习的深度强化学习算法，并从离散与连续两个


方向分析介绍了两种深度强化学习算法ＤＱＮ与ＤＤＰＧ，
分析各自特点与适用领域 

；
第三章，
强化学习非线性自适应控制。针对非线性系统研宄强化学习算法应用 

；
在Ｓｉｍｕｌｉｎｋ仿真平台搭建钟摆系统作为非线性研究对象；分析被控对象，
分别设计


两种典型深度强化学习算法；通过仿真实验分析强化学习算法的控制特性 


；
第四章，基于强化学习的自适应补偿控制系统针对强化学习算法训练难度高

。 

，
收敛速度慢同时鲁棒性较差的问题，参考经典控制算法中的前馈反馈控制框架， 

成
功设计了基于强化学习的自适应补偿控制算法；利用线性控制器降低改变强化学习


训练的环境，从而提高强化学习的收敛速度与稳定性，同时利用反馈调节提高系统



鲁棒性；设计仿真实验与原始的强化学习算法在性能上进行对比分析，
得出实验结


论 

；
第五章无模型强化学习
，自适应补偿控制。针对无法建立对象仿真模型的情景 

，
结合神经网络监督学习与强化学习前馈算法设计了种无模型强化学习监督自 


适
一
应补偿控制系统；在网络监督控制算法的基础上，结合强化学习自适应补偿控制结



构需求对其进行改进，通过改进的监督控制算法代替强化学习的探索过程；最后设


计仿真实验，对该方法的收敛性与有效性进行验证 


；
第六章总结与展望针对本文研宄的课题进行了总结概述了本文主要工作
，。， 

，
论述了本文所述方法的优点；同时，
指出本文所述方法仍存的不足之处，
并对未来


的研宄方向进行了展望 

。


６


第２章强化学习理论基础


本章首先简要论述了强化学习方法的基础理论，
介绍了马尔科夫决策过程以及


相关的概念，强化学习框架的建模过程，智能体的训练过程及常用的算法。
其次介


绍并分析了深度学习与强化学习结合的深度强化学习，以及深度强化学习常用算法



的搭建与训练过程，
分析算法特点，为算法的设计与应用打下理论基础 

。
２．１强化学习理论基础


２．１．１
强化学习基本概念


机器学习是门涵盖数学心理学计算机科学自动化技术等多领域的交叉



一
、、、
学科是种经验驱动的主学习的原则性数学框架其核心是运用算法来解析



一
［
５５］
，
自。
数据信息通过不断地学习寻找规矩积累经验并对今后的发展做出决策或预判［

５６］
，， 

。
强化学习作为机器学习的个重要方向与监督学习无监督学习共同组成机器学



一
，，
习三种学习方式。
机器学习的核心就是建立从输入数据到输出数据的映射，
如果己


知正确的输出数据来进行网络训练就是监督学习而强化学习不同于监督学习［
５７］
， 

，
其仅知环境状态信息，
利用环境状态的变化，通过迭代的方式逼近正确的动作，


完
成环境到动作的映射实现强化学习算法的主要元素为智能体，

（
Ａｇｅｎｔ）
、状态（
Ｓｔａｔｅ
）


、
奖励（
Ｒｅｗａｒｄ）
、环境（
Ｅｎｖｉｒｏｎｍｅｎｔ
）


。
智能体指的是能够获取环境信息，

自主采取动作影响环境，
并根据环境的反馈


来完善身的系统其核心特点是对未知环境的学习能力８］
智能体的形式主要


５
自自
［
，
。
表现为策略Ｐｏｌ和值函数Ｖａｕｅ  Ｆｕｎｃｔｏｎ）中的个或全部

一
ｃ
（
ｉ
ｙ）（
ｌｉ 

。
策略是决定智能体输出动作的机制，它完整定义了智能体在不同环境状态Ｓ 


下
输出的各种可能动作及概率，
其表达式如下 

：
＝ ＝
ａ＼
Ｓ
，
＝
ｓ
）  （
２－
１


）
根据输出动作的概率选择不同，策略分为确定性策略和随机性策略。确定性策





７


略根据状态直接输出确定的动作即概率为１，
而随机性策略会根据状态输出每个可


能动作的概率输出个概率分布
一
， 

。
值函数是智能体用来评价状态或动作的好坏程度，其根据环境的反馈奖励来进



行更新。值函数通常分为两种，分别是状态价值函数与状态动作价值函数。

状态价


值函数用来表示，其可以评价环境状态Ｓ
的好坏，反映当前状态距离任务目 

标
的距离，距离完成任务越接近，其值越大。状态动作价值函数用来表示， 

表
示在状态ｓ下采取动作《的价值，是智能体选择输出动作的重要参考 


。
强化学习的原理如图２－
１
所示不同于监督学习技术直接告知正确的输出
，目标 

，
强化学习通过干涉环境，
并根据环境反馈来逐渐逼近正确的输出动作，实现自学习


的过程。
智能体采样环境状态ｔ根据自身策略计算输出动作《，
动作《影响环境产


生下一
状态Ｖ，
同时根据环境状态情况然后新的状态再送入智能体进行计算。
根据


反馈奖励信息更新智能体的值函数，进而更新智能体的策略，如此循环下去，智能


体与环境不断交互，经过有限次数的迭代学习之后，智能体能够学到完成目标的最



优控制策略，这种自学习的方式使得强化学习拥有优秀的自趋优能力 


。
动作


  

Ｖ
（  ＾
奖励 广 ＾


ｖ  
） ｖ   


）


Ａ
状态


Ｖ 


ｙ
图２１
强化学习原理图




８


２．１．２马尔可夫决策过程


马尔可夫决策过程（
ＭＤＰ）是强化学习建模的基础。其过程即为智能体与环境的


交互过程智能体接收当前环境状态，Ｉ根据自身当前策略采取动作《与环境交互 


，
环境在《
的影响下转移到下状态Ｖ智能体根据下环境状态ｆ采取下动作


一一一
，，
如此循环下去就是马尔可夫决策过程
’
？， 

。
马尔可夫决策过程由四元组（
Ｓ Ａ
，，Ｐ，Ｒ）构成，
Ｓ为智能体所在环境状态集合 

，
Ａ为智能体有可能选择的行为集合，为系统在状态ｓ时，
智能体选择行为


ａ使环境状态转移到＾的概率，
々（＆？，＜）为系统在状态ｓ时，智能体选择行为《使环


境状态转移到Ｖ的奖励值 

。
马尔科夫决策过程根据动作价值函数决定动作策略，定义为状态ｓ 

下
采取策略＾选择动作所能得到的奖励的期望可以通过贝尔曼方程来表达



？
ａ；
Ｑ 〇）＾Ｐ  
＇
＝
 ａ）＋ｙ（
ｓａｓｓ＼  ７ｔ｛ｓ））
 ， ， 
（ 
（
２２＿


）


＇
１
＂＾＂
Ｑ
＾Ｒ＋ｙＰＱ
  （
２－
３


）
为状态下选择行为ａ的瞬时奖励值
ｓ，
Ｙ为折扣因子，
Ｐ为状态转移概


率。
折扣因子取０
－
１之间，其值越大，
表示未来回报值所占比重越大，通常稀疏奖


励的强化学习算法会设立较大的折扣因子 

。
对于任何ＭＤＰ问题总存在个确定性的最优策略强化学习的最终标就



一
，；目
是找到这个最优策略，
使得采取这条策略能够获得的累积奖励期望最多。 

即
ｔｔ＊
 （
ａ卜）＝
ａｒ
ｇ
ａｅ

ｍａｘ
Ａ
Ｑ〇ａ

 ， 
）
 （
Ｖ
２４


）
Ｊ


＿
２．１．３探索与利用


强化学习是种试错形式的寻优算法只有在环境中尝试过的策略强化学习



一
，，
才能正确评估策略的好坏但次错误的尝试很有可能为环境带来负面的影响 

因
一
，，
此，是否允许智能体进行试错，或者允许多少程度的试错，是需要权衡的问题 


。
“ ” “ 

”
强化学习针对试错问题，提出了 探索（
Ｅｘｐｌｏｒａｔｏｎ）ｉ
与利用（
Ｅｘｐｏｌｉｔａｔｉｏｎ）


９


的概念，探索是指智能体在某个状态下采取当前策略之外的新的行为，用来挖掘更



多的环境信息利用是指智能体完全按照当前策略采取行为每步都获得当前最


一
。，
大化的奖励 

。
打个形象的比方去餐厅点菜探索就是点个以前没有吃过的菜这个菜



一一
，，，
可能很符合你的胃口也有可能你完全无法下咽利用就是点个你以前吃过的认



一
，
。
为最好吃的菜这样能够稳定的吃到喜欢的菜但可能永远点不到餐厅最好吃的菜
，， 

。
探索与利用是对立的，其对强化学习又都非常重要。
在进行强化学习的训练时，


要
根据情况进行权衡 

。
探索与利用的策略主要有两种，策略与高斯策略。其表达式如下所示 


：
＊
ａ＜ｒａｒ
ｇｍａｘａ  Ｑｓａ
－
 
，

（ 

）
ＦｏｒａｌｌａｅＡ（ｓ）



Ｗ策略

卜２－

：
（ 

）
ｗ＋  ＆⑷
ｆ
—
 


＊
，／Ａ（
ｓ
）
ｉｆａ＾ａ
ｉ｜｜
对于局部最优的动作ａ
＊
，其被选择的概率最大，其余的动作概率都为甽ａ｜
。 

这
种策略用于基于值函数的离散动作空间强化学习算法，
即Ｑ
－
ｌｅａｍｉｎ
ｇ系列的强化学


习算法 

。
高斯策略：
（
２－
６


）
通过添加高斯分布的随机噪声来增加动作的多样性进行探索，多用于基于策略



梯度的连续动作空间强化学习算法 

。
２２
．
强化学习常用算法


２２
．．１
Ｑ 学习Ｑ（
－
ｌｅａｍｉｎ
ｇ）


学习是种经典的基于值函数的强化学习算法其算法的核心目标是得到正



一
Ｑ。
确的状态动作价值，从而通过状态动作价值决定动作策略 

。
Ｑ学习利用表格的形式存储动作价值智能体通过查表的方法获得Ｑ值 


。
其通过迭代的方式逼近正确的动作价值，直至Ｑ值收敛结束，迭代公式如下 


：
１ 

０


ａ）＋ａ［Ｒ＋ｙｍａｘｄ

＇
Ｑｓａ）＜ＱＱｓａ）Ｑｓａ）］
－－
－
ｓ＼
｛，  （，

 
 
（）｛，（，
（
２－
７）


式中为状态ｓ下选择行为《的状态行为价值为状态ｓ下选择行为ａ后



＇
，ｓ
的环境状态，ａ为学习率，为状态下选择行为ａ的即时奖励值，

Ｙ为折扣因子 

。
当迭代达到定次数获得准确的状态动作价值表格后我们就可以根据式
一
，，２－
５ 

）
（
中的策略，选择最佳的控制动作 

。
其算法过程如下 

：
（
１
）初始化Ｑ表格，所有Ｑ值初始为 

〇
（
２）重复以下步骤 

：
初始化状态ｓ 


＝
重复以下步骤 

：
根据当前状态ｓ选择动作 

ａ
执行动作得到奖励下状态，和终止符 

ｄ
一
山〃、
通过式（
５
）更新Ｑ表格




＇
Ｓ＝ ｓ
直至终止状态


直至表的更新幅度小于个很小的值
一
Ｑ／
／ 

。
其中终止符ｄ信号代表是否达到终止状态，
若当前状态为终止状态，
则卢１ 

，
否则卢０。终止状态的含义为环境允许的边界状态。
ＱＬｅａｒｎ
－
ｉｎｇ算法虽然有良好的


稳定性和收敛性，
但受到动作空间和状态空间的大小限制，
若状态和动作空间维度


过大，
会导致表格陷入维度灾难 

。
２２２
．．
策略梯度（
Ｐｏｌｉｃ
ｙＧｒａｄｅｎｔ）


ｉ
策略梯度（
ＰＧ）算法是基于概率分布的算法，智能体的策略直接输出各种动作的


概率即＝
其算法思想为根据某状态下某动作得到的奖励值大


一一
，
；
１
５
）
 。
小，来增加或降低该动作被选择的概率，即通过不断迭代，

增加好动作被选择的概


率，
降低坏动作被选择的概率 

。
１ 

１


主要迭代公式如下 

：
６  ＜
—
０＋ｏＶ
  ｃ
ｑ
Ｊ
 （
７ｔ
ｑ＾   （
２－
８


）
其中


＾Ｚｆ 
 ）
］  （
２９）


－
式中０为智能体策略模型参数，（Ｘ为学习率，
▽，（巧）为梯度，
ＴＶ为轨迹样本数 

，
Ｔ为单个轨迹长度，
ｉ？为即时奖励 

。
其算法过程如下 

：
构造个策略模型并随机初始化模型参数
一
（
１ 

沒
）
（
２
）重复以下步骤 

：
初始化状态＊ｙ
＝
 

Ａ

：

ａ
执行动作得到奖励下状态Ｖ和终止符Ａ并存入当前轨


一
Ａ〃、
迹＆中


直至终止状态心ｗ


当轨迹样本数大于定数量科训练开始
一


：
）
抽取ｉＶ个轨迹样本，通过式（
７）计算梯度 

：
ｖ〇ｊ
 ｋ）
＝
＾ｚｒｚＬ
ｖ＞＾
［
 （
ａ－１  ＾）
＾
（＾）


］
更新ｅ 
 —
 ，
■ ／
（％ 

）
直至达到指定重复次数 

。
不同于基于值的方法输出动作的价值，
ＰＧ算法智能体输出动作的概率分布 

，
求取数学期望来获得连续的动作空间。
采用策略梯度能够输出连续动作，控制稳定


性相比更好但收敛性般
一
Ｑｅａｍｎｇ
－
］ｉ， 

。
１ 

２


２３．
深度强化学习


强化学习拥有优秀的动作价值评估能力，进而拥有强大的决策能力。然而强化



学习对环境的感知能力存在不足，
复杂的环境导致强化学习的分析变得困难。深度


学习拥有强大的感知能力，能够从环境中提取特征，

降低输入维度。将深度学习的


感知能力与强化学习的决策能力相结合即为深度强化学习，

两种方法在很大程度上


是正交的问题，
强化学习提供训练的目标，而深度学习提供了解决问题的方法。


因
此，通过深度强化学习可以实现基于环境的直接控制。ＤＱＮ和ＤＤＰＧ是两种常见



的深度强化学习算法，
分别对应基于值的和基于策略梯度的深度强化学习方法 

。
２３．＿１  ＤＱＮ  算法


ＤＱＮＤｅｅｐＱＮｅ是种将深度神经网络与Ｌｅａｒ相结合的算法
一
ｗｏｒｋ）ｎｎｇ
—
（ 
ｔ，
Ｑ 
ｉ 

。
ＤＱＮ利用深度神经网络代替ＱＬｅａｒｎｎｇ中的Ｑ表格解决了ＱＬｅａｒ

ｎｎｇ在面对


－ —
ｉ
，
ｉ

复杂环境时的维度灾难问题。
利用深度神经网络其强大的拟合能力逼近状态动作价


值函数，通过深度神经网络能够直接将原始环境作为输入，进而直接输出动作价值



Ｑ。
其算法框图如图２－
２所示 

。
ＤＱＮ损失函数


＾  ＾  ７＼ ｜
误差函数的梯  ｎ
，，
Ｑ（ｓａ）  ｎａｘ＾ｓ 
ａｖ
＾
，ｒｉ

ａ）


，


，  ａ（，
＿＿
ａ
丄．每隔Ｎ时，  ．．



环培  孟计值尚间步拷目标值网
：

 ｆ
｜
％ 参数  络 
 、


ｒ
（ｓ， ａ） 
（ｓ ａ， ｒ， ５


２＾
，
 
＾  经验池 ＿ 

＿
图２２ＤＱＮ算法框图


ＤＱＮ算法包含两个初始参数致的神经网络其名称与功能定位如下

一
， 

：
Ｕ古值网络：
负责根据当前状态ｓ计算动作空间中所有动作的价值Ｑ（
ｓ，
ａ），


根
１ 

３


据策略输出动作用于和环境交互生成下采样时刻状态以及即时奖励
＇
一
，ｓ，
ｒ 

；
标网络负责计算标值中的ｇ部分取计算结果的最大值作为下


＇
２．
目：目Ｑ（
ｓ，
ａ），
采样时刻状态价值Ｖ网络参数定期从估值网络复制
一
Ｓ
（〇；


。
估值网络将环境状态变量ｓ作为网络输入，计算得到动作空间中全部动作的动



作价值？，
巧，采用策略以（
１
的概率选择价值２０， 
ｌ
ｆ，
巧最高的行为 

，
将当前状态与反馈信息组构成组数据存入经验池将旧的数据剔除保持


一
经验池总量不变，
从经验池中随机抽取部分数据进行估计值网络的训练 

。
网络训练的目标值由目标网络结合即时奖励值ｒ给出，
其计算公式如下 

：
Ｓａｒ
ｇ
ｅ／  ＋ （
２－
１０


）
其算法流程如下 

：
（
１
）初始化经验池Ｄ，初始化估计网络参数＜９，初始化目标网络参数化＝


心
（
２）重复以下步骤 

：
初始化状态ｓ 
＝
七 

；

：

Ａ
执行动作得到奖励下状态，和终止符必



一
ａ，ｒ、
记录样本至经验池若容量不足则从头覆盖记录
＇
（
ｓ，
ａ，
ｒ，
ｓ，
＜＝
〇Ｄ，


；
当经验池样本数大于定数量尺训练开始
一


：
（）
从经验池随机采样ｍｉｎｉｂａｔｃｈ样本５个分别输入两个网络
，


；
计算＆ 沒ｄ＞
’
ｖａ 
＝
）、０
＝
厂  ＋Ｘ１
—
 ｍａｘ０（
５，
沒）
ｇｅ，ｆ
ｌ 
／，ａｒ 
 （） 

；
通过最小化损失函数－
０叫￡，
）
来更新估


计网络参数Ｉ


每隔ｃ步更新Ｒ  — 没 

；
直至终止状态Ｌ／ 

；

。
１ 

４


ＤＱＮ相比Ｑ
－
ｌｅａｍｉｎ
ｇ主要改进以下三点 

：
１、使用深度神经网络，直接从环境映射到动作价值Ｑ 

；
２、采用经验池训练，充分利用历史数据 

；
３、增加目标网络形成双网络结构，提髙稳定性与收敛性 

。
ＤＱＮ这种拥有经验回放能力的算法叫做离线策略算法，重复使用过去经验不



能用于所有的强化学习算法，但在ＱＬｅａｍ
－
ｉｎｇ类的算法上很有效。ＤＱＮ算法解决


了传统强化学习的维度灾难问题，
但ＤＱＮ是基于ＱＬｅａｍ
－
ｉｎｇ算法结构的，因此需


要计算每
一
个状态下每
一
个动作的动作价值，导致输出动作必须进行离散化，使得


ＤＱＮ的控制精度下降，所以ＤＱＮ不适合独立解决连续动作空间的控制问题 

。
２３２  ＤＤＰＧ 
．．
算法


虽然基于值的算法结构清晰，便于理解，
收敛性和稳定性较高，
但很多问题需


要连续的动作空间来控制。ＤＤＰＧＤｅｅｐＤｅ（

ｔｅｒｍｉｎｉｓｔｉｃ  Ｐｏｌｉｃｙ  Ｇｒａｄｉｅｎｔ）算法是结合基


于值的与基于策略梯度的方法，
并参考ＤＱＮ的训练方式所提出的方法。ＤＤＰＧ 

的
算法吸收了  ＤＱＮ的双网络结构，并扩展成两种网络，
动作网络（
ＡｃｔｏｒＮｅｔｗｏｒｋ）与评


价网络ｉｃＮｅｔｗｏｒｋ）
Ｃｒｔ因此ＤＤＰＧ共拥有四个深度神经网络其名称与功能定


—
ｉ  。，
（
位如下 

：
１．  Ａｃｔｏｒ当前网络：
作为ＤＤＰＧ算法策略的实现网络，又名策略网络，
负责根


据当前状态ｓ输出控制动作ａ 

；
Ａｃｔ标网络通过经验池中下时亥状态，预测下个输出动作辅助



＇
ｏｒ目
一一
２．：
Ｕａ，
策略网络的更新；网络参数定期从策略网络复制 


；
３．  Ｃｒ
ｉｔｉｃ当前网络：
负责评估策略网络输出动作的价值，
根据当前状态ｓ计算策


略网络输出的动作ａ的价值 

；
标网络通过经验池中下时刻状态，与下动作计算



＇
４ Ｃｒ
一
一
．
ｉｔｉｃ目：ａ
辅助Ｃｒｉｔｉｃ当前网络的更新；网络参数定期从Ｃｒｉｔｉｃ当前网络复制 


。
１ 

５


ＤＤＰＧ的算法结构如下 

：
Ａｃｔｏｒ网络损失函数 Ｃｒｉｔｉｃ网络损失函数


 梯度
＇
梯度 Ｑ（
ｓ，
ａ）ｍａｘａ
（＾  ．
ａｊ  ？
步
＾２
（
Ｘｃｔｏｒ＾ｒ  Ａｃｔｏｒ
ｕ
 
（！ｒｉ  ｔｉｃ湓前

…
ｊ 
Ｃｒｌｔ  ｊ  ｃ  ＿  

标
 网络  络 厂 网
｜１
口

 
１
网络 １１
＾ 

各
ｓ


〇
’
ｓ
＇
ａ
＇
 （
Ｓ ’
ａ
）  （
Ｓ
 ’
ＳＷ ）
经验池



（，

图３ＤＤＰＧ算法框图


＿
Ａｃｔ
ｏｒ当前网络将环境状态变量ｓ作为网络输入，直接输出控制动作ａ，
将下


一
采样时刻状态变量输入Ａｃｔ标网络得到下采样时刻最优动作将得到



＇
ｏｒ目
＇
一
ｓ，
ａ，
的信息存入经验池将旧的数据剔除保持经验池总量不变，，从经验池中



随机抽取部分数据进行Ａｃｔｏｒ当前网络与Ｃｒ
ｉｔｉｃ当前网络的训练。其中Ｃｒｉｔｉｃ网络


与ＤＱＮ的双网络训练方法相同，而Ａｃｔ
ｏｒ网络采用梯度上升法求解，
Ａｃｔｏｒ网络更


新函数如下 

：
Ｊ ＝ ｍ
ｊ
ｘ
Ｑｉｏ｛
ｓ， 
７：
ｄ｛
ｓ
））  （
２－
１１


）
连续动作空间中的学习难点主要在于策略的探索，
通过将从噪声过程ｎ采样的


噪声添加到我们的参与者策略中来构造探索策略从而对输出动作进行剪裁 

。
１ 

６


算法的流程如下 

：
（
１
）初始化经验池Ｄ，初始化两个策略网络参数＝
初始化两个评价网络参


教＝
 ９ 

＇
（
２
）重复以下步骤 

：
初始化状态Ｓ 

；

：
根据当前状态Ｘ选择动作《＝ 其中ｉＶ为随机噪声 


；
执行动作得到奖励下状态ｆ和终止符Ａ


一
ｒ、
记录样本ａ，尺至经验池Ｄ，若容量不足则从头覆盖记录 


；
当经验池样本数大于定数量玢训练开始
一


：
）
从经验池随机采样ｍｎｂａｔｃｈ
ｉｉ
样本Ｂ个分别输入两个网络
， 

；
Ｍ＾ Ｑ６ｒ）
，
ｔ
ｉ８
＾
８＾
（
ａ）－
＝
ｒ  ＋ｒｉ
－
ｄｎｉａｘ
ａＱ（ｓ，
ａ，
ｅｖａ／ａｒ
ｇｅｌ（

ｒ） 

；
最小化损失函数
＾  更新评价网络

 ｗ
参数


最大化价值函数
士  更新策略网络参


数心


每隔步更新
＇
Ｃ６＞
＜
－
０、妒 

；
直至终止状态 

；

。
ＤＤＰＧ算法能够解决连续动作空间问题，但其训练难度要高于ＤＱＮ算法， 

通
常在解决问题时，ＤＤＰＧ算法需要更多的训练数据和训练时间 

。
１ 

７


第３章基于强化学习的非线性系统自适应控制


３．１问题描述


本章针对类连续时间的非线性系统设计基于强化学习的适应控制算法 

实
一
自，
现非线性系统的快速准确控制。为验证强化学习的自适应控制性能，设计仿真实验



对目前经典的强化学习算法进行训练与控制效果的验证。

实验对象为倒立摆的起摆


及稳摆控制 

。
考虑个简单的无摩擦的钟摆最初挂在个向下的位置钟摆质量均匀 

能
一一
，，，
够绕端自由转动通过施加左右两个方向的扭矩进行控制钟摆顶端质量为

一
，。ｍ 

，
摆杆质量忽略不计，长度为１，重力加速度为ｇ，钟摆与垂直向上方向的夹角为０ 


。
用于控制的扭矩大小范围为Ｈ其中＋２
＝＝
ｗ２ ｗ
－
， 

。
（ａｘ），ｍｎｉ
；ｍａｘ
则重力在转动方向的分扭矩为ｍｇ／ｓｉｎ
（
０
）
。其角度计算表达式如下 

：
Ｈ）
ｍｌ
２
 ＊
ｄ６＝ｍｇｌ
２
＊
ｓｉｎ
（
＆）＋ｕ 
  （
３２．
强化学习算法设计


３．２．１
环境设计


观测器输入为钟摆的可测参数，即角度０与角速度其中角度的计算方式为



° °
弧度的形式，即角度的范围为－
３．１４
￣
３．１４ｒａｄ对应－
１８０
 －
＋１８０。考虑钟摆在垂直


向下的位置时，钟摆左右变化很小的角度，但弧度却会从－
３．１４跳跃到＋３．１４，形成


数据的断层也就是说单纯观测弧度数据会存在突变现象这不利于网络的收敛

，，， 

。
为解决这问题将角度这单变量进行分解用角度的正弦值与余弦值两个变量



一一
，，
表示角度的大小，如下图３
－
１
所示，弧度分解后解决了空间不连续的问题 

。
１ 

８




、
１  ／Ｉ
：
／＼ ｗ＼
／＼ｆ
ａ
＾＾
ｉ；
；ｒ／  ／Ｔｎ  ｉ ／ 

７
／ ／  ／
：

 ！
／ ／ 

■
２


７
／ ／ 弦值



Ｊ  ｖ／ｆ：
 
余弦值
 ｉ  ，  ｉ  ，    ｕ

弧度


０ ２ ４ ６ ８ １０ １２ １４ １６ １８  ２０


时间／ 

Ｓ
图弧度分解示意图


－
３１
奖励值的计算需要考虑多个参数，包括角度心角速度控Ｍ量ｆｗ。

其表达


式如下所示 

。

２２
＊
ｒ＝
－
＾
－
〇．ｌ
（
＾）
－
〇〇〇
．ｌ
＊
？（
３
－
２


）
角度作为控制目标，
肯定是奖励值设计时最先考虑的，
角度越大，距离控制 

目
标越远，
就应获得更少的奖励。同样，在钟摆到达稳定角度时，
角速度的大小也会


影响钟摆能否稳住，显然，
角速度越小越有利于钟摆稳定。最后，
实现控制目标所


用的控制量越小，
说明控制性能越好，
但这不是完成控制目标的决定性因素，所以


控制量的权重设置的比较小，
仅在稳定时即角度０，
角速度＾全为＾
〇值附近的时


候起作用 

。
由于钟摆在任何角度都有可能，
所以不设立终止条件，
即终止变量卢０ 

。
３．２２．
网络设计


ＤＱＮ设计：
ＤＱＮ算法基于离散动作空间，算法中包含两个神经网络。
当前 

Ｑ
网络与目标Ｑ网络。
为便于ＤＱＮ算法过程中，
将当前Ｑ网络的权值拷贝到目标 

Ｑ
网络中，
ＤＱＮ的两个神经网络采用相同的结构。
Ｑ网络根据状态Ｓ计算状态动作


价值采用全连接层结构设计神经网络包含个输入层两个全连接隐含



一
，，
层个输出层输入层节点与观测器输出维数致即输入层节点数为两层


一
一
，。，３，
１ 

９


隐含层节点数分别为个个输出层节点数与状态空间的维数致这里输



一
２４、４８，，
出的动作空间为｛
－
２， ０ ２
，
｝
，
因此，
输出层节点数为３。
所述网络结构如下图３
－
２ 

所
不 

。
深度强化学习算法的核心仍是神经网络，
设计深度神经网络的结构对强化学习


算法起着至关重要的作用，由于深度神经网络隐含层层数多，

网络结构复杂，因此


为了加快深度神经网络收敛速度，在设计的强化学习算法中，
策略网络与评价网络


的隐含层均采用ｒｅｌｕ函数 

：
ｒｅｌｕ
（
ｘ
）
＝
 ｍａｘ
（
〇，
ｘ
）  （
３
－
３


）
ｒｅｌｕ函数计算简单，
无需指数运算，能大大加快反向传播速度 

。
输出层基于状态动作价值，没有固定的数值范围，
因此不设激活函数 

。
（
输人层

） 
／ ＼ 
／隐含层
１  Ｖ
＼



＼隐含层
２
（

输出层


Ｘ


）
＼ｎＡＨ／


图２ Ｑ网络结构图


－
ＤＤＰＧ设计ＤＤＰＧ共拥有四个深度神经网络两个策略网络与两个评价网



—
：，
络其中同类型的网络结构相同即分别设计个策略网络和个评价网络即可

一一
，， 

。
策略网络采用全连接层结构包含个输入层两个隐含层个输出层

一一 

一
，，，，
个缩放层同样输入层与观测器输出维数致即输入层节点数为由于连续



一
。，，
３，
状态空间策略输出更加复杂，
两层隐含层节点数分别为４００个，３００个，
激活函数


采用ｒｅｌｕ函数。由于策略网络直接输出连续的控制动作，输出层节点数为控制变量


的个数即输出层节点数为１
个 

。
对于输出连续动作的强化学习算法，
策略网络的输出层根据实际输出的范围选


择采用双曲正切ｔａｎｈ函数或者ｓｉ
ｇ
ｍｏｄｉ
函数 

：
２０






ｘ
－
＾
一
ａｎｈｘ＝ － —
＾
ｔ
（） ７３
－
４）
（ 

ｍｏｄ
＾
＾ —
ｓ
＾
ｇ

ｉｉ
）
３５
－
＾（ 

）
这里采用ｔａｎｈ函数作为输出层激活函数该函数将动作限制在，
－
１
？
＋１
的范围内 

，
因此它是０均值的。最后设置缩放层缩放系数为２，

保证策略网络输出的幅值是合


理的 

。
／  ＼

 ／
：ｒＹＴ


＼ｇＡｕ／


图３ＤＤＰＧ策略网络结构图


－
评价网络包含两部分输入，
观测器输入与动作输入，其结构包含两个输入层 

，
个隐含层个叠加层个输出层两个输入层分别接受观测器输入与动作输



一一一
，，。
入，
其节点数分别为３个和１
个，隐含层位于观测器输入层与叠加层之间，
节点数


为４００，
激活函数为ｒｅｌｕ函数。叠加层将观测器端隐含层的输出与动作端输出通过


全连接方式叠加起来，节点数为３００，
激活函数为ｒｅｌｕ函数；输出层节点数为１
个 

，
无激活函数。其结构如下图３
－
４所示 

。
观测器端
一＾
管  ／ ＼ 

输入层Ｒｅ
 ／  叠加 ＼
ｉｕ
广



、
＾  Ｊ  ｖ  ｙ＼／  层  Ｖ输出层ｙ


 （ 

）
Ｒｅｌｕ
个 
＾动作端＼ ／


Ｖｍｘｍ
 ＿
）


／
图４ＤＤＰＧ评价网络结构图


－
２ 

１


３．２３．
通用参数设计


为验证不同算法的特点，选用相同的训练参数，其中仿真步长为００５．

ｓ，每次迭


代仿真时长２０ｓ，
折扣因子为０９．
，学习率为０００．１，
奖励池大小为３０００，
训练的ｂａｔｃｈ


为６４。训练的结束条件为：
到达５０００次迭代或者最近５次训练的平均累积奖励高


于－
１１００ 

。
３．３仿真实验


在同
一
计算机中运行仿真环境，
计算机ＣＰＵ主频为３．
８ＧＨｚ，
其中不同强化学


习算法的训练过程如下图３
－
５、３
－
６所示 

。
０．
 Ｘ  ／
？？
Ｘ
＇
ｖｋＶ ＊  Ｘ  ＸＸＸ 
 ｘ  ｖｘ 乂  Ｖ  

Ｘ
「


：


＂
３０００ 
－
＂
 公ｆ
２


＇
Ｘ＊
＇


Ｕ
－
５〇〇°
１ ＼｜
ｆ １   １＼
７０００  ｉ  Ｉ
１
 

ｆ
ｉｌ
 Ｐ

 Ｉ
１／


？


８０００  ＼
 ｊ  ＼
ｌｉ
０ 

６


！
９０００ 
－


｜

１１
００００ 
－
０ ５ １０ １５  ２０ ２５ ３０ ３５ ４０ ４５ ５０



Ｅｐｉｓｏｄｅ  Ｎｕｍｂｅｒ
图３５钟摆模型ＤＱＮ学习训练过程累积奖励曲线



５００


！
－
２〇〇〇
 ｔ
，
〇＾ｆ


Ｑ ＾  ｆｔ
－


誦
３５００
＾ £ 

＊
－
〇

１ 

－
４０００
０  １０  ２０３０４０ ５０ ６０７０８０



Ｅｐｓｏｄｅ  Ｎｕｍｂｅｒ
ｉ
图３６钟摆模型ＤＤＰＧ学习训练过程累积奖励曲线


２２




从图中可以看出，ＤＱＮ算法训练初期存在幅度很大的波动，这是探索过程不稳


定导致的，ＤＤＰＧ算法初期存在较小的波动，整体奖励曲线呈稳定上升趋势，

波动


幅值很小，也就是说ＤＤＰＧ算法的稳定性更加优秀。在收敛速度上，

ＤＱＮ算法所


用迭代次数较少，同时考虑算法的复杂度，最终影响的是训练时长，其中ＤＱＮ 


算
法训练需要４７代，
训练时长４２６２９ｓ．
； ＤＤＰＧ算法需要７６代，训练时长１２６２７ｓ
．


；
ＤＱＮ算法的收敛速度是快于ＤＤＰＧ很多的 

。
ＤＱＮ算法虽然收敛性明显好于ＤＤＰＧ算法，
但离散状态输出带来的局限性会


影响控制的效果。
下图３
－
７、３
－
８所示为不同控制算法的控制过程 

。
一， 

一
０４
     
，

「
１１．
１
１
 Ｘ１６５


？１．
ｐ
Ｕ  Ｚ
３ Ｋ ＾  Ｙ  ００２２３
．
１７２


卜
衿七Ｉ
－


Ｉ
［ｖｙ

Ｚ 扣 
－
１
＾１ 

２
２

ｆ
 

，
 ｙ 

卜
〇
ｇ
０  ２ ４ ６ ８ １０  １２１４ １６  １８ ２０


时间／ 

Ｓ
图３
－
７ＤＱＮ算法钟摆控制过程


４



＂

ＮＨ Ｊ  ｆ
—
＼ｖ＼
２ Ｙ－
０．
０１５６７０ 

７
、
」四ｒ 

－
４
 


０  ５  １０  １５  ２０


时间／ 

Ｓ
图３８ＤＤＰＧ算法钟摆控制过程


通过计算１５ｓ
－
２０ｓ之间数据的标准差，验证不同算法控制效果的优劣，其结果



如下：
ＤＱＮ算法：
０００２
．１，
ＤＤＰＧ算法：
２０．３８６ｅ
－
０７。从结果看出，
ＤＱＮ算法受控


制动作空间维度局限，
ＤＤＰＧ算法的稳态特性好于ＤＱＮ算法 

。
２３




３４
．
小结


本章针对钟摆这非线性系统通过设计仿真实验研宄了不同的深度强化学



一
，，
习算法的训练与控制特点。通过实验可以得到以下结论 

：
不同强化学习算法都能完成钟摆的起摆及稳摆控制，在相同的训练参数条件下 

，
ＤＱＮ算法的收敛性最好，但控制性能局限大，基于连续动作空间的ＤＤＰＧ算法改



善了控制效果，但训练所需的时间大大增加。不同的算法特点不同，因此需要综合


考虑控制性能与收敛性，根据不同的需求选择合适的强化学习算法 

。
强化学习能够实现模型理论最优的控制策略，但当模型是时变对象时，例如被


控对象的增益发生改变时，强化学习控制器需要学习新的控制策略来适应对象特性



的变化，这是存在
一
个学习过程的。然而，纯粹的强化学习算法，其训练过程需要


大量的数据从而需要很长段时间来自趋优的学习到最优策略因此强化学习


一
，
。，
算法独立用于时变对象过程控制时，收敛速度慢，鲁棒性不能得到保障 


。
２４




第４章基于强化学习的自适应补偿控制系统


本章针对强化学习收敛速度慢鲁棒性不足这问题提出了种全新的基于



一一
，，
强化学习的自适应补偿控制系统。其中强化学习算法作为前馈控制器与反馈控制器


构成自适应补偿控制结构。
反馈控制器起主导控制作用，强化学习的决策输出起优


化控制作用。
反馈控制器的主导控制作用加快强化学习算法的收敛速度与稳定性 

，
强化学习的输出提高反馈控制器的控制性能。将强化学习与前馈控制结构相结合 


，
使双通道复合控制器相互补充，不仅可以实现高精度的非线性系统控制，而且解决



了强化学习的鲁棒性问题。
新的控制系统降低了非线性系统控制器的设计难度，


同
时具有强大的鲁棒性和抗干扰能力，并且理论上达到最优的控制效果 


。
４．１基于强化学习的自适应补偿控制算法


４則馈反馈控制系统


－
．１．１
在工业过程中，
如果被控对象存在明显的可测干扰，通常会在控制回路的设计


上加入前馈控制器。
例如汽包炉协调系统中，该系统是
一
个两入两出的耦合系统 

，
控制量为给煤量与汽轮机阀门开度，
被控量为主汽压力与机组负荷。如果单看给煤


量与主汽压力的控制回路，那么负荷变化就可以看作可测外扰，

根据机组负荷与给


煤量曲线设计前馈控制器加在给煤控制回路上，
将大大增加控制回路的稳定性 

。
在前馈反馈控制系统的设计过程中
－
，
很明显，
前馈控制器的设计不受线性反馈


控制器的影响，
前馈控制器的加入能补偿可测干扰对控制回路的影响，等价于降低


了回路的控制难度。因此，前馈控制器的加入对反馈控制器的参数影响也不会很大 

。
前馈控制回路与反馈控制回路之间，前馈控制回路能够立即做出响应，但不能



准确完成控制。而反馈控制回路，由于控制量是根据被控量与设定值的偏差来计算



的，
因此存在时间上的滞后，
但最终的结果是趋于零偏差的。
因此反馈控制回路是


慢速的但准确的面对控制难度较高的对象前馈是解决问题的个有效的方法
一
，
。， 

。
２５




４．１．２强化学习前馈控制器


搭建前馈控制器时需要建立对象的模型，进而通过计算获得。
如果能够根据数


据获得通用的前馈控制器，那么将大大降低控制系统的设计难度。神经网络拥有优



秀的非线性映射能力，如果能够利用神经网络来设计前馈通道，那么前馈控制器设



计将大大简化 

。
结合上章强化学习的自适应控制能力示教学习的思想前馈反馈控制系统



一
，，
双回路互补结构提出了种基于强化学习的适应补偿控制系统强化学习智能



一
，自，
体作为前馈控制器，对反馈控制起优化补偿作用，

同时将反馈控制器引入强化学习


算法中，
提高强化学习的收敛性与稳定性。其算法结构如下 

：
前馈回路


可测扰动不可测扰动


  ［
ｍｍＪ


设趙
 ＿ Ｌ  ￣
— 

？
｜  〇

 反馈问路 

＾
图强化学习自适应补偿控制系统结构


－
４１
如图４－
１
所示，
控制系统由前馈回路与反馈回路组成，
反馈控制器与强化学习


前馈控制器是双通道交叉串并联的关系，

被控量的设定值与实际值的偏差送入反馈


控制器，反馈控制器根据偏差给出方向正确的反馈控制动作《，
该动作同时送入强


化学习的观测器，构成串联关系，
强化学习智能体收到反馈控制动作信息后，同时


根据环境状态计算控制策略，
给出前馈优化控制量《，反馈控制动作ｗ与前馈优化


控制量ａ叠加，构成并联关系，
作为最终动作用于控制被控对象 

。
算法搭建过程如下 

：
第步反馈回路的设计由于强化学习己经拥有适应能力如果反馈控制



一
，：
自，
２６




器也采用自适应控制器，那么在前馈反馈的双通道结构下－
，
两个同时自适应的控制


器会互相影响，产生过度校正，
从而降低控制品质。
根据被控对象特性，设计经典


控制算法如ＰＩＤ控制、模糊控制、预测控制等。如果被控对象存在非线性环节， 


则
取稳定工况下进行局部线性化再设计线性控制器

一
， 

。
在进行反馈控制器参数整定时，由于其与强化学习配合进行优化控制，反馈控


制器只需稳定完成控制目标即可。
因此，
采用保守的设计目标，在参数整定时看重


稳态特性；由于强化学习前馈控制器的优化作用，

快速性可以通过前馈进行补偿 

。
注意反馈控制器积分问题由于训练过程中控制标不能按时完成误差直存在

一
，目， 

，
因此积分容易饱和所以动作预估器如带有积分作用定要进行抗积分饱和优化

一
，， 

。
设控制器输出的范围为，心？），以正作用的ＰＩＤ算法为例，
当控制量ｗ  ＞？
ｍａｘ 

，
且ｅ ＞０时，
令积分增益归零，
防止控制量《的继续增加，
同理当控制量ｗ 

，
且ｅ＜０时，
令积分增益归零，
防止控制量ｗ的继续减小 

。
第二步，前馈回路的设计：
前馈回路的设计过程中，强化学习的参数设计采用


普遍的方法即可在上章中讲过的强化学习设计方法在这里同样适用就不再赘


一
，，
述。
需要注意的是强化学习前馈控制器的输入变量的选择与结构的搭建以及输出层


缩放系数的设置 

；
强化学习智能体作为前馈控制器与反馈回路构成复合控制系统，强化学习算法



的训练方式需要配合反馈控制。首先，经验池需要进行扩充，经典强化学习经验池



的扩充为其中扩充的为反馈回路的控制量
’ ＇＇
＾，
＂３１
５
，
《，
０！
，
７
％１？
，
《，，
《 

。
（）（）
其次，
强化学习的观测器同步进行扩充，由经典的环境信息Ｓ扩充为环境信息


与反馈控制量（
Ａ？
）
，
将反馈回路的信息作为策略网络的输入，
便于强化学习的自 

适
应控制 

。
再次，
根据实际控制系统的控制量范围，
设置缩放系数的大小，
缩放系数理论


上不大于控制量的上限值大小 

。
最后，搭建前馈回路，将强化学习前馈控制器的输出与反馈回路的控制量进行



叠加，
作为最终的控制量送入被控对象 

。
２７




４．１．３强化学习前馈控制器训练算法




＋ ＾  最终动作





前馈补偿动作


   

Ｖ
＾
（ ＾奖励 （  ＾
智能体 ？ 
环境


Ｖ ｋ  Ｊ Ｖ 
＾



／
 状态
 ＼


、

、
＾ 
参考学习动作
＂
ｒ 

＼
线性反馈控制器


Ｖ ｔ  Ｊ


Ｉ

图４２强化学习自适应补偿控制系统流程图


过程控制系统是基于数据的，连续的，
非线性的。ＤＱＮ算法输出离散的控制动


作，
在过程控制中的适用性较差，
ＤＤＰＧ是基于策略梯度的优秀算法，
输出连续的


动作空间并且面对基于数据的环境时有良好的稳定性和收敛性。因此本文主要研究



的强化学习算法是以ＤＤＰＧ为基础的 


。
基于强化学习的前馈控制器与传统的前馈控制器作用略有不同，
强化学习以神


经网络作为策略计算的内核，
其优势在于神经网络支持任意数量的输入参数，
从而


可以轻松将可测扰动信号作为训练数据，

实现可测扰动的克服，
即使对控制回路影


响较小的扰动，
作为参数参与强化学习训练也能提高控制精度。强化学习自适应补


偿控制算法同时保留了强化学习与反馈控制的优点，

使得新的控制算法同时具有强


化学习的自趋优能力与反馈控制的鲁棒性 

。
上节介绍了控制系统框架的搭建与运行原理本节介绍强化学习前馈控制器



一
中智能体的训练方式 

。
２８




其训练算法流程如下 

：
（
１
）初始化经验池Ｄ，容量为Ｐ；初始化线性反馈控制器参数以Ｗ  ＝  ／〇ｙ）表示 

；
初始化两个策略网络参数Ｉ化心初始化两个评价网络参数
’
（
２＝
供
＝
供
） 

；
（
３）初始化环境状态＝
重复以下步骤 

：
计算ｍ

＝
 ／〇）、ａ＝
 々〇ｙ
，
ｗ，供） 

；
最终控制动作 

＋
执行动作％得到奖励下状态，和终止符ｒ计算ｗ／ｆ
＇
ｒ＝
一
？ａ／，
，ｆ，

 （） 

；
记录样本夂《４至经验池〇若容量不足则从头覆盖记录
＇
（
＾？，
《＾，，，


；
ｓ＝ｓ 

；
当样本数大于定数量Ｋ训练开始

一
， 

：
从经验池中随机采样ｍｉｎｉｂｅａｃｈ样本Ｂ个，
分别输入四个网络 

：
计算 匀ｍａｘ 
’ ’ ＇
＝
０卜Ｍａ炉）、２
＝
，＋ｒ１
—
Ｍ  ａ炉）
ｇｅ，
 ，，，
，ａｒ 
 （  ａ，，，


；
最小化损失函数更新评价网络参数？


最大化价值函数１＾及？，￥）為以（
更｜策略网络

 １
？
｜＞（（））
，
？，５？
参数（９ 

；
每隔Ｃ步更新
１
沒  ＜
—
０、
妒 

；
直至终止状态或重复Ｎ 

次
直至重复Ｍ次


４２．
仿真实验


４２．．１
实验对象


水箱液位控制系统包括个形状规则的容器个水泵个排水阀门如图



一一
一
，，。
４－
３所示为单容水箱液位控制系统工艺图底面积〇为，
２ｍ
＊
２ｍ。
图中私（单位为ｍ
３
／ｓ


）
为入水流量，由水栗进行控制，最大入水流量为１０ｍ
３
／ｓ。
容器输出管道流量不


可调节其管道阀门截面积定义为水流量定义为位为
２
Ｍ（单
３
出
＝
，
＜３〇〇２５．
ｍ，ｍ／ｓ 

。
？？，
）
２９




控制目标为水箱的液位高度，
定义为Ａ 单位为（
ｍ），
水箱最大高度为２０ｍ。水箱液


位控制系统作为经典的非线性被控对象，其主要特点为运行过程中参数发生变化导


致存在非线性是适应控制算法解决的主要对象特性之

一
，自 

。
ｑＣ
＾


ｎ
ａ ｈ（
ｔ
）  

ｎ
ａｏｕｔ


Ｄ￥０
— 

—
ｕ
 ｑｎ



图单容水箱液位控制系统


－
４３
根据设定条件，该仿真模型表达式如下 

：
 ４－

１
ｄｈ｛ｔ）．．  ．  ．
（ 

）
ａｔ
（
４－
２


）
４２２
．．
强化学习自适应补偿控制系统搭建


模型确定后，进行控制系统的设计。首先设计反馈回路，

由于水箱液位控制系


统是个非线性系统在水箱液位高度的工况下采用泰勒展开局部线性化建立


一
，
ｌ〇ｍ
局部线性模型。设水箱表达式中非线性部分为／（
／７
）
＝
 Ｖ＾，在／！
＝
１０时进行泰勒展开


得到下式 

：
／（
１０  ＋Ａ／ ｊ
）
＝
 Ｖｉ〇＋ —
ｉ＝Ａ／７  （
４－
３ 

）
２Ｖｌ 

〇
根据局部线性化后结果，
得到局部线性传递函数如下


Ａｈ
（
ｓ）
 ＿
 １２．
６
 （
４－
４）
ａｗ
 ⑴ ５０．６ｓ＋ １


根据传递函数，整定ＰＩＤ反馈控制器参数，
参数整定追求鲁棒性，
釆用ＰＩ 

结
构得到整定参数为分＝
２，
幻＝
０．０６ 

。
３ 

０


—
— ■ ■ ■ 

—
０
■


ｙ


／
８ ／




１
Ｓ 

／
Ｓ６ 

Ｊ
然 

；
睬 

，


Ｌ
４
设定值


 

－
２
－  


位
１ 

〇
０  ５０  １００  １５０  ２００


麵《 ＿／ｓ


图线性Ｄ控制下液位高度控制曲 

线
－
４４ＰＩ
强化学习前馈控制器需要设计的参数主要有观测器的设计，终止条件的设计 


，
奖励值的设计，强化学习网络设计，
训练参数设计 

。
观测器反映输入智能体的环境信息，取水箱液位测量值，

水箱液位偏差当前值


及累积值作为观测器输入。水箱液位值反映系统非线性信息，

水箱液位偏差当前值


及其累积值反映控制目标完成度，这些信息基本满足强化学习训练的环境状态要求 


。
终止条件的设计是反映训练是否中断的标志，取液位高度高于上限２０ｍ时， 

终
止符ｄ
＝
ｌ。
奖励值主要根据偏差与终止符进行设计，取偏差绝对值进行计算。其计


算方式为，当误差绝对值｜
ｅ
｜
＜〇．ｌｍ时，
奖励值ｒ 
＝
 ｌ〇，否则ｒ＝－
］，
当时，
ｒ＝－
ｌ〇〇 

。
强化学习前馈控制器采用ＤＤＰＧ算法，
因此同样需要设计策略网络与评价网络 

。
策略网络采用全连接层结构包含两个输入层个叠加层两个隐含层

一 

一
，，，，
个输出层个缩放层观测器端输入层与观测器输出维数致反馈动作端输入



一
一
，。，
层与反馈动作维数致即输入层节点数分别为个和个叠加层与两个隐含层



一
，３１，
节点数为４８个，
激活函数均采用ｒｅｌｕ函数。由于策略网络直接输出连续的控制动


作，
输出层节点数为控制变量的个数即输出层节点数为１
个。
采用ｓｉ
ｇ
ｍｏｄｉ
函数作


为输出层激活函数该函数将输出限定在，
〇
？
＋１
的范围内。
输出层缩放系数的选择 

，
由于缩放系数的大小决定强化学习前馈控制器输出的控制量幅值，直接影响强化学



习前馈控制器对反馈控制回路的影响比例。
因此，
缩放系数是强化学习控制器设计


的个主要参数容易想象缩放系数越大强化学习前馈控制器对反馈回路影响



一
。，，
能力越强，
结合强化学习的自趋优能力，控制效果也会越好，
为保证最优的控制效


３ 

１


果，取缩放系数为控制量上限值１０ 

。
＼  ＼

 ＼
反馈力／＼ Ｒｅｌｕ  Ａ Ｒｅｕ  Ａ Ｒｅｌｕ
 

层
Ｕ＾  Ａ Ａ ／
ｌ
 ＾
Ｉ


／

ｙ —
？ｖ＿
ｙ —
？ｖ＿
Ｊ
图强化学习前馈控制器策略网络结构图


－
４５
评价网络包含三部分输入，观测器端输入与两个动作输入，其结构包含三个输



入层两个隐含层个叠加层个输出层三个输入层分别接受观测器输出

一
一
，，，。 

，
前馈动作输出与反馈动作输出，
其节点数分别为３个，
１
个和１
个，隐含层与叠加


层节点数为４８，激活函数为ｒｅｌｕ函数，
输出层节点数为１
个，
无激活函数。
其结构


如下图４－
６所示 

。
￣￣
？


＼
—
＾ （
隐含  Ｊ ＼

 ＼个
端输入 层１
 ／／   ＼


＾
＼
＼／７ 
ｅｌｕ
 Ｔ＾ 

＼隐输出层
叠加层
ｙ，〔 

〕
 Ａ  ／
Ｒｅｌｕ
Ｒｅｉｕ
前馈动作端输
＾
反馈动作端输ｎ！  丨＾
？
 ／
Ｊ
＾
入层 
？Ｖｊ   Ｖ 

Ｊ
、
 
图４６强化学习前馈控制器评价网络结构图



智能体参数的设计主要包括，
采样时间，
每次训练的时间长度，学习率，
折扣


因子，
缩放系数，经验池大小，
每次训练的ｂａｔｃｈ大小，训练结束的累积奖励阈值 

。
本实验设计参数如下：
采样时间为〗ｓ，
每次训练时长６００ｓ，
学习率００００
．〗。
折扣因


３２




子影响策略对未来奖励的重视程度，越大越注重未来奖励，但不能大于１，

否则会


陷入循环陷阱。为了快速实现控制目标令偏差

，
ｅ趋于０，
未来奖励是比较重要的 

，
因此折扣因子取０９９
．。经验池大小为１０００，训练采样ｂａｔｃｈ为３２。
根据时长与奖励


设计，理论累积奖励小于６０００，因此当累积奖励达到３６００时停止训练 


。
４２３
．．
纯强化学习控制系统搭建


为了验证强化学习适应补偿控制系统的有效性针对同被控对象设计纯强



一
自，
化学习控制系统进行对比实验。其控制框图如下图４－
７所示 

。
纯强化学习控制系统的设计强化学习智能体作为唯控制器智能体以外的



一
，，
部分对于智能体来说都算作外部环境。观测器取水箱液位测量值，水箱液位偏差当



前值及累积值，可测扰动作为输入信息，
反映控制系统状态。
为便于实验对比， 

终
止条件，
奖励值与智能体参数的设定与强化学习前馈控制器相同 

。
可测扰动不可测扰动



＾丄


习
Ｉｆ器
￣ 

￣
图４７纯强化学习控制系统结构图


４２４
．．
实验结果


训练过程中，
每次初始化参数的时候，需要初始化水箱液位，也要对反馈控制


器进行初始化，尤其是带积分作用的。训练过程如下图４－
８所示 

。
实验为验证强化学习前馈控制器框架能提高强化学习收敛性与稳定性 


采
一
：，
用相同参数的纯强化学习控制器针对该模型进行训练，
训练过程如下图４
－
９所示 

。
３３




ｕｕｕ 


－
＊
？


／
３５００ 
 

／
－
／


３０００ 
－
 

／
｜
２５００ 
 

／
？ ２０００ 
 

／
Ｉ  

／
， 

ｚ
ｚ  ，
１０００
产

 —


一
—
一
—
ｆ
、
二 


ｓｏｏ 
、
：：
：

 ＾
Ｑ
 １   
ｉ  ｉ 
ｉｆ
 ！ 
兵 
Ｌ 
４ 

，
１  １５  ２２．
５ ３３５ ４ ４５ ５

 ．．
Ｅｐｓｏｄｅ
ｉ  Ｎｕｍｂｅｒ
图４８强化学习前馈控制器训练累积奖励曲线


繼
 

？
３５００ 
－
 

／
３０００
 

＾


Ｉ
＆
２５００ 
 

｜
Ｉ  ２０００   ｌ Ｉ


！ １５００
，

ｆ＼ 

Ｊ
＼


｜
？
八／
Ｎ／
ｉ
ｗ
ｉ


５００
 ｒ
 

／
５００  卩 Ｖ＾－
 Ｊ  Ｊ   ｉ
— 

一
０００ 
－
０ ２ ４ ８ ８  １０ １２ １４  １６  １８  ２０


Ｅｐｉ
ｓｏｄｅ  Ｎｕｍｂｅ 

ｒ
图４９纯强化学习控制器训练累积奖励曲线


从图４
－
８和图４－
９可以看出，
相比与纯强化学习的训练过程，
强化学习前馈控


制器的训练主要有以下特点 

：
从收敛时间上看针对同被控对象强化学习前馈控制器的训练收敛速度更



一
，，
快，
图４－
８中强化学习前馈控制器第５次迭代就完成了训练，
而图４
－
９中纯强化学


习需要２０次迭代 

。
从收敛曲线的趋势看，
图４－
８中第１
次迭代时，
就有基础的正向的累积奖励 

，
并且在训练过程中直保持正向的累积奖励而图中纯强化学习在前代都



一
，
４－
９１２
是负的累积奖励，在第１４代开始才快速增加累积奖励，之后累积奖励曲线与图１


类
似。因此，
相比于纯强化学习的训练过程，强化学习前馈控制器的学习过程中，


大
大缩短甚至省略了强化学习初期探索花费的时间，从而帮助强化学习快速的找到最



优策略 

。
３４




水箱液位


５
    

－
？
＊＊
１ｆ
”
厂、
、
一


、
／ 

广
— 产、
 一一
、 ―
ｍ

１
０、
ｚ产
ｉ
—
Ｊ／
接
５

ｊ  Ｋ  ／

液位反馈值


液位设定值



Ｉ
  
？   


 

－
５
ｉ
ｇ
〇
  强化学习控制屋  


＾Ｖｘ
ｖ
＞ＡＡ
＇
ｖｒ
／
ＶＶＶ
＼ＷＶ＾Ｖ
＞
ＡＨ／Ａｖｖ
ｖｖｖｗ
＾
ＶＶ
＞
Ｊ  

－
》＾ｙ
〇Ｌ   Ｉ  ｊ 
Ｉ

ｉ

ｉ


－
０ １００  ２００  ３００  ４００  ５００  ６０



时间／ 

Ｓ
图有反馈控制情况下第次学习过程


－
一
４１０
水箱液位


２０ 
＊


－
 
＊    － 
／！
ｊ
适
－  
１〇 ｆ
？
５ 

／
〇｜： 
 ｉ
 ，   ｉ 


：
￣￣￣＿
奖励
＿

 

￣

Ｔ
＇
叶
；
？
 

－
？
５０ 
－    


１００ 
强化学习抟制镦


左〇
 

－
｜５

＊ ■
〇
 
．
０ １００  ２００  ３００  ４００  ５００  ６００



时间／ 

Ｓ
图无反馈控制情况下第次学习过程


一
－
４１１
学习过程的稳定性，
根据学习初期的探索过程的水位变化情况分析算法的稳定


性如下图 ４所示分别为强化学习前馈控制器与纯强化学习控制器第 


次
一
，
４－
１０，
－
１１
迭代的学习曲线，通过图４－
１０， ４－
１１
可以看出，在稀疏奖励的情况下，带有反馈


控制器指导的强化学习前馈控制器的探索过程是有方向的，
并且趋于目标收敛， 

不
会超出模型允许的界限。
而纯强化学习的探索过程是无序的，
不断地试错会带来很


多实际系统不允许出现的超界情况。这也是强化学习收敛初期存在负收益的原因 


。
从学习过程中，可以反映出强化学习自适应补偿控制器的两个主要优点：１

） 

训
３５




练速度快；
２
）对原系统影响小。这对强化学习的实际应用具有重要价值 

。
实验二针对同被控对象同初始条件分析不同控制算法的控制效果
一
一
：，， 

，
其仿真结果如下 

：
〇 ＾乂一 
二二
■ ｊ．
彳
一   
１
厂二＾
／
／Ｉ  

！
（


／



＊
Ｉ 


ｉ
？   ６ｉ
扫 

ｉ
疾 

！
ａ 

．


４
？
 强化学习前馈控制
—
２ ｜｜ 
设定值



ＰＩ
Ｄ



｜｜｜１ｊ｜｜
    
ｑ
０  ２０  ４０  ６０  ８０  １００  １２０ １４０ １６０  １８０  ２００


时间／ｓ
图４１２纯Ｐｉｄ与带强化学习前馈控制器控制效果比较


由图４－
１２可以看出，在无外扰情况下，
强化学习前馈控制器能够优化ＰＩＤ 

的
控制效果 

。
实验三针对同被控对象同初始条件添加未知惯性扰动通道即训练



一一
：，，，
时未添加的扰动。
分析不同控制算法的控制效果，
其仿真结果如图４－
１３所示。由图


４－
１３可以看出，通过训练，智能体能够实现基于误差的控制效果，进而抑制未知惯



性通道下干扰对控制量的影响，
并输出相应的优化控制量来抵消干扰的影响 

。
０
 － 
二＿一
一
一



曰８
、 ／


Ｍ  ／ 
 Ｉ
Ｗ ６   ／
．


 ／
丨
＾ 

／丨
＊  
？
／
．
／
 



＿
＾ １  
设定值


２ 强化学习前馈控制

ＰＤ




０
０ ２０ ４０ ６０  ８０ １００ １２０ １４０ １６０ １８０ ２０ 

Ｃ
时间／ｔ


３ 

６


图４１３惯性扰动通道控制量干扰下控制效果对比


实验四：
在实验二的基础上，
改变水箱参数，
修改水箱入水阀门特性，
将实际


出水流量变为原流量的４０％。
仿真结果如下图４－
１４所示 

。
ｎ  
Ｉ
 ｜

  Ｉ
 


？


—
，－ —
，
－－ —  ＿
＿ —
ａ．

—
 ￣
／  —
 —
４


—

一
Ｊ  ，ｒ
…
、


、
，
／  ，
Ｅ
 

Ｉ

６
Ｓ ／
、
蟫ｉ
／   丨；
、


、
铤  —
设定值 ＼


、
２

—
ＰＤ＋ＲＬ
Ｉ
 前馈 

）
ＰＤ
Ｉ

〇
 ￣  —  —
ＲＬ 
０  ２０  ４０  ６０  ８０  １００  １２０  １４０  １６０  １８０  ２００


时间７ 

Ｓ
图时变对象控制效果对比图


－
４１４
从图中可以看出，
水箱的特性改变之后，纯强化学习算法鲁棒性差的缺点完全


暴露了出来，不仅没能完成控制，甚至存在发散趋势。ＰＩＤ算法由于在设计时就考



虑的优先鲁棒性其仍能稳定的完成控制过程控制效果最好的是

，。ＰＩＤ＋强化学习前


馈控制器算法，
其不仅使水箱液位达到了设定目标，并且保留了强化学习算法的优


化效果 

。
３７




４．３小结


本章针对强化学习算法面对时变对象鲁棒性差，
学习速度慢的问题，搭建了强


化学习自适应补偿控制系统。
首先，通过反馈控制器分析环境状态，输出参考控制


动作给智能体，
智能体同时分析环境状态与参考控制动作进行动作选择与策略更新 

。
利用强化学习自适应补偿控制系统，能够有效降低强化学习收敛难度，减少不必要



的无效探索与危险探索，
从而提高强化学习收敛的稳定性，加快强化学习算法收敛


速度仿真实验证明针对同被控对象强化学习前馈控制器收敛需要的迭代次


一
。，，
数少于纯强化学习过程，同时强化学习前馈控制器将反馈回路的控制效果提高到了


与强化学习同样的水平 

。
反馈控制器在提高强化学习算法学习效率的同时，它的存在还保障了控制系统



的鲁棒性使得面对时变被控对象时强化学习算法拥有定的鲁棒适应性为强



一
，，，
化学习自趋优的适应新的对象参数提供了发挥空间 

。
虽然算法本身是无模型的，但其搭建及训练过程需要仿真模型作为训练环境 


。
但是，当系统的模型未知时，
算法无法建立仿真模型进行强化学习智能体的训练 

，
如果直接将智能体置于实际环境进行训练，智能体的探索过程在大部分情况下时不


允许的在下章将讨论如何在无模型的情况下进行智能体的训练
一
。， 

。
３８




第５章无模型强化学习自适应补偿控制系统


本章针对无法建立仿真模型的非线性被控对象过程控制，首先通过参考网络监



督控制算法的方式，
设计了适用于前馈结构的网络监督控制器算法。
其利用运行数


据进行预学习来建立快速有效的前馈控制器，
再结合强化学习的更新方式进行优化 

，
继而设计了种适应无模型情况下的强化学习算法结构最后通过仿真实验验证了



一
该方法的有效性 

。
５．１
神经网络前馈监督控制器





偏差ｅ  Ｉ
际衡





设定
＾
图５１
神经网络前馈监督控制系统结构


在个运行的工业控制系统中用个新的控制算法代替原本的控制算法是

一一 

一
个很谨慎的行为种比较稳妥的方法是让新的算法与旧算法使用样的输入参数



一
一
起运算但新的算法输出不参与实际系统控制通过观察新算法的输出量判断算


一
，，
法是否符合控制特性，
符合要求的情况下再通过跟踪输出以及无扰切换将新的控制


算法投入系统运行 

。
在有模型的情况下通过建立数学模型来设计控制器能够从定理论上保障



一
，，
控制器的有效性，
但实际物理环境中，经常存在无法建立准确数学模型的情况。


为
此针对无模型情况下无法根据仿真模型进行策略网络的训练设计种预学习



一
，，，
方法进行神经网络控制器的设计。
其设计思路如下 

：
３ 

９


神经网络控制器作为前馈控制器，其作用在于超前采取动作，因此将ＡＭ作为


目标值对神经网络控制器的权值进行监督训练。如图５－
１
所示，将实际值；
；
与偏差


作为网络输入前时刻与当前时刻的反馈控制量差值Ａｗ作为标值对神经网


一
ｅ，目
络控制器进行更新， 

即
Ｅ｛
ｋ
）
＝
 ＼１２
｛
ｕｎ｛
ｋ
－
ｕｐ
｛
ｋ＋ｕｐ

｛
ｋ（
５－
１


）
＾＾
式中，
叩 ⑷ 为线性控制器的输出，
期
⑷ 为网络控制器输出。训练好的神经网


络控制器作为前馈控制器参与系统控制。图中虚线部分表示网络有预学习与在线投


入两种状态，在预学习状态中，
神经网络控制器的输出值并不参与控制即


其仅通过观测输入输出数据来进行网络权值的学习，在线投入后，



最
终控制量由反馈控制器与神经网络控制器叠加后组成即《
（
＊
）
＝
叩（
Ａｔ
）
＋Ｍ？

（
Ａ：
）
。由于


神经网络控制器的投入会与原本的学习方式耦合，
因此， 

在线投入状态的网络无法
再使用预学习的方式进行权值的更新 

。
５．２无模型强化学习自适应补偿控制


采用预学习方式搭建的神经网络前馈监督控制器具有简单易行，

优化控制的优


点但其上限就是Ａｗ固定带来的步超前效果并且没有在线学习能力由于



一
，，
自。
上节所述方法，其优化控制器核心为神经网络结构，与强化学习的策略网络结构是



致的因此利用预学习方式得到的神经网络代替强化学习通过仿真模型试错方式


一
得到的策略网络，
从而实现无仿真模型的强化学习算法 

。
由于原始的强化学习算法，其评价网络与策略网络同步更新，

引入预学习的策


略网络后评价网络与策略网络的不致会影响算法的收敛为此在预学习的策


一
，。，
略网络投入使用前需要为评价网络的收敛留出定的空间

一
， 

。
其最终算法实现流程如下所示 

：
（
１
）初始化经验池Ｄ，
容量为Ｐ；初始化线性反馈控制器参数


（
２）初始化两个策略网络参数＝
初始化两个评价网络参数ｆ 


＝
（
３）预学习部分，
采集被控对象历史数据状态Ｉ控制器输出《，重复以下步骤 

：
４０




从历史数据中随机采样ｍｉｎｉｂｅａｃｈ样本Ｂ个 

：
计算 
Ａｍ 
＝
 ｗ ｍ、０Ｃａ／ 
Ｔ
＝
 ００ｓ，
Ｍ，
Ａｍ炉）， 

、
＇ｒ
Ｇ
＝
 ＾  ＋／ｍａｘＱ（
＾＼
ｕａｐ
（
）


．
，ａｒ
ｇ？
  〇 
  ，，
最小化损失函数－
２＿；
）
更新评价网络参数ｔ


计算 
ａ＝  ；ｒ
０〇ｙ，
Ｍ，炉） 

；
最小化损失函数
士＆＞Ａ
＾更新策略网络参数ｌ


－
ｖｗｗ
＞
每隔Ｃ步更新？妒 

；
直至重复Ｎ次 

；
直至重复Ｍ 

次
（
４
）强化学习部分，重复以下步骤 

：
根据环境状态八计算ｍ 
＝
 ／〇ｓ）、ｇ ＝
 ％〇，
ｗ，供） 

；
最终控制动作＝
ｗ＋ａ  


；
执行动作士＾得到奖励下状态，和终止符计算ｍ／＾）
’
『＝
一
，
，
 （ 

；
记录样本 … 至经验池Ｄ若容量不足则从头覆盖记录

＇＇
ｓ，
ｗ，
ａ， 
ｒ， 
５， 
ｗ，， 

；
（
当样本数大于定数量Ｋ训练开始
一
， 

：
从经验池中随机采样ｍｉｎｉｂｅａｃｈ样本Ｂ个，
分别输入四个网络 

：
计算么的卜
＇
ｗ２ｗ＋Ｘ
… ｍａｘ ａ供
＝
ａ、

）
ｖａ／  ，  ，
，ａｒ
ｇ
？ 
 （ａ， 

；
最小化损失函数ＧＪ更新评价网络参数识
－


；
ａ
最大化价值函数Ｅ＂
））
更新策略网络


士
；
参数０ 

；
每隔步更新
＇
＇
Ｃ０ ？
炉沪
—
９
？
＜
—
＜＜
、


；
直至终止状态或重复Ｊ 

次
直至重复Ｋ 

次
４ 

１


５．３仿真实验


仿真对象取上章使用的水箱采集不同工况中水箱在鲁棒ＰＩＤ控制器下的状



一
态数据，
根据运行数据利用神经网络反向传播算法，
对神经网络控制器进行训练 

。
得到效果如下图５
－
２所示。在完全没有依赖模型的情况下，
采用预学习方法训练前


馈网络控制器其产生的超前动作对控制具有定的改善效果控制系统的快速性



一
，，
得到了提高 

。
！        
！
！
｜
｜
｜（
！


Ｉ
 



！
：
［
Ｉ
！
８
／


／
／ 

／
ｉ 

ｆ
…
     －
一 … ￣ … … ＂＂＂  ＂  ＇  
爸  Ｔ
ｕ
厂
ｉ
Ｉ
Ｉ 

｜
ｔ  设定值


—
ｉｌｉ
＾     
［
！
！
１丨


Ｉ
铤
４

ＰＤ＋预学习 １
—
Ｉ


ＰＤ
１

２  
 １ 
 


—
 ■
  
 
〇
？
？
｜
 


 
ｊ
   ｜  
０  ２０  ４０  ６０  ８０  １００  １２０  １４０  １６０  １８０  ２００


时间／ 

Ｓ
图５２预学习神经网络前馈控制效果


以预学习得到的神经网络控制器为基础，

将其神经网络权值作为强化学习


ＤＤＰＧ算法中的策略网络，
引入强化学习的自学习能力。
其结果如下图５
－
３所示 

。
、Ｊ


｜  １０００ 
／
 Ｊ ｉ
－
？
ｇ  Ｊ
ｉ
ｆ
］
ｉ
 Ｉ
 ６
ｊ
５００ 
？
｜


｜
．
＂  ＇

？
，
 ，
 ｖ   ｉ 
  ．
Ｑ
 
＿
１
  


５００ 
－
０  １０ ２０ ３０ ４０ ５０ ６０


ＥｐｉｓｏｄｅＮｕｍｂｅｒ
图５３累积奖励训练曲线


４２




每次迭代运行２００ｓ。
为保证控制算法能够应对各种不同工况，
每次运行初始水


位和设定水位条件都是在（
－
１５
？
１５
）范围内随机的。
训练结束条件为连续５次迭代奖


励值大于１８００．
其训练过程如图５
－
３所示。通过图５
－
３发现，在预学习策略网络后 

，
再进行强化学习算法的迭代，

训练过程基本维持很高的正收益，代表偏差的时间 

占
比很少。每次的奖励低估都是在学习新的工况。基于预学习的强化学习算法收敛更



加快速和稳定 

。
学习段时间后验证学习效果如下图所示通过强化学习算法更新 

控
一
，
５
－
４，，
制器的控制效果得到了优化，其响应速度大大加快 


。
      ｜
｜
！
（ｊ


Ｉ
 
＊
１０
 Ｔ 




 
８
－＾－ 

－
 ｉｌｌ
＼＼ 

ｉ
＿
Ｈ 

ｉ



县
赵
６
ｆ
ｉｆ


ｐ 

ｎ
 设定值



诞！ｆ



■
ｍ
４
 
Ｄ＋预学习



ＰＩ
   

—
２ ： 
ＰＤ

 Ｉ
ＰＤ＋预学习训练后



｜       
ｊ
０  ２０  ４０  ６０  ８０  １００  １２０  １４０  １６０  １８０  ２００


时间／ 

ｓ
图５４不同算法控制效果对比图


５．４小结


本章研宄了无模型情况下适应前馈控制器的设计问题成功设计了种新的



一
自，
无模型自适应强化学习自适应补偿控制算法。

算法结合了网络监督学习与前馈反馈


控制结构，解决了强化学习面对数据集外的情况时无法计算正确控制量的问题。


同
时网络监督学习解决了强化学习前馈控制器依赖仿真模型进行训练的问题，

实现了


完全的无模型控制算法。最后，通过仿真对象证明了算法的有效性 

。
４３




第６章总结与展望


在本章中，对本文的工作内容进行总结，包括对本文提出算法的特性总结， 

及
其与传统控制方法及智能控制方法比较的优缺点。
再次对算法未来研究提出展望 

。
６．１本文的主要工作及贡献


过程控制的标主要是稳定性快速性准确性强化学习本质上也是 


个
一
目，，，。
寻优的算法寻优的效果受奖励设置的影响般奖励的设置是与误差挂钩的 


因
一
，，，
此强化学习拥有准确性，但探索过程的随机性以及与时间无关的寻优目标，导致强 


：
化学习的稳定性与快速性不定满足控制要求
一


。
我们通过前馈反馈的控制结构来降低了环境的控制难度让智能体从个主控



一
制器的角色转变成个前馈优化器通过仿真实验证明强化学习前馈优化后的控


一
，，
制会优于原环境的控制效果，并且，反馈控制器对强化学习前馈控制器的训练学习


过程起示教作用，
大大缩短了强化学习的探索时间，这意味着智能体学习过程对环


境的负面影响较小，
有着更高的稳定性和安全性 

。
强化学习的核心思路是根据环境找到最优的控制方案，初始的智能体Ａｇｅｎｔ


随
机性强，不知道正确的控制方向。工业控制系统的算法首先追求的是稳定性，即面



对不同的环境控制器都会做出正确的控制动作不定是最优的但定是方向



一
一
，，，
正确的。通过引入反馈控制器，可以大大减少强化学习试错成本，反馈控制器的控



制作用可以防止强化学习探索过程中的模型超界，比如机器人摔倒，水箱水位溢出 


。
综上所述，
将反馈控制与强化学习结合提出的方法主要有以下优点 

：
１．
通用性强，
强化学习前馈优化器可以外挂在控制回路上，无需改变原控制回


路作为种辅助优化控制器实现改善控制效果的功能
一
，，


；
２．
收敛速度快，稳定，相同参数的强化学习控制器，
有反馈控制的收敛只需要


约纯强化学习收敛所需迭代次数的１／４；并且反馈控制器的存在使得强化学习的寻


优过程带有方向，
使得强化学习训练过程更加稳定 

。
３．
抗干扰能力强智能体模型为神经网络结构将扰动变量作为输入给智能体
，， 

，
４４




可以让智能体有效学习抗干扰策略；实现复杂工业系统的智能自主控制技术。同时 

，
本文提出的算法是基于误差的控制算法，对未知扰动也有抑制作用 

。
４．
鲁棒性强，面对参数时变对象，未建模特性会让独立的强化学习算法失效 

，
但反馈控制器的存在克服了这缺点使强化学习适应补偿控制系统拥有鲁棒性
一
，自 

。
５．
不基于模型的自适应控制算法，自适应自趋优的过程不依赖模型的辨识， 

而
是直接根据输入输出数据更新控制器，这个过程是连续的，收敛的，克服了自适应


控制中更新控制器参数产生的控制量扰动问题 


。
６２
．
问题与展望


目前的论文研究仍有很多不足和值得改进之处，反馈回路的设计与强化学习参



数的选择仍需深入的研究。
对于不同的对象，
本文提出的框架的有效性仍需理论或


实验验证。对象的不同特性对框架的影响仍需进行研究。本文的核心思想是强化学



习算法结合前馈反馈控制结构得到的强化学习自适应补偿控制算法。其发挥了强化


学习自学习，
自适应，
自趋优的优点的同时，利用前馈反馈控制结构解决强化学习


的鲁棒性问题为强化学习算法在工程应用提供个思路

一
， 

。
根据理论分析与仿真实验的验证，强化学习输出层的缩放系数是影响强化学习


适应补偿控制系统控制效果与收敛性的个重要参数缩放系数小则强化学习优


一
自，
化效果较弱，但收敛波动小，缩放系数大则优化效果好但收敛过程波动大，，因此 


，
类似神经网络在训练过程中采用变学习率的方式，
强化学习前馈控制器的缩放系数


在训练过程中也可以是变化的。在训练的初期，

采用较小的缩放系数，稳定柔和的


训练然后增加缩放系数再次训练段时间后交替重复训练与修改缩放系数的



一
，，，
过程，
最终达到优化效果的极限 

。
通过变缩放系数的学习方法，可以将学习初期探索对环境的影响降到最小，


更
有利于嵌入式强化学习前馈控制器在真实物理世界的使用 

。
强化学习在面对存在迟滞的被控对象问题时，迟滞的存在会导致环境与动作不



匹配，从而导致经验池存储的经验是过时的无效的经验。最终导致强化学习算法无



法正确评价身试错行为的好坏系列的行为误判会导致强化学习无法收敛

一
自， 

。
４５




经典控制算法中也存在类似的问题，内模控制算法在应对纯滞后系统时，会设


计史密斯预估器其通过引入个和被控对象并联的补偿环节对滞后进行削弱和消



一
除，
将控制通道传递函数中的纯滞后部分与其他部分分离。
史密斯预估器相当于预


先估计出系统在给定信号下的动态特性，使控制器提前动作，从而加速调节过程 


。
分析史密斯预估器的特点，将纯滞后部分分离从而得到估计的动态特性，相当



于为控制器提供环境的先验知识。
参考这种思路，在强化学习过程中添加类似史密


斯预估器的环节，为智能体提供环境的先验知识，从而实现迟滞非线性系统的优化



控制 

。
另个思路是建立虚拟模型根据被控对象的输入输出数据利用神经网络建



一
，，
立被控对象的虚拟模型，
利用虚拟模型作为仿真模型进行强化学习的训练，最后将


训练好的强化学习前馈控制器投入使用 


。
本文提出的方法是使用前馈反馈控制系统的结构进行强化学习算法的使用， 

这
种方法能为强化学习带来收敛帮助，但强化学习作为辅助优化器是否发挥了自身全



部的潜力呢本文最后的个展望就是希望强化学习能够自主实现控制为此 

个
一一
。，
思路就是将优化后的自适应补偿控制动作进行监督学习建立新的神经网络控制器 

，
并以此控制器建立新的强化学习算法达到种算法迁移的效果迁移之后的控制



一
，。
器更新由强化学习独立完成，
将会完全发挥强化学习自身的优势 

。
以上是本人猜想的研宄方向，希望对本文提出的强化学习框架感兴趣的人与我



共同深入研宄 

。
４６




参考文献


Ｍｏｈｓｓｅｎ Ｍｏｈａｍｍｅｄ  ａｎｄ  Ｍｕｈａｍｍａｄ  Ｂａｄｒ
＂
［
１
 Ｊ
ａｄｄｉｎ Ｋｈａｎ，  Ｍａｃｈｉｎｅ  Ｌｅａｒｎｉｎｇ


＂
Ａｌ
ｇｏｒｉｔｈｍｓ  ａｎｄ  Ａｐｐｌｉｃａｔｉｏｎｓ ｉｎ ５ 
ＣＲＣ  ｐｒｅｓｓ  Ｔａｙｌｏｒ  ａｎｄ  Ｆｒａｎｃｉｓ  Ｇｒｏｕｐ， 
２０１７ 

．
［
２］徐洪学孙万有杜英魁汪安祺机器学习经典算法及其应用研究综述
，，，
．
［
Ｊ
］
．
电脑知识


与技术，
２０２０，
１６（３３）：１７－
１９ 

．
［
３
］刘畅？
电站设备辅机状态监测与故障诊断［
Ｄ］
．
华北电力大学北京（），
２０１７ 

．
［
４］王文庆人工智能在汽车自动驾驶中的应用．
［
Ｊ
］
．
时代农机，
２０１９４６（０９，
）
：２８－
２９ 

．
［
５
］
ＲａｏＤ   
．Ｌｅｖｅｒａｇｉｎｇｈｉｉｍａｎ 
 Ｄｏｍａｉｎ  Ｋｎｏｗｌｅｄｇｅ  ｔｏ  ｍｏｄｅｌ  ａｎ  ｅｍｐｉｒｉｃａｌ  Ｒｅｗａｒｄ  ｆｕｎｃｔｉｏｎ


ｆｏｒ  ａ  Ｒｅｉｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｉｎｇｐｒｏｂｅｍ［Ｊ］ 
ｌ， ２０１９ 

．
［
６
］刘吉绩智能发电．：
第四次工业革命的大趋势［
Ｎ］
．
中国能源报，
２０１６－
０７２５

 －
［
７
］刘吉臻胡勇曾德良夏明崔青汝智能发电厂的架构及特征
，，，，
．
［
Ｊ
］
．
中国电机工程学


报，
２０１７，３７２２
（）
：６４６３
－
６４７０＋６７５８ 

．
［
８
］柴天佑工业人工智能发展方向．
［
Ｊ
］
．
自动化学报，
２０２０４６，（
１０
）
：２００５－
２０１２ 

．
［
９］Ｊｏｒ
ｇｅ
Ｎｏｃｅｄａｌ
§
．  Ｏｐｔｉｍｉｚａｔｉｏｎ  Ｍｅｔｈｏｄｓ  ｆｏｒ  ＬａｒｇｅＳｃａｌｅ  Ｍａｃｈｉｎｅ  Ｌｅａｒｎｉｎｇ  ［Ｊ］  ＳＩＡＭ

 －
Ｒｅｖｉｅｗ， 
２０１６， 
６０
（
２） 

．
［
１０］徐洪学孙万有杜英魁汪安祺机器学习经典算法及其应用研究综述
，，，
．
［
Ｊ
］
．
电脑知


识与技术，
２０２０，
１６（３３）：１７
－
１９ 

．
［
１ｌ
］
Ａｒｕｌｋｕｍａｒａｎ  Ｋ  ５ 
Ｄｅｉｓｅｎｒｏｔｈ Ｍ  Ｐ   Ｂｒｕｎｄａｇｅ  Ｍ 
？， 
ｅｔ ａｌ．  ＤｅｅｐＲｅ 
ｉｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｎ
ｇｉ 

：
ＡＢｒｉｅｆＳｕｒｖｅ 
ｙ［Ｊ］＿ ＩＥＥＥ  Ｓｇｎａｉｌ  ＰｒｏｃｅｓｓｎｇＭａｇａｚｎｅ
ｉｉ
，
２０１７， 
３４
（
６
）
：２６
－
３８ 

．
［
１２］陈圣磊．
强化学习及其在ＭＡＳ协同概念设计中应用的研究［
Ｄ］
．
南京理工大


学，
２００６ 

．
［
１３
］
Ｔｈｅｏｒｙ  ｏｆｎｅｕｒａ  ｌ
－
ａｎａｌｏｇ  ｒｅｎｆｏｒｃｅｍｅｎｔ  ｓｙｓｔｅｍｓ  ａｎｄ  ｉｔｓ  ａｐｐ
ｉｌｉｃａｔｉｏｎ  ｔｏ  ｔｈｅ  ｂｒａｉｎｍｏｄｅ
－


ｌ
ｅｍ
ｐｒｏｂｌ 

．
４］ＢｅｍａｎＲＥ  ＤｙｎａｍｃＰｒｏ
ｇｒａｍｍｎｇ［Ｍ］ ＰｒｉｎｃｅｔｏｎＵｎｖｅｒｓｔ
ｙＰｒｅｓｓＰｒｎｃｅｔｏｎＮＪ
１ｌｌｉｉｉｉｉ
 
．．
［，， 

？
１９５７ 

．
［
１５
］
ＢｅｌｌｍａｎＲ Ｅ．  Ａ  Ｍａｒｋｏｖ  ｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓ［
Ｊ
］
．
Ｊｏｕｒ
ｎａｌｏｆ Ｍａｔｈｅｍａｔｃａ  Ｍｅｃｈ  ｉｌ
，
１９５７ 

，
４７




６６７９６８４
： 

．
［
１６］Ｂａｒｔｏ  ＡＧ 
？ Ｓｕ
ｔｔｏｎ Ｒ  Ｓ？ 
Ａｎｄｅｒｓｏｎ  Ｃ  ＷＮｅｕｒｏｎ．  ｌｉｋｅｅｌｅｍｅｎｔｓ  ｔｈａｔ  ｃａｎ  ｓｏｌｖｅ  ｄｉｆｆｉｃｕｌｔ


ｌｅａｒｎｉｎｇ ｃｏｎｔｒｏｌ  ｐｒｏｂｌｅｍｓ［Ｊ］． ＩＥＥＥＴｒａｎｓａｃｔ  ｉｏｎｓ  ｏｎ Ｓｙｓｔｅｍｓ， 
Ｍａｎ， 
ａｎｄ  Ｃｙｂｅｒ
ｎｅｔｉｃｓ，
９８３ １３８３５８４６
－
１： 

．
［
１７］Ｓｕｔｏｎ  ＲＳ，  Ｌｅａｒｎｉｎｇ  ｔｏ
 ｐｒｅｄｉｃｔ  ｂｙ  ｔｈｅ  ｍｅｔｈｏｄ  ｏｆ  ｔｅｍｐｏｒａｌ  ｄｉｆｅｒｅｎｃｅｓ［Ｊ］．  Ｍａｃｈｉｎｅ


Ｌｅａｒ
ｎｉｎｇ，  １９８８， 
３：９－
４４ 

．
［
１８
］
Ｗａｔｋｉｎｓ  Ｃ  Ｊ  Ｃ  Ｈ  Ｌｅａｒｎｉｎｇ  ｆｒｏｍ  Ｄｅｌａｙｅｄ Ｒｅｗａｒｄｓ［Ｄ］  Ｐｈ  Ｄ  ｔｈｅｓｉｓ  Ｃａｍｂｒ
．ｉｄｇｅ

 ．
Ｕｎｉｖｅｒｓｉｔｙ，
Ｃａｍｂｒｉｄｇｅ， 
Ｅｎｇｌａｎｄ， 
１９８９ 

．
［
１９］Ｔｈｏｍａｓ  Ｐｈｉｌｉｐ  Ｓ  Ｂｒｕｎｓｋｉｌｌ  Ｅｍｍａ  Ｐｏｌｉｃｙ  Ｇｒａｄｉｅｎｔ 
，？，
．Ｍｅｔｈｏｄｓ  ｆｏｒ  Ｒｅｉｎｆｏｒｃｅｍｅｎｔ


Ｌｅａｒｎｉｎｇｗ 
ｉｔｈ  Ｆｕｎｃｔｉｏｎ  Ａｐｐｒｏｘｉｍａｔｉｏｎ  ａｎｄ  Ａｃｔｉｏｎ－
ＤｅｐｅｎｄｅｎＢａｓｅｔ ｌｉｎｅｓ［Ｊ］， 
２０００ 

．
［
２０］杨文乐．
基于强化学习的倒立摆控制算法研究［
Ｄ］
．
西安理工大学，
２０１９ 

．
［
２１
］詹亮．
深度学习在强化学习中的应用研究［
Ｄ］


．
［
２２］Ｈａｓｓａｎｉｅｎ  Ａ  Ｂｈａｔｎａｇａｒ  Ｒ  Ｄａｒｗ
．
，
．
，
ｉｓｈ Ａ．
 （
ｅｄｓ
）  Ａｄｖａｎｃｅｄ Ｍａｃｈｎｅ  Ｌｅａｒｎｎｇ

 ｉｉ
Ｔｅｃｈｎｏｌｏｇｉｅｓ  ａｎｄ  Ａｐｐｌｉｃａｔｉｏｎｓ．  ＡＭＬＴＡ  ２０２０  Ａｄｖａｎｃｅｓ  ．ｉｎ  Ｉｎｔｅｌｌｉｇｅｎｔ  Ｓｙｓｔｅｍｓ  ａｎｄ


Ｃｏｍｐｕｔｉｎｇ， 
ｖｏｌ１１４１， Ｓ
ｐｒｎｇｅｒ
ｉ
， 
Ｓｉｎｇａｐｏｒｅ 

．
［
２３］Ｌｉ Ｙ．  ＤｅｅｐＲｅ 
ｉｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｉｎｇ：  ＡｎＯｖｅｒｖ  ｉｅｗ
［
Ｊ
］
，  ２０１７ 

．
［
２４］Ｖ Ｍｎ．ｉｈ  Ｋ  Ｋａｖｕｋｃｕｏｇｕ  Ｄ  Ｓ
，
．ｌ
，
．ｉｌｖｅｒ  ｅｔ  ａｌ  Ｐａｙｉｎｇ  ａｔａｒ  ｗ
，
．ｌｉｉｔｈ  ｄｅｅｐ  ｒｅｉｎｆｏｒｃｅｍｅｎｔ


ｌｅａｒｎｉｎｇ  ［
ａｒ  Ｘｉｖ］ 

．
［
２５
］
Ｖ  Ｍｎ．ｉｈ  Ｋ  Ｋａｖｕｋｃｕｏｇｕ  Ｄ
，
．ｌ
，
． Ｓｉｌｖｅｒ，  ｅ  ａ  Ｈｕｍａｎ
ｔｌ．
－
ｌｅｖｅｌ  ｃｏｎｔｒｏ  ｔｈｒｏｕｇｈ  ｄｅｅｐ

ｌ


ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｍｉｎ
ｇ［Ｊ］．  Ｎａｔｕｒｅ， 
２０１５ ５，
１８
（
７５４０
）
： ５２９－
５３３


［
２６］ｖａｎ Ｈａｓｓｅｌｔ
， 
ｅｔａｌ．  ＤｅｅｐＲｅ 
ｉｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｉｎｇ  ｗｉｔｈＤｏｕｂｌｅ Ｑ
－
ｌｅａｍｉｎ
ｇ［Ｊ］．  ａｒＸｉｖｅ 

－
ｐｒｎｔｓｉ
， ２０１５ １５０９，
． ０６４６１ 

．
［
２７］Ｗａｎｇ  Ｚ  Ｓｃｈａｕ  Ｔ  Ｈｅｓｓｅ  Ｍ  ｅ  ａＬ  Ｄｕｅ
，
ｌ
，
ｌ
？
ｔｌｉｎｇ  Ｎｅｔｗｏｒｋ Ａｒｃｈｉｔｅｃｔｕｒｅｓ  ｆｏｒ  Ｄｅｅｐ


Ｒｅｉｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｎｇ［Ｊ］ｉ． ２０１５ 

．
［
２８］
Ｔ ＰＬ．．  ｉｌｌｉｃｒａｐ， 
Ｊ Ｊ  ，
．Ｈｕｎｔ
， 
Ａ．  Ｐｒｉｔｚｅｌ
，  ｅｔａｌ．  Ｃｏｎｔｎｕｏｕｓｉ  ｃｏｎｔｒｏｌ  ｗｉｔｈ  ｄｅｅｐ  ｒｅｎｆｏｒｃｅｍｅｎｔ
ｉ
ｌｅａｒｎ
－
ｉｎｇａｒＸｖ］［
ｉ．  ｈｔｔｐｓ：／／ａｒｘｖｏｒｇ／ａｂｓ／ｉ．１５０９．０２９７１
，
２０１ 

５
［
２９
Ｊ
ＲＭＴＵｎＩｉｖｅｒｓｉｔ
ｙ；  Ａｔａｒ ｍａｓｔｅｒ 
ｉ：ＮｅｗＡ  ｌ ｓｍａｓｈｅｓ Ｇｏｏｇｌｅ ＤｅｅｐＭｉｎｄ  ｎ  ｖｄｅｏ  ｇａｍｅ
ｉ 
 ｉ
４８




ｃｈａｌｌｅｎ
ｇｅ［Ｊ］．  ＮｅｗｓＲｘＨｅａ  ｌｔｈ ＆  Ｓｃｉｅｎｃｅ２０？
１９７９：
－
８３ 

．
［
３０
］
Ｚｈｕ  Ｈ，
ＧｕｐｔａＡ，
Ｒａｊｅｓｗａｒａｎ  Ａ，
ｅｔ ａｌ．  Ｄｅｘｔｅｒｏｕｓ  Ｍａｎｐｕｉｌｉｉ  Ｄｅｅｐ
ａｔｉｏｎｗｉｔ 

Ｒｅｉｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｉｎｇ：  Ｅｆ
ｉｃｉｅｎｔ， 
Ｇｅｎｅｒａｌ
， 
ａｎｄ  Ｌｏｗ
－
Ｃｏｓｔ［
Ｊ
］
．  ２０１８ 

．
［
３  ｌ
］
Ｊｉｅ Ｚ， 
Ｌｉａｎｇ  Ｘ ５
Ｆｅｎｇ 
Ｊ， 
ｅｔ  ａｌ．  ＴｒｅｅＳｔｒｕｃｔｕｒｅｄＲｅｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｎｇ
－
 ｉ  ｉ

ｆｏｒ  Ｓｅｑｕｅｎｔｉａｌ


ＯｂｊｅｃｔＬｏｃａ  ｌｉｚａｔｉｏｎ［Ｊ］．  ２０１７ 

．
［
３２
］
Ｓ．  Ｅｌ
－
ＴａｎｔａｗｙＢＡｂｄｕｈａ， 
．  ｌｉ ａｎｄ  ＨＡｂｄｅ．  ｌ
ｇａｗ
ａｄ， 
Ｍｕｌｔｉａｇｅｎｔ  Ｒｅｉｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｎｇ

 ｉ
ｆｏｒ  Ｉｎｔｅｄ  Ｎｅｔｗｏｒｋ ｏｆ  Ａｄａｔｉｖｅ  Ｔｒａｆ
ｉｃ  Ｓｉｇｎａｌ  Ｃｏｎｔｒｏｌｌｅｒｓ  （ＭＡＲＬＩＮＡＴＳＣ）
ｇｒａｅ
－
ｔ
ｐ 

：
Ｍ
Ｍｅｔｈｏｄｏｌｏｇｙ  ａｎｄ  Ｌａｒｇｅ－
Ｓｃａｌｅ  Ａｐｐｌｉｃａｔｉｏｎ ｏｎ Ｄｏｗｎｔｏｗｎ  Ｔｏｒｏｎｔｏ，
 ｉｎＩＥＥＥ


Ｔｒａｎｓａｃｔｏｎｓｏｎｉ   ＩｎｔｅｌｌｉｇｅｎｔＴｒａｎｓｐｏｒｔａｔｉｏｎ  Ｓｙｓｔｅｍｓ

，
ｖｏｌ． １４， 
ｎｏ． ３
，  ｐｐ． １１４０－
１１５０， 
Ｓｅ
ｐｔ 

．
２０１３５ 
ｄｏｉ １０：．１１０９／ＴＩＴＳ２０．１３．２２５５２８６ 

．
［
３３
］
Ｓｈａｌｅｖ－
Ｓｈｗａｒｔｚ  Ｓｈａｉ  Ｓｈａｋｅｄ  Ｓｈａｍｍａｈ  ａｎｄ 
，，，
Ａｍｎｏｎ  Ｓｈａｓｈｕａ．  Ｓａｆｅ＾  Ｍｕｌｔｉ－
Ａｇｅｎｔ


，
＂
Ｒｅｉｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｉｎｇ  ｆｏｒ  ＡｕｔｏｎｏｍｏｕｓＤｒ  ｉｖｉｎｇ．  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｉｖ：ｌ ６１００３２９５

．
２０１６ 

．
（）
［
３４］张汝波，顾国昌，刘照德等，
．
强化学习理论、算法及应用［
Ｊ
］
．
控制理论与应用 

，
２０００ １７５ 

．
（），
［
３５
］杨瑞？
多步强化学习算法的理论研究Ｄ［］
． ２０１８ 

．
［
３６
］徐娟．
基于强化学习的动作控制与决策研究［
Ｄ］


．
［
３７
］刘全，翟建伟，章宗长等深度强化学习综述简，
？
［
Ｊ
］
．
计算机学报，
２〇１８
（
１
）
：１
＿
２７ 

．
［
３８
］喻杉．
基于深度环境理解和行为模仿的强化学习智能体设计［
Ｄ］
．
浙江大学，
２０１９ 

．
［
３９
］
ＢｏｓｔｒｏｍＮ Ｓｕｐｅｒ．ｉｎｔｅｌｌｉ
ｇｅｎｃｅ［Ｊ］．  Ｃｏｍｐｕｔｅｒ  Ｓｃｉｅｎｃｅ，２０１６ 

．
［
４０］Ｃａｒｏｓ  Ｃ  ｌ
， 
Ｊａｖｉｅｒ  ＲＤ   Ｓ ， 
Ｊｅｎｓ Ｋ  ．  Ａ  ｆａｓｔｈｙｂｒｉｄ  ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎｇｆｒａｍｅｗｏｒｋ  ｗｉｔｈ
 
 
ｈｕｍａｎ  ｃｏｒｒｅｃｔｉｖｅ  ｆｅｅｄｂａｃｋ［Ｊ］．  ＡｕｔｏｎｏｍｏｕｓＲｏｂｏｔｓ， 
２０１８ 

．
［
４１
］
Ｌｉｌｌｉｃｒａｐ Ｔ Ｐ ， ＨｕｎｔＪＪ
， Ｐｒｉｔｚｅｌ  Ａ   ｅｔ  ａｌ  Ｃ，
．ＯＮＴＩＮＵＯＵＳ  ＣＯＮＴＲＯＬＷＴＨ  ＤＥＥＰ

  Ｉ
ＲＥＩＮＦＯＲＣＥＭＥＮ丁ＬＥＡＲＮＮＧ  Ｉ： 

．
［
４２］赵冬斌邵坤朱圆恒李栋陈亚冉王海涛刘德荣周彤王成红深度强化学
，，，，，，，，
．
习 

综
述兼论计算机围棋的发展
：
［
Ｊ
］
．
控制理论与应用，
２０１６３３，（
０６）：７０１
－
７１７ 

．
［
４３］万里鹏兰旭光张翰博郑南宁深度强化学习理论及其应用综述
，
．
，
．
［
Ｊ
］
．
模式识别与


４９




人工智能，
２０１９３２（０，
１
）
：６７－
８１ 

？
４４］傅启明刘全王辉等种基于线性函数逼近的离策略Ｘ）算法计算机



一
［，，，
．
Ｑ（［
Ｊ
］
．
学报，
２０１４（３）６７７：
－
６８６ 

．
［
４５］ＡＨＭ，
ＢＦＬＬ，
ＡＮＳ ．  Ｉｎｔｅ
ｇｒａｌ  ｒｅｉｎｆｏｒｃｅ
ｍｅｎｔ  ｌｅａｒｎｉｎｇ  ａｎｄ  ｅｘｐｅｒｉｅｎｃｅ  ｒｅｐｌａｙ  ｆｏｒ


ａｄａｐｔｉｖｅ  ｏｐｔｉｍａｌ  ｃｏｎｔｒｏ  ｏｆ  ｐａｒｔａｌｌｙｕｎｋｎｏｗｎ  ｃｏｎｓｔｒａｉｎｅｄｎｐｕｔ  ｃｏｎｔｉｎｕｏｕｓｍｅ


－－
ｔｉ
－
ｌｉｉ
ＳｃｉｅｎｃｅＤｉｒｅｃｔ［Ｊ］Ａｕｍａｔｉｃａ２０４２０２
ｙｓｔｅｍｓ  ｔｏ５０９３
－－
ｓ  ． 

１
 （
１：  １ 

．
，，
）
［
４６］杨旭东，刘全，李瑾．
一
种基于资格迹的并行强化学习算法［
Ｊ
］
．
苏州大学学报


（自然科学版），
２０１２， 
２８（００１
）
：２６－
３３ 

．
４７］Ｙｕａｎ  Ｊ   Ｌａｍｐｅｒｓｋｉ  Ａ   Ｏｎｌｉｎｅ  ｃｏｎｔｒｏｌ  ｂａｓｉｓ  ｓｅｌｅｃｔｉｏｎ  ｂｙ  ａ  ｒｅｇｕｌａｒｉｚｅｄ  ａｃｔｏｒ  ｃｒｉｔｉｃ 


ｒ
［５
ａｌｇｏｒｉｔｈｍ［Ｃ］／／  ２０１７  Ａｍｅｒｉｃａｎ  Ｃｏｎｔｒｏｌ  Ｃｏｎｆｅｒｅｎｃｅ
（
ＡＣＣ）
． ＩＥＥＥ， 
２０１７ 

．
［
４８］吕萍丽．
基于值函数估计偏差修正的强化学习方法研究［

Ｄ］


．
［
４９］赵星宇丁世飞深度强化学习研究综述，
．
［
Ｊ
］
．
计算机科学，
２０１８４５，（
０７
）
：ｌ
－
６ 

．
［
５０
］
Ｋｏｂｅｒ Ｊ
５
Ｂａｇｎｅｌｌ Ｊ Ａ ５
ＰｅｔｅｒｓＪ ．  Ｒｅｉｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｉｎｇ  ｉｎ  Ｒｏｂｏｔｉｃｓ：  Ａ  Ｓｕｒｖｅｙ［Ｊ］ 

．
Ｉｎａｔｉｏｎａｌ  Ｊｏｕｒ
ｎｔｅｒｎａｌ ｏｆ  Ｒｏｂｏｔｉｃｓ  Ｒｅｓｅａｒｃｈ， 
２０１３ 

．
［
５１
］
Ｗａｎｇ  Ｗ   Ｌ５
ｉ  Ｒ ？ Ｃｈｅｎ Ｙ ５ ｅ
ｔ  ａｌ．  Ｆａｃｉｌｉｔａｔｉｎ
ｇ ＨｕｍａｎＲｏｂｏｔ  Ｃｏ－
ｌｌａｂｏｒａｔｉｖｅ  Ｔａｓｋｓ  ｂｙ


ＴｅａｃｈｎｇＬｅａｍｎｇＣｏ
ｉ
－
ｉ
－
ｌｌａｂｏｒａｔｉｏｎ  Ｆｒｏｍ  ＨｕｍａｎＤｅｍｏｎｓ  ｔｒａｔｉｏｎｓ［Ｊ］． ＩＥＥＥＴｒａｎｓａｃｔｏｎｓ

 ｉ
ｏｎ  Ａｕｔｏｍａｔｉｏｎｅｎｃｅ ＆  Ｅｎｇｎｅｅｒｎｇ２０ｉｉ
， 
１９， 
ＰＰ（２）：６４０
－
６５３ 

．
［
５２
］
ＨｕｓｓｅｉｎＡ  ？ 
ＧａｂｅｒＭ  Ｍ  
，  Ｅｌｙａｎ  Ｅ ？  ｅｔ  ａｌ  Ｉｍｉｔａｔｉ
．ｏｎ  Ｌｅａｒｎｉｎｇ：  Ａ  Ｓｕｒｖｅｙ  ｏｆＬｅａｒｎ  ｉｎｇ


Ｍｅｔｈｏｄｓ［Ｊ］．  ＡＣＭＣｏｍｐｕ  ｔｉｎｇ  Ｓｕｒｖｅｙｓ， 
２０１７， 
５０（２） 

．
［
５３
］李浩基于学习人类控制策略的多自由度机械臂运动规划的方法研究
．
［
Ｄ］
．  ２０２０ 

．
［
５４］Ｒｉｃｈａｒｄ，  Ｓ  Ｓｕｔｔｏｎ 
，
．Ｉｎｔｒｏｄｕｃｔｉｏｎ： Ｔｈｅ  Ｃｈａｌｌｅｎ
ｇｅ  ｏｆ  Ｒｅｎｆｏｒｃｅｍｅｎ  Ｌｅａｒｎｉｎｇ［Ｊ］
ｔｉ



，
Ｍａｃｈｉｎｅ  Ｌｅａｒｎｎｇｉ
， 
１９９２ 

．
［
５５
］
Ｍｉｔｃｈｅｌｌ  Ｔ Ｍ Ｍａｃｈ．  ｉｎｅ  Ｌｅａｒｎｉｎｇ［Ｍ］，  ＭｃＧｒａｗＨ－
ｉｌｌ
， 
２００３ 

．
［
５６
］周志华？
机器学习： 
＝
 Ｍａｃｈｉｎｅｌｅａｍｉｎ
ｇ［
Ｍ］
？
清华大学出版社，
２０１６ 

．
［
５７
］
陈学松杨宜民强化学，
．
习研究综述［
Ｊ
］
．
计算机应用研究，
２０１０２７（０８）２８３４
，
：


－
２８３８＋２８４４ 

．
［
５８
］高阳，陈世福，
陆鑫？
强化学习研究综述［
Ｊ
］
．
自动化学报，
２００４，
３０
（
００１
）
：８６
－
１００ 

．
５０




攻读硕士学位期间发表的论文及其它成果


发表的学术论文


一
）
（
［
１
］ Ｍａ  ＹｌｍｎｇＰ
ｉ
，
ｉｎｇ  ＢｏｙｕＬｉｕ  ＧｏｎｇｑｉｎｇＬｉａｏ  ＹｏｎｇｗｅｎＺｅｎｇ  Ｄｅｌｉａｎｇ
，， ’
．  Ｆｅｅｄｆｏｒｗａｒｄ


ＦｅｅｄｂａｃｋＣｏｎｔｒｏｌＢａｓｅｄｏｎＤＱＮＡ［］
．
东北大学、中国自动化学会信息物理系统


控制与决策专业委员会第．３２届中国控制与决策会议论文集（
３）
［Ｃ］．
东北大学 

、
中国自动化学会信息物理系统控制与决策专业委员会：《控制与决策》编辑


部，
２０２０５： 

．
５ 

１


致 

谢
衷心感谢导师曾德良教授对本人的精心指导。
本科学习阶段，曾德良教授作为


我所在本科班级的班主任对待我们尽心尽责不仅在学习上督促我们要不断进取
，， 

，
还在生活上给予了我们很多帮助。曾老师严谨负责的工作，和蔼亲切的性格吸引了


我，因此我得到保研资格之后很快就找到了曾老师，并幸运的成为了他的学生。 

研
究生阶段，曾老师给予了我细心的研究指导，帮助我实现从本科生到研究生的良好


过渡，对我整个研究生过程都起到了重要作用。学位论文方面，曾老师尊重了我的


意愿，让我能够研宄自己感兴趣的科研方向，
并以此作为毕业论文内容。
从论文的


开题到最终完成，
曾老师多次为我解答疑问，并经常对我的工作表示鼓励 

。
同时，感谢胡勇老师，以及实验室同窗们的帮助和支持。胡勇老师经常带领我



们进行实验室的项目工作，并带着我去过许多电厂参与实际项目，大大增加了我的


视界。感谢我的师兄高耀趋博士后，在我刚成为研究生的时候，

为我解决了许多研


宄工作上的基础问题。感谢我的同年同窗廖拥文他与我本科阶段就是同学兼舍友， 

，
研宄生更是起保研进入同师门并且我们的研究方向相似在平时的研究学习


一一
，，
工作中，我们之间经常交流，互帮互助，收益颇多 


。
最后感谢我的父母，在家庭经济有限的情况下，坚定的支持我不断提升自己的



学历，让我全身心的专注于自己的学业之中 


。
５２



基于强化学习的前馈控制器 马一鸣

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于强化学习的前馈控制器 马一鸣

Uploaded by

Copyright:

Available Formats

硕士 学 位论文

对本 文 的 研究工作做 出 重要贡 献 的 个 人 和 集 体 ， 均 已在文 中 以 明 确 方式注 明 。 本声

学 位论 文 的 规定 ， 同 意学校保 留并 向 有关 部 门 送 交论文 的 复 印 件和 电子版 本 ，

当 前 的 工 业 过程控 制 系 统 中 ， 线 性控制 器仍 占 绝大部分 。 然而 真实 的 工业系 统

不 断发展 ， 以 深度学 习 、 机器 学 习 为基础 的 强化学 习 算法使得非 线 性 系 统 自 适 应控

再次 ， 研 宄利 用 前馈结 构 降低 强化 学 习 训 练难度 。 通过 前馈反馈 结 构 ， 将 强化

ｒｅ ｉ ｎ ｆｏ ｒ ｃ ｅ ｍ ｅ ｎ ｔ  ｌ ｅ ａｒ ｎ ｉ ｎ ｇａ ｇ ｏ ｒ ｌ ｉ ｔ ｈｍｂ ａ ｓ ｅ ｄ ｏ ｎｄ ｅ ｅ ｐ ｌ ｅ ａｒｎ ｉ ｎ

ａｄ ａ ｔ ｉ ｖ ｅｃ ｏ ｎ ｔｒ ｏ ｏ ｆ ｎｏｎ ｎ ｅ ａｒｓ ｙ ｓ ｔ ｅ ｍ  ａｐ ｐ ｅ ａｒａｎ ｅ ｗ ｒ ｅ ｓ ｅ ａｒ ｃ ｈｄ ｉ ｒｅ ｃｔｉ ｏｎ

ｈ  ｖ ｅ ｍ ａ ｃ ｔｏ ｎｔｈ ｅｃ ｏ ｎ ｔ ｒ ｏ ｓ ｙ ｓ ｔ ｅ ｍ  ｎ ｔ ｈ ｅ

ａ ｎ ｄｄ ｓｃ ｕ ｓ ｓ ｅ ｓ ｔ ｓａ ｃ ａｔ ｉ ｏ ｎ ｎｐ ｒ ｏ ｃ ｅ ｓ ｓｃ ｏ ｎ ｔ ｒ ｏ ｏ ｆ ｎ ｏ ｎ  ｎ ｅ ａｒｓ ｙ ｓ ｔ ｅ ｍ ｓ Ｔ ｈ ｅｍ ａ ｎｗ ｏ ｒ ｋｏ ｆ

ａｌ ｇ ｏ ｒ ｈｍ ｓ  ｎｔ ｈ ｅｏ ｐ ｔ ｍ ｚ ａｔ ｏ ｎｃ ｏ ｎ ｔ ｒ ｏ ｏ ｆｎ ｏ ｎ ｎ ｅ ａｒｓ ｅ ｍ ｓ ｓｓ ｔ ｕ ｄ ｅ ｄ  Ｔ ｈ ｅ  ｅ ｆｆｅ ｃ ｔ ｖｅｎ ｅ ｓｓ

ｏｆ  ｔ ｈ ｅｒ ｅ ｎ ｉ ｆｏ ｒ ｃ ｅ ｍ ｅ ｎ ｔ ｌ ｅ ａｒｎ ｉ ｎ ｇａ ｌ

Ｓｅｃｏｎｄ ｈ ｅ  ｒ ｅ ｓ ｅ ａ ｒ ｃ ｈ  ｕ ｓ ｅ ｓ  ｆｅ ｅ ｄ ｆｏ ｒ ｗ ａ ｒ ｄ  ｓ ｔ ｒ ｕ ｃ ｔ ｕ ｒ ｅ  ｔ ｏ  ｒ ｅ ｄ ｕ ｃ ｅｔ ｈ ｅｄ ｆｆｉ ｃ ｕ ｎｔｅｎｓ ｖｅ

ｅ ａｒｎ ｎｇ ｓｕ ｓ ｅ ｄａ ｓ ｈ ｅｅ ｘ ｔ ｅ ｒｎ ａ ｏ ｍ ｚｅ ｒ ｏ  ｒ ｅ ｔ ａ ｎ  ｔ ｈ ｅ  ｆｅ ｅ ｄ ｂ ａ ｃ ｋ  ｏ ｏ ｏｆ ｈ ｅｏ ｒ ｇ ｎ ａ ｐｒｏ

ｃｏｎ ｔ ｒｏ ｓ ｙ ｓ ｔ ｅ ｍ Ｔ ｈ ｅ ｎｔ ｈ ｅｃ ｏ ｎｔ ｒ ｏ ｒ ｏ ｂ ｅ ｍ ｓｓ ｉ ｍｐ ｉ ｆ ｅ ｄｔ ｏｏ

ｃ ｏ ｎｖｅ ｎｃ ｅｓ ｅ ｅ ｄｏ ｆｒ ｅ ｎ ｆｏ ｒ ｃ ｅ ｍ ｅ ｎ ｔ  ｅ ａ ｒｎ ｎ ｓａ ｃ ｃｅ ｅ ｒ ａ ｔ ｅ ｄ Ｆ ｎａ ｙ ｃ ｏ ｍ ｐ ａ ｒ ｅ ｄｗ ｈｔ ｈ ｅ

ｏｎａ ｎ ｆｏ ｒ ｃ ｅ ｍ ｅ ｎ ｔ  ｅ ａ ｒｎ ｎ ｍ ｅ ｔｈ ｏ ｄ ｈ ｅｓ ｍ ｕ ａ ｔ ｏ ｎｅ ｘ ｅ ｒ ｍ ｅ ｎ ｔ 

ｖ ａ ｒ ｙ ｎ ｇｃ ｈ ｉ ａｒａ ｃ ｔ ｅｒ ｉ ｓ ｔ ｉ ｃ ｓｏ 

ｏｎ ｔ ｈ ｅｔ ｒ ａ ｄ ｏ ｎ ａ ｒ ｅ ｎ ｆｏ ｒ ｃ ｅ ｍ ｅ ｎ ｔ  ｅ ａ ｒ ｎ ｈ ｍｗ ｈ ａ ｖ ｅｔ ｈ ｅｔ ｒ ａ ｎ ｓ

ｅ ｍｔ ｏａ ｄ ａ ｔｔ ｏｎ ｅ ｗｏ ｂ Ｉ ｎｖ ｅ ｗｏ ｆｔ ｈ ｂ ｅｍ ｈ ｅｅ ｘ

４ ． ２ ． ２ 强化学 习 自 适应补偿控制 系 统搭建  ３ ０

４ ． ２ ． ３ 纯强化学 习 控制系 统搭建  ３ ３

近年来 ， 机器学 习 作 为人工 智 能 的 热 点 方 向 得 到 了 快速 的 发展 ， 并 逐渐进入我

要求 系 列 的机器 学 习 算 法应运而 生 神经 网 络基于 数据 驱动 的 建模方法为控

图 像识别 技术在 动驾驶 无人机等 领域得 到 应 用 强化 学 习 在 决 策控 制 上 的 表

机器学 习 的 发展 同 时 影 响 着其 他行业 的 研 究方 向 ， 刘 吉臻院士在 ２０ １ ６ 年提 出

强化学 习 作 为机器 学 习 的 个重要方 向 因 其 无监督 学习 趋优 的 特 点

控制系 统 ， 研 宄 强化学 习 算法在 非 线 性 系 统控制 中 的 表现 。 并根据 实 际工 业对 象 时

化 学 习 算法 的 适应补偿控制 系统 给 出 了 强化学 习 算法 种新 的应用 思路

工智 能的核心方 向 学 习 是 人类在 复 杂环境 中 赖 以 生存 的 行 为 人类通过 学 习 来

获得学 习 信 息 ， 根据 反馈 的 信 息 学 习 状态 到动作 的 映射 ， 以 获得 不 同 环境状态 下 最

优 的 决策 强化学 习 的机制 使得其具有 学习 趋优 的 特 点

学 习 的 研 究提供 了 重要 的 数 学模型 ， 强 化 学 习 问 题其 实 就 是 马 尔 可 夫决策过程求 取

最优解 的 过程 ； 同 时 并提 出 了 著名 的 ｂ ｅ ｌ ｌ ｍ ａｎ 方程 用 动 态 规划 来求解 最优控 制 问 题 

ｌ ｅ ａｍ ｉ ｎ ｇ 仍然是应 用 最具有 代表性 的 形 式 。 ２０００ 年 

传 统 的 基于 马 尔 可夫决策过程 的 强化学 习 拥 有强大 的 自 主决策能力 ，

的特征提取 能力 有 限 导 致算法面对 高维 数据 时运算过 于 复杂 所以 就有人提

学 习 利 用 深 度 学 习 的 感 知 能 力 改进 自 身策略 ， 实现从 原始 环 境 到被控对 象 的 直接控

制 深度 学 习 在 非 结 构 化 数据 上 具 有优 秀 的 表 现 使计算模型 能够从多 个层次 的

数据 中 逐步 学 习 特征 在基于 马 尔 可夫假设 的 传 统强化学 习 中 深度学 习 带来的

派生方法可 以 帮 助 强化学 习 大大减少 问 题 的 深度 ［

采用 卷积网 络代替 的表格法 又提 出 了

这 算法 出 现了 很多进 步 的 改进算法 如 算法 解决值 函 数

Ｄ ＤＰ Ｇ） 采 用 深度神经 网 络作 为策 略 网 络 ， 直接 完 成状态到 动作 的 映射来代 替 Ｄ ＱＮ

目 前 ， 深度强化 学 习 活跃在视频游戏 、 机器人 、 自 动 驾 驶等领域 ， 不 断有 先进

Ｇｒａｄ ＤＡ Ｐ Ｇ 实现机器人手 的 多 指复杂 行为控 制 任务 等人 提 出 树状结 构

与 人类智 能甚至动 物 智 能都仍存在着很 大 的 鸿沟 ，

习 自 身 就具有独立 的 决策控制 能力 能够 主完成学 习 与 控制 过程 训 练好 的 强

化 学 习 算法在 解 决控制 问 题 时 具 有 优 秀 的 能 力 但训 练 的初期阶段产生 的 都是 

车 。 通过长 时 间 的 试错训 练 ， 智 能体会学 习 到正 确 的控制规律 ，

境数据得 到 的 而 不 是 根据 环 境 规 律 推 理 的 这就 导 致 了 智 能体学 习 过程有很 多

另 可 能存在 的 情 况 是 智 能体在 学 习 过程 中 有可 能探索 出 些意 外 的 策略

这些策 略 可能是很好 的 以 种 意 外 的 更加 灵活 的 方式解 决 问 题 但也可 能是危险

复杂 的控制 环境下 强化学 习 会输 出 些很糟糕 的控制 动 作 在 模拟环 境 中 无非就

度强化学 习 中 ， 经验池 的 加入让采样 效率 己经得 到 了 提高 ，

在经验 回 放 的基础上 还 有 资 格迹等经验池优 化 方法 １

强化学 习 的 学 习 过程受到奖励 函 数 的 影响 。 通过设计 非稀疏奖励 函 数 ，

不 到 学 习 的 奖励 学 习 的 效率就会 下 降 而如 果每学 习 段时间 就 能得到 定的

激励 ， 那 么 就更 容 易 接近学 习 目 标 。 强化学 习 也类似 ， 设计 形 式化奖励 ， 即 越接 近

如何将 强化 学 习 的 优化 标调 整成人类 标 仍 然 是 个难题

强化 学 习 提供行 为 指 导 如 果我们 给强化 学 习 个指 导 者 指 导 强化学 习 的 学 习

方向 ， 那 么 就 能让 强化学 习 无 需让模 型 超界才 认识 到控制 错 误 。 强化 学 习 智 能体可

强化 学 习 算 法具有很 大 的 潜力 但 它 的 广泛应 用 仍有很 长 段路要走

基于强化学习的前馈控制器马一鸣

基于强化学习的前馈控制器马一鸣

硕士学位论文

对本文的研究工作做出重要贡献的个人和集体，均已在文中以明确方式注明。本声

学位论文的规定，同意学校保留并向有关部门送交论文的复印件和电子版本，

当前的工业过程控制系统中，线性控制器仍占绝大部分。然而真实的工业系统

不断发展，以深度学习、机器学习为基础的强化学习算法使得非线性系统自适应控

再次，研宄利用前馈结构降低强化学习训练难度。通过前馈反馈结构，将强化

ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎｇａｇｏｒｌｉｔｈｍｂａｓｅｄ ｏｎｄｅｅｐ ｌｅａｒｎｉｎ

ａｄａｔｉｖｅｃｏｎｔｒｏ ｏｆｎｏｎｎｅａｒｓｙｓｔｅｍ  ａｐｐｅａｒａｎｅｗ ｒｅｓｅａｒｃｈｄｉｒｅｃｔｉｏｎ

ｈ  ｖｅ ｍａｃｔｏｎｔｈｅｃｏｎｔｒｏ ｓｙｓｔｅｍ  ｎ ｔｈｅ

ａｎｄｄｓｃｕｓｓｅｓ ｔｓａｃａｔｉｏｎ ｎｐｒｏｃｅｓｓｃｏｎｔｒｏ ｏｆｎｏｎ  ｎｅａｒｓｙｓｔｅｍｓ Ｔｈｅｍａｎｗｏｒｋｏｆ

ａｌｇｏｒｈｍｓ  ｎｔｈｅｏｐｔｍｚａｔｏｎｃｏｎｔｒｏ ｏｆｎｏｎｎｅａｒｓｅｍｓ ｓｓｔｕｄｅｄ  Ｔｈｅ  ｅｆｆｅｃｔｖｅｎｅｓｓ

ｏｆ  ｔｈｅｒｅｎｉｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇａｌ

Ｓｅｃｏｎｄｈｅ  ｒｅｓｅａｒｃｈ  ｕｓｅｓ  ｆｅｅｄｆｏｒｗａｒｄ  ｓｔｒｕｃｔｕｒｅ  ｔｏ  ｒｅｄｕｃｅｔｈｅｄｆｆｉｃｕｎｔｅｎｓｖｅ

ｅａｒｎｎｇｓｕｓｅｄａｓｈｅｅｘｔｅｒｎａ ｏｍｚｅｒｏ  ｒｅｔａｎ  ｔｈｅ  ｆｅｅｄｂａｃｋ  ｏｏｏｆｈｅｏｒｇｎａｐｒｏ

ｃｏｎｔｒｏ ｓｙｓｔｅｍ Ｔｈｅｎｔｈｅｃｏｎｔｒｏｒｏｂｅｍ ｓｓｉｍｐｉｆｅｄｔｏｏ

ｃｏｎｖｅｎｃｅｓｅｅｄｏｆｒｅｎｆｏｒｃｅｍｅｎｔ  ｅａｒｎｎｓａｃｃｅｅｒａｔｅｄ Ｆｎａｙ ｃｏｍｐａｒｅｄｗｈｔｈｅ

ｏｎａｎｆｏｒｃｅｍｅｎｔ  ｅａｒｎｎｍｅｔｈｏｄｈｅｓｍｕａｔｏｎｅｘｅｒｍｅｎｔ 

ｖａｒｙｎｇｃｈｉａｒａｃｔｅｒｉｓｔｉｃｓｏ 

ｏｎ ｔｈｅｔｒａｄｏｎａ ｒｅｎｆｏｒｃｅｍｅｎｔ  ｅａｒｎｈｍｗ ｈａｖｅｔｈｅｔｒａｎｓ

ｅｍｔｏａｄａｔｔｏｎｅｗｏｂ Ｉｎｖｅｗｏｆｔｈｂｅｍｈｅｅｘ

４．２．２强化学习自适应补偿控制系统搭建  ３０

４．２．３纯强化学习控制系统搭建  ３３

近年来，机器学习作为人工智能的热点方向得到了快速的发展，并逐渐进入我

要求系列的机器学习算法应运而生神经网络基于数据驱动的建模方法为控

图像识别技术在动驾驶无人机等领域得到应用强化学习在决策控制上的表

机器学习的发展同时影响着其他行业的研究方向，刘吉臻院士在２０１６年提出

强化学习作为机器学习的个重要方向因其无监督学习趋优的特点

控制系统，研宄强化学习算法在非线性系统控制中的表现。并根据实际工业对象时

化学习算法的适应补偿控制系统给出了强化学习算法种新的应用思路

工智能的核心方向学习是人类在复杂环境中赖以生存的行为人类通过学习来

获得学习信息，根据反馈的信息学习状态到动作的映射，以获得不同环境状态下最

优的决策强化学习的机制使得其具有学习趋优的特点

学习的研究提供了重要的数学模型，强化学习问题其实就是马尔可夫决策过程求取

最优解的过程；同时并提出了著名的ｂｅｌｌｍａｎ方程用动态规划来求解最优控制问题 

ｌｅａｍｉｎｇ仍然是应用最具有代表性的形式。２０００年 

传统的基于马尔可夫决策过程的强化学习拥有强大的自主决策能力，

的特征提取能力有限导致算法面对高维数据时运算过于复杂所以就有人提

学习利用深度学习的感知能力改进自身策略，实现从原始环境到被控对象的直接控

制深度学习在非结构化数据上具有优秀的表现使计算模型能够从多个层次的

数据中逐步学习特征在基于马尔可夫假设的传统强化学习中深度学习带来的

派生方法可以帮助强化学习大大减少问题的深度［

采用卷积网络代替的表格法又提出了

这算法出现了很多进步的改进算法如算法解决值函数

ＤＤＰＧ）采用深度神经网络作为策略网络，直接完成状态到动作的映射来代替ＤＱＮ

目前，深度强化学习活跃在视频游戏、机器人、自动驾驶等领域，不断有先进

ＧｒａｄＤＡＰＧ实现机器人手的多指复杂行为控制任务等人提出树状结构

与人类智能甚至动物智能都仍存在着很大的鸿沟，

习自身就具有独立的决策控制能力能够主完成学习与控制过程训练好的强

化学习算法在解决控制问题时具有优秀的能力但训练的初期阶段产生的都是 

车。通过长时间的试错训练，智能体会学习到正确的控制规律，

境数据得到的而不是根据环境规律推理的这就导致了智能体学习过程有很多

另可能存在的情况是智能体在学习过程中有可能探索出些意外的策略

这些策略可能是很好的以种意外的更加灵活的方式解决问题但也可能是危险

复杂的控制环境下强化学习会输出些很糟糕的控制动作在模拟环境中无非就

度强化学习中，经验池的加入让采样效率己经得到了提高，

在经验回放的基础上还有资格迹等经验池优化方法１

强化学习的学习过程受到奖励函数的影响。通过设计非稀疏奖励函数，

不到学习的奖励学习的效率就会下降而如果每学习段时间就能得到定的

激励，那么就更容易接近学习目标。强化学习也类似，设计形式化奖励，即越接近

如何将强化学习的优化标调整成人类标仍然是个难题

强化学习提供行为指导如果我们给强化学习个指导者指导强化学习的学习

方向，那么就能让强化学习无需让模型超界才认识到控制错误。强化学习智能体可

强化学习算法具有很大的潜力但它的广泛应用仍有很长段路要走

化学习理论的发展及研宄现状，并简述了其在各个领域的应用；分析了强化学习算

法的应用问题及些解决方向最后简述文章的结构安排

第二章，强化学习理论基础。

构；介绍了强化学习所用的马尔可夫决策过程，引出强化学习的算法原理；介绍两

两种典型深度强化学习算法；通过仿真实验分析强化学习算法的控制特性 

第四章，基于强化学习的自适应补偿控制系统针对强化学习算法训练难度高

训练的环境，从而提高强化学习的收敛速度与稳定性，同时利用反馈调节提高系统

结合神经网络监督学习与强化学习前馈算法设计了种无模型强化学习监督自 

应补偿控制系统；在网络监督控制算法的基础上，结合强化学习自适应补偿控制结

计仿真实验，对该方法的收敛性与有效性进行验证 

绍并分析了深度学习与强化学习结合的深度强化学习，以及深度强化学习常用算法

机器学习是门涵盖数学心理学计算机科学自动化技术等多领域的交叉

学科是种经验驱动的主学习的原则性数学框架其核心是运用算法来解析

数据信息通过不断地学习寻找规矩积累经验并对今后的发展做出决策或预判［

强化学习作为机器学习的个重要方向与监督学习无监督学习共同组成机器学