深度学习和深度强化学习综述

I 互联网 + 安全
nternet Security
深度学习和深度强化学习综述
□赵德宇南京邮电大学贝尔英才学院
【摘要】人工智能是当今社会的一个热门课题，深度学习则是与人工智能息息相关的一个词语。本文在探讨深度学习的起源与发展，
深度强化学习的理念之后，总结了自己的收获并对其发展做出了展望。
【关键词】人工智能机器学习深度学习深度强化学习
前言的统计特征，然后按照样本的相似程度进行分类，把相互之
目前，人工智能在全球掀起了一番热潮，而深度学习正间联系密切的样本分为一类，这样就把样本分成了若干类。
是引发这一热潮的导火索；深度学习是一种机器学习的技术，海布学习规则与“条件反射”机理一致，为以后的神经网络
也是人工智能的领跑者，自提出以来，在计算机视觉，语音学习算法奠定了基础。
识别，自然语言处理以及商业等领域中受到了广泛的应用。（3）感知机。然后在 20 世纪 50 年代末，美国科学家
而深度强化学习，也是机器学习的技术之一，是一种智能系罗森布拉特发现了一种类似于人类学习过程的学习算法——
统从环境到行为映射的学习，其在机器人和工业自动化等业感知机学习 [2]。并于 1958 年，正式提出了由两层神经元组
界是最重要的研究课题之一。本文首先在第一大块阐述了深成的神经网络，称之为“感知器”。感知器本质上是一种线
度学习的起源与发展，根据时间线顺序介绍了几种重要的深性模型，可以对输入的训练集数据进行二分类，且能够在训
度学习相关要点；之后在第二大块介绍深度强化学习的起源练集中自动更新权值。下面是具体的感知器学习过程：
强化学习，最后在文末谈了谈深度学习和深度强化学习的应
用和展望，以及我自己的一些体会与收获。
一、深度学习的起源与发展
1.1 起源阶段
在深度学习的起源阶段，有以下几种模型和规则出现：
（1）M-P 模型。M-P 模型是心理学家麦卡洛克和数学
逻辑学家皮兹在 1943 年提出的 [1]。M-P 模型是模仿神经元
的结构和工作原理（神经元之间的“信息”传递，属于化学图2 感知器学习模型
物质传递的。当它“兴奋”时，就会向与它相连的神经元发 1.2 发展阶段
送化学物质神经递质，从而改变这些神经元的电位；如果某在深度学习的发展阶段，也有一些重要的思想和理念的
些神经元的电位超过了一个“阈值（threshold）”，那么，提出。
它就会被“激活（activation）”，也就是“兴奋”起来，接（1）Hopfield 神经网络
着向其它神经元发送化学物质），构成出的一个基于神经网在有关深度学习的研究停滞不前的时候，到了 1982 年，
络的数学模型，本质上是一种“模拟人类大脑”的神经元模著名物理学家约翰·霍普菲尔德发明了 Hopfield 神经网络。
型。其模型如图 1 所示： Hopfield 神经网络是一种结合存储系统和二元系统的循环神
经网络：
图1 M-P 神经元模型图3 Hopfield 网络结构

MP 模型作为人工神经网络的起源，开创了人工神经网由于该理论容易陷入局部最小值的缺陷，该算法并未在
络的新时代，也奠定了神经网络模型的基础。当时引起很大的轰动。
（2）海布学习规则。海布学习规则是加拿大著名心理（2）BP 算法
学家唐纳德·赫布在 1949 年提出的。海布学习规则是基于直到 1986 年，深度学习之父杰弗里·辛顿提出了一种
非监督学习的模仿人类认知世界的过程建立一种“网络模适用于多层感知器的反向传播算法——BP 算法。BP 算法在
型”，该网络模型针对训练集进行大量的训练并提取训练集传统神经网络正向传播的基础上，增加了误差的反向传播过
174
I 互联网 + 安全
nternet Security
程。反向传播过程不断地调整神经元之间的权值和阈值，直一样，处于一个样本完全没有标签的环境下，通过先尝试做
到输出的误差达到减小到允许的范围之内，或达到预先设定出一些处理得到一个结果，通过这个结果是对还是错的反馈，
的训练次数为止。调整之前的动作，就这样不断的调整，算法能够学习到在什
（3）梯度消失与爆炸问题么样的情况下选择什么样的处理可以得到最好的结果。也就
尽管 BP 网络的引起了不少的反响，但是它并没有彻底是说，强化学习和非监督学习的不同点就在于它们处理问题
火爆起来，原因主要有二：第一点就是当时的计算机硬件水的模式是不同的，打个比方，现在有个向用户推荐新闻文章
平有限导致计算能力跟不上；而第二点，也是最重要的一点，的任务，非监督式学习会先自己找到用户先前已经阅读过类
就是当神经网络的规模增大时，BP 算法会出现“梯度消失” 似的文章进行自我归类并向他们推荐其一，而强化学习则先
的问题。而“梯度消失“问题主要是由两点原因引起的：深通过向用户推荐少量的新闻，并不断获得来自用户的反馈，
层网络的影响和采用了不合适的激活函数。最后构建用户可能会喜欢的文章的类别。
（4）梯度消失与爆炸的解决强化学习有 4 个要素，分别是 state，reward，action，
初期的解决办法： policy；我们从一个形象的例子来看它们分别是什么：
在 2006 年，杰弗里·辛顿以及他的学生鲁斯兰·萨拉
赫丁诺夫正式提出了深度学习的概念。他们在世界顶级学术
期刊《科学》发表的一篇文章中详细的给出了“梯度消失”
问题的解决方案——通过无监督的学习方法逐层训练算法，
再使用有监督的反向传播算法进行调优。
这个方法在当时是很知名的，但是目前用的已经不多了。图5 旅行商例子
更加彻底的解决方法：上图是一个我们最熟知的旅行商例子，我们要从 A 走到
这个方法就是运用 relu，leakrelu，elu 等性能更好的激 F，每两点之间表示这条路的成本，我们要选择路径让成本
活函数。其实这类解决方法的思想十分简单，就是如果激活越低越好。那么四大要素在该例子里就代表了：
函数的导函数为 1，那么所有的问题就解决了。于是 relu 函 State：就是节点 {A,B,C,D,E,F}
数就应运而生了。函数 relu=max(x,0)，其图像与导函数图像 Reward：与每条路之间的成本成反比，成本越低，
如下： reward 越高
Action：就是从一点走向下一点，比如 A 到 B，B 到 D
等
Policy：就是完成任务的整条路经，比如 {A → C → F}
三、深度学习和深度强化学习的应用和展望
根据前文所说，强化学习非常适合实现自主决策，相比
之下监督学习与无监督学习技术则无法独立完成此项工作。
过去几年以来，强化学习正越来越多地在各类 AI 项目当中
发挥令人瞩目的作用。其最突出的应用平台正是在计算代理
图4 relu 函数图像与导函数图像的环境背景性决策场景当中，负责判断最佳行动。在未来的
（5）DNN 模型日子里，强化学习也会在这方面发挥更加重要的作用。
DNN 模型可以理解为有很多隐藏层的神经网络，也可强化学习在人工智能领域长久以来一直扮演着小众性角
以被叫做多层感知机，它和之前的多层神经网络架构的不同色。然而，凭借着试错法来最大程度提升算法报酬函数，强
点就是它在各方面装备上了最好的技术：它也是 BP 的训练化学习得以在 IT 运营管理、能源、医疗卫生、同类型、金融、
算法；隐藏层的激活函数使用的是 relu 函数，消除了梯度消交通以及贸易等领域构建起大量自适应性控制与多代理自动
失问题；通过正则化 +dropout 改善了过拟合的现象；在输出化应用。其可负责对传统重点领域（机器人、游戏以及模拟）
层是 softmax 作为激活函数；目标函数是交叉熵等等。DNN 的 AI 方案进行训练，并有能力在边缘分析、自然语言处理、
是将之前我们所累积的知识进行了综合而得到的一种高性能机器翻译、计算机视觉以及数字化助手方面带来新一代 AI
的模型。而自 DNN 成型之后，深度学习真正成为了当前最解决方案 [3]。
为热门的领域之一，在全球引爆了神经网络的狂潮。四、结束语
二、深度强化学习的起源与发展虽然深度学习在人工智能方面的应用越来越广泛，但是
深度强化学习的前身即为强化学习。强化学习也是属于学习的路程是永无止步的，因此相关人员应该努力创新，为
机器学习的一种，它和前文提到过的监督式学习以及非监督人工智能行业提供更大的帮助，从业人员也应该认真学习相
式学习是并列的关系；强化学习和非监督式学习的前提条件关知识，使人工智能行业的发展更加迅速。
参考文献
[1] 刘全 , 翟建伟 , 章宗长 , et al. 深度强化学习综述 [J]. 计算机学报 , 2018(1):1-27.
[2] 赵星宇 , 丁世飞 . 深度强化学习研究综述 [J]. 计算机科学 , 2018, v.45(07):7-12.
[3] 林昊威 . 基于深度学习的智能控制研究 [D].
175

深度学习和深度强化学习综述

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

深度学习和深度强化学习综述

Uploaded by

Copyright:

Available Formats

I 互联网 + 安全

图1 M-P 神经元模型图3 Hopfield 网络结构

You might also like

深度学习和深度强化学习综述

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

深度学习和深度强化学习综述

Uploaded by

Copyright:

Available Formats

I 互联网 + 安全

图1 M-P 神经元模型 图3 Hopfield 网络结构

You might also like

图1 M-P 神经元模型图3 Hopfield 网络结构