You are on page 1of 2

I 互联网 + 安全

nternet Security

深度学习和深度强化学习综述
□赵德宇 南京邮电大学贝尔英才学院

【摘要】 人工智能是当今社会的一个热门课题,深度学习则是与人工智能息息相关的一个词语。本文在探讨深度学习的起源与发展,
深度强化学习的理念之后,总结了自己的收获并对其发展做出了展望。
【关键词】 人工智能 机器学习 深度学习 深度强化学习

前言 的统计特征,然后按照样本的相似程度进行分类,把相互之
目前,人工智能在全球掀起了一番热潮,而深度学习正 间联系密切的样本分为一类,这样就把样本分成了若干类。
是引发这一热潮的导火索;深度学习是一种机器学习的技术, 海布学习规则与“条件反射”机理一致,为以后的神经网络
也是人工智能的领跑者,自提出以来,在计算机视觉,语音 学习算法奠定了基础。
识别,自然语言处理以及商业等领域中受到了广泛的应用。 (3)感知机。然后在 20 世纪 50 年代末,美国科学家
而深度强化学习,也是机器学习的技术之一,是一种智能系 罗森布拉特发现了一种类似于人类学习过程的学习算法——
统从环境到行为映射的学习,其在机器人和工业自动化等业 感知机学习 [2]。并于 1958 年,正式提出了由两层神经元组
界是最重要的研究课题之一。本文首先在第一大块阐述了深 成的神经网络,称之为“感知器”。感知器本质上是一种线
度学习的起源与发展,根据时间线顺序介绍了几种重要的深 性模型,可以对输入的训练集数据进行二分类,且能够在训
度学习相关要点;之后在第二大块介绍深度强化学习的起源 练集中自动更新权值。下面是具体的感知器学习过程:
强化学习,最后在文末谈了谈深度学习和深度强化学习的应
用和展望,以及我自己的一些体会与收获。
一、深度学习的起源与发展
1.1 起源阶段
在深度学习的起源阶段,有以下几种模型和规则出现:
(1)M-P 模型。M-P 模型是心理学家麦卡洛克和数学
逻辑学家皮兹在 1943 年提出的 [1]。M-P 模型是模仿神经元
的结构和工作原理(神经元之间的“信息”传递,属于化学 图2 感知器学习模型
物质传递的。当它“兴奋”时,就会向与它相连的神经元发 1.2 发展阶段
送化学物质神经递质,从而改变这些神经元的电位;如果某 在深度学习的发展阶段,也有一些重要的思想和理念的
些神经元的电位超过了一个“阈值(threshold)”,那么, 提出。
它就会被“激活(activation)”,也就是“兴奋”起来,接 (1)Hopfield 神经网络
着向其它神经元发送化学物质),构成出的一个基于神经网 在有关深度学习的研究停滞不前的时候,到了 1982 年,
络的数学模型,本质上是一种“模拟人类大脑”的神经元模 著名物理学家约翰·霍普菲尔德发明了 Hopfield 神经网络。
型。其模型如图 1 所示: Hopfield 神经网络是一种结合存储系统和二元系统的循环神
经网络:

图1 M-P 神经元模型 图3 Hopfield 网络结构


MP 模型作为人工神经网络的起源,开创了人工神经网 由于该理论容易陷入局部最小值的缺陷,该算法并未在
络的新时代,也奠定了神经网络模型的基础。 当时引起很大的轰动。
(2)海布学习规则。海布学习规则是加拿大著名心理 (2)BP 算法
学家唐纳德·赫布在 1949 年提出的。海布学习规则是基于 直到 1986 年,深度学习之父杰弗里·辛顿提出了一种
非监督学习的模仿人类认知世界的过程建立一种“网络模 适用于多层感知器的反向传播算法——BP 算法。BP 算法在
型”,该网络模型针对训练集进行大量的训练并提取训练集 传统神经网络正向传播的基础上,增加了误差的反向传播过

174
I 互联网 + 安全
nternet Security

程。反向传播过程不断地调整神经元之间的权值和阈值,直 一样,处于一个样本完全没有标签的环境下,通过先尝试做
到输出的误差达到减小到允许的范围之内,或达到预先设定 出一些处理得到一个结果,通过这个结果是对还是错的反馈,
的训练次数为止。 调整之前的动作,就这样不断的调整,算法能够学习到在什
(3)梯度消失与爆炸问题 么样的情况下选择什么样的处理可以得到最好的结果。也就
尽管 BP 网络的引起了不少的反响,但是它并没有彻底 是说,强化学习和非监督学习的不同点就在于它们处理问题
火爆起来,原因主要有二:第一点就是当时的计算机硬件水 的模式是不同的,打个比方,现在有个向用户推荐新闻文章
平有限导致计算能力跟不上;而第二点,也是最重要的一点, 的任务,非监督式学习会先自己找到用户先前已经阅读过类
就是当神经网络的规模增大时,BP 算法会出现“梯度消失” 似的文章进行自我归类并向他们推荐其一,而强化学习则先
的问题。而“梯度消失“问题主要是由两点原因引起的:深 通过向用户推荐少量的新闻,并不断获得来自用户的反馈,
层网络的影响和采用了不合适的激活函数。 最后构建用户可能会喜欢的文章的类别。
(4)梯度消失与爆炸的解决 强 化 学 习 有 4 个 要 素, 分 别 是 state,reward,action,
初期的解决办法: policy;我们从一个形象的例子来看它们分别是什么:
在 2006 年,杰弗里·辛顿以及他的学生鲁斯兰·萨拉
赫丁诺夫正式提出了深度学习的概念。他们在世界顶级学术
期刊《科学》发表的一篇文章中详细的给出了“梯度消失”
问题的解决方案——通过无监督的学习方法逐层训练算法,
再使用有监督的反向传播算法进行调优。
这个方法在当时是很知名的,但是目前用的已经不多了。 图5 旅行商例子
更加彻底的解决方法: 上图是一个我们最熟知的旅行商例子,我们要从 A 走到
这个方法就是运用 relu,leakrelu,elu 等性能更好的激 F,每两点之间表示这条路的成本,我们要选择路径让成本
活函数。其实这类解决方法的思想十分简单,就是如果激活 越低越好。那么四大要素在该例子里就代表了:
函数的导函数为 1,那么所有的问题就解决了。于是 relu 函 State:就是节点 {A,B,C,D,E,F}
数就应运而生了。函数 relu=max(x,0),其图像与导函数图像 Reward: 与 每 条 路 之 间 的 成 本 成 反 比, 成 本 越 低,
如下: reward 越高
Action:就是从一点走向下一点,比如 A 到 B,B 到 D

Policy:就是完成任务的整条路经,比如 {A → C → F}
三、深度学习和深度强化学习的应用和展望
根据前文所说,强化学习非常适合实现自主决策,相比
之下监督学习与无监督学习技术则无法独立完成此项工作。
过去几年以来,强化学习正越来越多地在各类 AI 项目当中
发挥令人瞩目的作用。其最突出的应用平台正是在计算代理
图4 relu 函数图像与导函数图像 的环境背景性决策场景当中,负责判断最佳行动。在未来的
(5)DNN 模型 日子里,强化学习也会在这方面发挥更加重要的作用。
DNN 模型可以理解为有很多隐藏层的神经网络,也可 强化学习在人工智能领域长久以来一直扮演着小众性角
以被叫做多层感知机,它和之前的多层神经网络架构的不同 色。然而,凭借着试错法来最大程度提升算法报酬函数,强
点就是它在各方面装备上了最好的技术:它也是 BP 的训练 化学习得以在 IT 运营管理、能源、医疗卫生、同类型、金融、
算法;隐藏层的激活函数使用的是 relu 函数,消除了梯度消 交通以及贸易等领域构建起大量自适应性控制与多代理自动
失问题;通过正则化 +dropout 改善了过拟合的现象;在输出 化应用。其可负责对传统重点领域(机器人、游戏以及模拟)
层 是 softmax 作为激活函数;目标函数是交叉熵等等。DNN 的 AI 方案进行训练,并有能力在边缘分析、自然语言处理、
是将之前我们所累积的知识进行了综合而得到的一种高性能 机器翻译、计算机视觉以及数字化助手方面带来新一代 AI
的模型。而自 DNN 成型之后,深度学习真正成为了当前最 解决方案 [3]。
为热门的领域之一,在全球引爆了神经网络的狂潮。 四、结束语
二、深度强化学习的起源与发展 虽然深度学习在人工智能方面的应用越来越广泛,但是
深度强化学习的前身即为强化学习。强化学习也是属于 学习的路程是永无止步的,因此相关人员应该努力创新,为
机器学习的一种,它和前文提到过的监督式学习以及非监督 人工智能行业提供更大的帮助,从业人员也应该认真学习相
式学习是并列的关系;强化学习和非监督式学习的前提条件 关知识,使人工智能行业的发展更加迅速。
参 考 文 献
[1] 刘全 , 翟建伟 , 章宗长 , et al. 深度强化学习综述 [J]. 计算机学报 , 2018(1):1-27.
[2] 赵星宇 , 丁世飞 . 深度强化学习研究综述 [J]. 计算机科学 , 2018, v.45(07):7-12.
[3] 林昊威 . 基于深度学习的智能控制研究 [D].

175

You might also like