Professional Documents
Culture Documents
物试 82 马玉辰
2021 年 1 月 17 日
摘要
及相关方法。此外,在进化学角度浅谈历史,说明了自然神经网络与人工神经网络更加细致的联系。
1 引
这篇报告介绍了 MP 神经网络,包括它的背景、提出,以及在机器学习方面的应用等。以周志
华老师的《机器学习》中对神经网络的介绍为主要框架,其中加入了来自各种文献,论坛,以及科
普性文章视频中获取的信息,来表达我个人对 MP 神经网络的理解。也作为学习过程的记录。
2 MP 神经网络的背景和提出
1943 年 McCulloch 和 Pitts 在他们的论文 A Logical Calculus of the Ideas Immanent in Nervous
Activity 中,首次借鉴了生物神经细胞之间的连接方式和信息传递特点,提出了将其应用于逻辑运
算的想法。[3]
2.1 生物神经网络的架构
神经网络中最基本的成分是神经元。在生物神经网络中,每个神经元胞体与其他神经元胞体通
过突触相连,当一个神经元“兴奋”时,就会向相连的神经元发送化学物质,从而改变这些神经元
内的电位——可以是促进性的作用,也可以是抑制性的作用。如果某神经元的电位超过了一个“阈
值”,那么它就会被激活,即“兴奋” 起来,向其他神经元发送化学物质。从而在神经元之间实现信
号的传递。[1]
在这里,有一段更加详细的关于神经细胞传导信号机制的探讨,涉及到恢弘壮大的进化过程,直
接决定了寒武纪的物种爆发。虽然它对理解神经网络有着很大的帮助,并且能令人体悟到自然的玄
妙,然而我认为它不适合作为一个主要分支插入,故在附录 A 中展示。
1
2.2 McCulloch 和 Pitts 的想法 [3]
神经生理学家沃伦·麦克洛克(McCulloch)和数学家沃尔特·皮茨(Pitts)对上面的神经结构
进行了“过度简化”的概括,然而这种概括却十分的有效并且抓住了内核。他们对神经细胞传递信
息的物理过程做出了以下几个假设:
2. 为了在任何时候都能激发神经元,必须在潜伏期内激发一定数量的突触,而该数量与先前在
神经元上的活动和位置无关。(个人理解:是否与输入有关?)
3. 只考虑突触之间对信号的衰减(距离无关?)
4. 任何抑制性突触的活动都绝对会阻止神经元在那个时候的兴奋。
5. 神经网的结构不随时间改变。
征,神经事件及其之间的关系可以通过比例逻辑加以处理。如通过改变神经元的激发阙值,就可完
成“与(AND)
”、“或(OR)
”及“非(NOT)
”等三个状态转换功能。并且在可能的神经生理学假
设中,许多特定的选择是等效的。同时他们的工作也给出了一套完整的对神经网络的表示方法,为
之后的理论研究提供了工具。
2
图 1: 一些简单的神经元网络和对应的逻辑表示 [3]
3
2.3 发展历程 [6, 7]
发展迎来第一个高潮期。
介”》一书, 书中论述了感知机模型存在的两个关键问题:
(1)单层的神经网络无法解决不可线性分割的问题,典型例子如异或门电路;
(2)更为严重的问题是,即使使用当时最先进的计算机,也没有足够计算能力,完成神经网络
模型所需要的超大的计算量(比如调整网络中的权重参数)。
这个论断使神经网络进入了一段“冰河期”。
神经网络迎来了第二次高潮。
但是到了二十世纪九十年代中期,随着统计学习理论和支持向量机的兴起,神经网络学习的理
论性质不够清楚、试错性强、在使用中充斥了大量的“窍门”的弱点更为明显,于是神经网络又陷
入低谷。
崛起,迎来了第三次高潮。
3 人工神经网络 [1]
3.1 神经元模型
将上述叙述抽象为??所示的简单模型,在这个模型中,神经元接收到来自 n 个其他神经元传递
过来的输入信号,这些输入信号通过带权重的连接进行传递神经元接收到的总输入值将与神经元的
阈值进行比较,然后通过“激活函数”处理以产生神经元的输出
4
图 2: 神经元示意 [1]
图 3: 激活函数 [1]
把许多个这样的神经元按一定的层次结构连接起来,就得到了神经网络。
3.2 感知机、多层网络
是 M-P 神经元,亦称“阈值逻辑单元”。
5
图 4: 感知机 [1]
y = f (Σwi xi —θ)
f 是阶跃函数
通过调整权重,感知机能容易地实现逻辑与、或、非运算。如:
阈值可看做一个固定输入为-1 的“哑节点”,由此网络的调整统一为权重的学习。
不过可以注意到,单层的阈值逻辑单元无法实现复杂功能,甚至连最简单的非线性“异或”问
题都无法解决,这时,需要引入更多层的神经元,以达到更好地非线性学习效果。
是拥有激活函数的功能神经元.
图 5: 线性可分问题与非线性的异或问题 [1]
6
图 6: 异或问题与对应的双层感知机 [1]
3.3 学习方法
给定已知输入输出,通过某种规则调整网络权重的过程是学习。网络的信息在一定意义上就是
最成功的神经网络学习算法
BP 算法基于最小二乘误差和梯度下降法给出了一个简单高效的更新规则:
图 7: 变量符号标记 [1]
( )
对训练例 (xk , y k ) , 假定神经网络的输出为 ŷ k = ŷ1k , ŷ2k , . . . , ŷlk , 即
ŷjk = f (βj − θj )
1 ∑( k )2
l
Ek = ŷj − yjk
2
j=1
7
q × l 个权值、q 个隐层神经元的间值、l 个输出层神经元的间值. BP 是一个迭代学习算法, 在迭代
估计式为
v ← v + ∆v
∂Ek
∆whj = −η
∂whj
由链式法则
∂Ek ∂Ek ∂ ŷjk ∂βj
= · ·
∂whj ∂ ŷjk ∂βj ∂whj
根据 βj 的定义, 显然有
∂βj
= bh
∂whj
Sigmoid 函数有一个很好的性质:
∆whj = ηgj bh
其中,
∂Ek ∂ ŷjk
gj = − ·
∂ ŷjk ∂βj
( )
= − ŷjk − yjk f ′ (βj − θj )
( )( )
= ŷjk 1 − ŷjk yjk − ŷjk
同理,可以得到其它的更新规则。
总结如下:
8
图 8: BP 算法 [1]
3.4 一些问题
机器学习的主要挑战是我们的算法必须能够在先前未观测的新输入上表现良好,而不只是在训
练集上表现良好。在先前未观测到的输入上表现良好的能力被称为泛化 (generalization)。
的泛化误差。
我们会在训练集上采样,然后挑选参数去降低训练集误差,然后再在测试集上采样。在这个过
程中,测试误差期望会大于或等于训练误差期望。以下是决定机器学习算法效果是否好的因素:
1. 降低训练误差。
2. 缩小训练误差和测试误差的差距。
合是指模型不能在训练集上获得足够低的误差。而过拟合是指训练误差和和测试误差之间的差距太
大。通过调整模型的容量 (capacity),我们可以控制模型是否偏向于过拟合或者欠拟合。
9
图 9: 欠拟合、恰当拟合与过拟合 [2]
复杂度的成分,来使网络在学习模型与避免学习过度之间“竞争”。
3.4.2 局部最小
网络可能会陷入局部最优解。
解决的办法如:同时设定多个初值、模拟退火(有概率接受更差的结果)、随机梯度下降(随机
梯度下降的核心是,梯度是期望。期望可使用小规模的样本近似估计。具体而言,在算法的每一步,
在拟合几十亿的样本时,每次更新计算只用到几百个样本 [2])
10
3.5 其他神经网络
网络的思想。
4 附录
A 进化角度看神经网络 [8]
生命的诞生和进化是一个涌现的过程,即实现“个体之和大于整体”的质变过程。比如,蛋白质间
的涌现构成了草履虫应激反应;组织精妙配合,靠的是细胞间的涌现;社会结构、繁荣经济的诞生
细胞间虽然形成了整体稳定结构,但是相当于线性聚集,没有质变。
但在同一时期,变异出了特异化功能的神经细胞,为接下来的架构奠定了基础。
蛋白质的配合赋予了神经细胞产生并且传递电脉冲的能力:
2. 当轴突与胞体连接处的轴丘膜电位收到影响,升高至-55mV 的阈值时,神经细胞被激活,电
压门控钠离子通道打开,膜电位飙升至 +40mV(像极了激活函数,或者应该为激活函数像极了它)
样就完成了一次循环
但是,信息的传播还需要调频,这一功能来自于突触。囊泡中所含的不同神经递质释放后,与
受体结合会产生不同影响,影响膜电位变化速度,实现调频。
神经网的出现给生物带来了前所未有的信息处理能力,直接导致了众多高级功能的出现——动物、
捕食者就此出现,形成进化的正反馈,至此彻底引发了寒武纪的物种大爆发。
神经网如何实现复杂的功能?答案是学习:“突触可塑性”。突触的受体不再固定不变,而是可
以根据经验调节:长期增强或长期抑制可以增加或减少受体数量。
(权重)它有着重要意义——使得
个体在生命周期内能够适应环境,而不是传统的以死亡为代价的种群进化。(神经达尔文主义)
非线性函数对应激活条件,可变频突触对应网络权重,Dropout 等机制也是模仿个体学习的遗
忘过程。当然,我们并不知道生物通过何种方法更新,人工神经网络中,采用 BP 算法代替之。
11
参考文献
[3] Mcculloch W S , Pitts W . A Logical Calculus of the Ideas Immanent in Nervous Activity[J].
[4] Rosenblatt F . The perceptron: a probabilistic model for information storage and organization
[6] https://developer.aliyun.com/article/90565
[7] https://blog.csdn.net/kabuto_hui/article/details/79885017?utm_medium=distribute.pc_relevant.none-
task-blog-BlogCommendFromBaidu-9.control&depth_1-utm_source=distribute.pc_relevant.none-
task-blog-BlogCommendFromBaidu-9.control
[8] https://www.bilibili.com/video/BV1g4411r7jo?from=search&seid=14265089005276732793
12