基于Bi-LSTM和注意力... 体行为识别方法的研究与实现张森

Ｍ  ｒ／％
０
 Ｎｏｒｔｈｅａｓｔｅｒｎ
＇
？  ，
］


Ｕｎｉｖｅｒｓｉｔｙ


硕士学位论文


ＴＨＥＳ Ｆ
＇
ＳＩＯＲ ＭＡＳＴＥＲ Ｓ ＤＥＧＲＥＥ


论文题目基于ＢＬＳＴＭ和注意力机制的
ｉ
－


人体行为识别方法的研究与实现 

作 者张森


学 号 １６７１１２２


学院部（）信息科学与工程学院


专 业控制工程


指导教师潘峰副教授


二〇八年十二月


一
分类号  密级 


ＵＤＣ  


学位论 

文
基于Ｂｉ
＿
ＬＳＴＭ和注意力机制的


人体行为识别方法的研究与实现


作者姓名：
张森


指导教师：
潘峰副教授


东北大学信息科学与工程学院
申请学位级别：
硕士 学科类别：
专业学位


学科专业名称：
控制工程


论文提交日期：２０１８年１２月论文答辩日期：２０１８年１２ 

月
学位授予日期：２０１９年１月答辩委员会主席：

魏颖
评阅人：
薛定宇、张艳珠
东北大 

学
２０１８年１２ 

月
ＡＴｈｅｓ
 ｉｓｉｎＣｏｎｔｒｏｌ Ｅｎｇｉｎｅｅｒｉｎｇ


ＨｕｍａｎＡｃｔ  ｉｏｎ Ｒｅｃｏｇｎｉｔｉｏｎ ＭｅｔｈｏｄＢａｓｅｄ   ｏｎ Ｂｉ－
ＬＳＴＭ


ａｎｄ Ａｔｔｅｎｔｉｏｎ Ｍｅｃｈａｎｉｓｍ
ＢｙＺｈａｎｇ
 
Ｓｅｎ


Ｓｕｐｅｒｖｉｓｏｒ：  Ａｓｓｏｃｉａｔｅ  ＰｒｏｆｅｓｓｏｒＰａｎ  Ｆｅｎｇ



Ｎｏｒｔｈｅａｓｔｅｒｎ  Ｕｎｉｖｅｒｓｉｔｙ


Ｄｅｃｅｍｂｅｒ  ２０１ 

８
东北大学硕士学位论文 摘要


摘 

要
无论是商业角度还是社会角度上，人体行为识别技术在智能监控、人机交互、视频



检索等领域都有着重要的应用价值。在人体动作本身具有高度复杂性、外界背景干扰 


、
相机存在扰动等条件下提高人体行为识别任务的准确率成为个富有挑战性的研究内


一
容，因此人体行为识别算法的研究有着重要的现实意义。
本文深入研究了人体行为识别


的相关技术后，主要工作如下 

：
首先构建了种将视频分成若干段每段使用Ｄ卷积神经网络的特征提取方



一一
，，３
法。
考虑到传统的３Ｄ卷积神经网络输入连续帧图像是固定的，不能充分表征整个视频


动作特征本文首先将视频分成若干段然后各分段进行
，，３Ｄ卷积神经网络的特征提取 

。
最后在ＵＣＦ１０１数据集上进行测试测试结果表明分段的，，３Ｄ卷积网络准确率为８２７．％ 

，
未加载预训练模型的双流网络的准确率为８１．６％，
实验表明，本文的分段３Ｄ卷积网络


在视频特征提取上比２Ｄ卷积网络效果更好 

。
其次讨论了种基于长短时记忆神经网络Ｌｏｎｇ  Ｓｈｏｒｔ  Ｔｅｒｍ  ＭｅｍｏｒｙＬＳＴＭ 

学
一
，（，
）
习动作特征上下文的方法针对动作时序信息既受到前文影响又受到后文影响这 


问
一
。，
题，
本文使用两个ＬＳＴＭ网络并联的方式，
分别对视频特征从前向后和从后向前处理 

，
可以处理上下文的视频特征。最后在ＵＣＦ１０１数据集上验证了该模型在人体行为识别任



务上比单向的ＬＳＴＭ有着更好的表现 

。
最后提出了种基于注意力机制的显著性特征提取的方案由于图像不同区域具


一
，
。
有不同的重要性，本文利用基于输入项的软注意力机制对特征图像各像素点分配不同的


权重系数，
使得网络更容易学到权重较大的区域。各分段视频的结果融合使用自注意力


机制，通过本身的特征序列分布，分配各个分段的结果序列的权重系数。最后本文系统



在ＵＣＦ１０１测试集上与几种主流的人体行为识别方法比较：
使用ＳＶＭ的双流网络准确


率为 ８８０．％，２ＤＣＮＮ＋ＬＳＴＭ  网络准确率达到 ８８．６％，而本文的  Ｃ３Ｄ＋Ｂｉ

－
ＬＳＴＭ＋Ａｔｅｎｔｏｎ

 ｉ
模型在上的准确率达到９０７％
．，
结果表明，
本文提出的系统方案效果更佳。
关键词：
人体行为识别；
３Ｄ卷积神经网络；长短时记忆神经网络；注意力机制
ＩＩ


东北大学领士学位论文 Ａｂｓｔｒａｃｔ


Ａｂｓｔｒａｃｔ
Ｎｏ  ｍａｔｔｅｒ  ｆｒｏｍ  ｃｏｍｍｅｒｃｉａｌ  ａｓ
ｐｅｃｔ  ｏｒ  ｓｏｃｉａｌ  ｐｅｒｓｐｅｃｔｖｅｉ
，ｈｕｍａｎ  ｂｅｈａｖｉｏｒ  ｒｅｃｏｇｎｉｔｉｏｎ 
ｔ

ｅｃｈｎｏｌｏｇｙ  ｐｌａｙｓ  ａ  ｃｒｉ
ｔｉｃａｌ  ｒｏｌｅ  ｉｎ  ｉｎｔｅｌｌｉｇｅｎｔ ｍｏｎｉｔｏｒｉ
ｎｇ，ｕｍａｎ－ｏｍｐ
ｕｔｅｒ  ｉｎｔｅｒａｃｔｉ
ｏｎ，ｉｄｅｏ
ｒ

ｃ
ｈｖ
ｅｔｒｅｖａｌｔｃ．Ｕｄｅｒ  ｔｈｅ  ｃｏｎｄｉｔｉｏｎｏｆ ｈｉｇｈ  ｃｏｍｐｌｅｘｉｔｙ
ｉ，
ｅ
ｎ  ｏ
ｆ  ｈｕｍａｎ  ｂｏｄｙ  ｍｏｔｉｏｎ，ｅｘｅｒｎａｌ 
 ｂａｃｋｔ
ｇｒｏｕｎｄ  ｉｎｔｅｒｆｅｒｅｎｃｅ，ｃａｍｒａ  ｄｉｓｔｕｒｂａｎｃｅ，ｅｔｃ．ｉｔ  ｉｅ，
ｓ
 ａ ｃｈａｌｌｅｎｇｉｎｇ  ｒｅｓｅａｒｃｈ  ｃｏｎｔｅｎｔ  ｔｏ  ｉｍｐｒｏ
ｅ
ｖ
 ｔｈｅ  ａｃｃｕｒａｃｙ  ｏｆ  ｈｕｍａｎ  ｅｈａｖｉｏｒ  ｒｅｃｇｎｉｔｉｏｎ  ｔａｓｋ．Ｔｈｅｒｅｆｂｏｏｒｅ，ｔｈｅ ｒｅｓｅａ
ｒｃｈ  ｏｎ  ｈｕｍａｎ   ｂｅｈａｖｉｏ

ｒ
ｒｅｃｏｇｎｉｔｉｏｎ  ａｌｇｏｒｉｔｈｍ  ｇａｉｎｓ  ｉｍｐｏｒｔａｎｔ  ｐｒａｃｔｉｃａｌ ｓｉｇｎｉｆｉｃａｎｃｅ．Ａｆｔｅｒ  ｔｈｏｒｏｕｇｈｌｙ   ｓｔｕｄｙｉｎｇ
ｔ

ｈｅ ｒ
ｅｌａｔｅ
ｄ ｔｅｃｈｎｏｌｏｇｉｅｓ  ｏｎ  ｈｕ
ｍａｎ  ｂｅｈａｖｉｏｒ  ｒｅｃｏｇｎｉｔｉｏｎ，ｆｏ
ｌｌｏｗｉｎｇ  ｊ
ｏｂｓ  ｗｅｒｅ  ｄｏ
ｎｅ：   Ｆｉｒｓｔ ｏｆｌ
ａ

ｌ，ｔｈｉｓ  ｔｈｅｓｉ  ｃｏｎｓｔｒｕｃｔｓ  ａ  ｆｅａｔｕｒｅ  ｅｘｔｒａｃｔｉｏｎ  ｍｅｔｈｏｄ  ｔｈａｔ  ｄｉｖｉｄｅｓ  ｔｈｅ  ｖｉｄｅｏ  ｉｎｔｏ   ｓｅｖｅｒａｌ  ｓｅ
ｓ
ｍ
ｇ
ｅｎｔｓ ｉｎ  ｗｈ
ｉｃｈ ３Ｄ  ｃｏｖｏｌｕｔｉｏｎａｌ  ｎｅｕａｌｎｅｔ
ｎｒ  ｗｏｒｋ  ｉｓ  ａｐｐｌｉｅｄ ｔｏ  ｅｘｔｒａｃｔ  ｔｅｍｐｏｒａｌ  ａｎｄ  ｓｐａｔｉａｌ  ｉｎ
ｏ
ｆ
ｒ
ｍａｔｉｏｎ  ｆｅａｔｕｒｅｓ  ｓｉｍｕｌｔａｎｅｏｕｓｌｙ．Ｃｏｎｓｉｄｅｒｉｎｇ  ｔｈａｔ  ｈｅ 
ｔｒａｔ
ｄ
ｉｔｉｏｎａｌ  ３Ｄ  ｃｏｎｖｏｌｕｔｉｏｎａｌ  ｎｅｕａｌｎｅｔｗｏｒｒ 
ｋ  ｉｎｐｕｔ  ｃｏｎｔｉｎｕｕｓ ｆｒａｍｅｏ ｉｍａｇｅ  ｉｓ
 ｆｉｘｅｄ，ａｎｄ  ｉｔ  ｃ
ａｎ  ｎｔ  ｆｕｌｌｙ  ｃｈａｒａｃｔｅｒｉｚｅ  ｔｈｅ   ｗｈｏｌｅ
 ｖｉｄｅｏ 
ｏ
ｍｏ
ｔｉｏｎ  ｆｅａｔｕｒｅ，ｓｏ  ｔｈｅ ｔｈｅｓｉｓ  ｆｉｒｓｔ ｄｉｖｉｄｅｓ  ｔｈ
ｅ  ｖｉｄｅｏ  ｉｎｔｏ  ｓｅｖｅｒａｌ  ｓｅｇｍｅｎｔｓ，ｔｈｅｎ   ｐｅｒｆｏｒｍｓ  ３Ｄ  ｃｏ
ｖ
ｎ
ｏｌｕｔｉｏｎａｌ  ｎｅｕｒａｌ  ｎｅｔｗｏｒｋ  ｆｅａｔｕｒｅ  ｅｘｔｒａｃｔｉｏｎ．Ａｎｄ  ｆｉｎａｌｌｙ  ｔｅｓｔｓ  ｉｔｗ
ｉｔｈ  Ｕ
ＣＦ
１０１ ａｓ  ｔｈｅ ｔｅｓｔ ｓｅＩ
．
ｔ
ｔ ｔｕｒｎｓ ｏｕｔ  ｔｈａ  ｔｈｅ ａｔｃｕａｃｙｒ  ｏｆ ｔｈｅ  ｓｇｍｅｎｔｅｄ  Ｄ  ｏｎｖ
ｅ
３
ｃｏｌｕ
ｔｉｏｎｎｅｔｗｏｒｋ  ｉｓ  ８２．７％，  ａｎｄ  ｔｈ  ｅ  ａｃｃｕａｃｒ
ｏ

ｙ
ｆ  ｔｈｅ  ｔｗｏ－ｓｔｒｅａ
ｍ ｎｅｔｗｏｒｋｗｉ
ｔ
ｈｏｕｔ  ｔｈｅ  ｐｒｅ－ｔｒａｉｎｉｎｇ ｍｏｄｅｌ  ｉｓ

８１．６％．   Ｅｘｐｅｒｉｍｅｎｔｓ  ｓｈｏｔ

ｗ
ｈａｔ  ｔｈｅ  ｓｅｇｍｅｎｔｅｄ  ３Ｄ ｏｎｖｃｏｌｕｔｉｏｎａｌ  ｎｅｔｗｏｒｋ  ｃｏｍｅｓ  ｕｐ  ｎ  ｔｈｉｓ  ｈｅｓｉｓｉｓ  ｂｅｉｔ  ｔｔｅｒ   ｔｈａｎ  ２Ｄ ｃｏｎｖｏ
ｌｕｔ
ｏ
ｉ
ｎａｌ  ｎｅｔｗｏｒｋｉｎ ｖｉｄｅｏ  ｆｅａｔｕｒｅ ｅｘｔａｃｔｉｏｎ． Ｓｅｃｏｎｄｌｙ，ａ ｍｅｔｈｒ 
ｄ
ｏ
ｂａｓｅｄ ｏｎ 
Ｌｏｎｇ Ｓｈｏｒｔ Ｔｅｒｍ  Ｍｅｍｏｒｙ  （ＬＳＴ
Ｍ）  ｔｏ ｌｅａｒｎ ｍｏｔｉｏｎ  ｆｅ
ａｔｕｅ   ｃｏｎｔｅｘｔ  ｉｓ ｄｉｓｃｕ
ｒｓ
ｅｄ．Ｔｈｅ  ａｃｔｉｏｎ  ｔｅｍｐｏｒｌ  ｉｎｆｏｒｍａｔｉｏｎ  ｉａ
ｓ  ａｆｆｅｃｔｅｄ  ｂｙ ｔｈｅ  ｏｎｔｅｘｔ．Ｔｗｏ  ＬＳＴＭ   ｎｅｔｗｏｒｋｓ
ｃ  ａｒｅ ｕｓｅｄ 
ｎ
ｉ
 ｐａｒａｌｌｅｌ  ｔｏ  ｐｒｏｃｅｓｓ  ｔｈｅ  ｖｉｄｅｏ  ｆ
ｅａ
ｔｕｒｅｓ  ｆｒｏｍ  ｆｒｏｎｔ  ｔｏ ｂａｃｋ  ａｄ ｂａｃ
ｎｋ  ｔｏ   ｆｏｒｗａｒｄ，ｓｏ  ｔｈａｔ  ｔｈ

ｅ
ｖｉｄｅｏ ｆｅａｔｕｒｅｓ ｏｆ  ｔｈｅｃｏｎｔｅｘｔ ｃａｎ  ｂｅ 
 ｐｒｏｃｅｓｓｅｄ．Ｔｈｅｎ  ｔｈｅ  ｐｒｏｇｒａｍ  ｖｅｒｉｆｉｅｄ   ｏｎｔｈｅ ＵＣＦ０１ 
ｄａａｓ
ｔ
ｅ 
１ｔ
ｔｈａｔ ｔｈｅ ｍｏｄｅｌ ｈａｓ  ｂｅｔｔｅｒ  ｐｅｒｏｒｍａｎｅ ｔａｎ
ｆｔｈｅｏｎｅ－ｗａｙ  ＬＳＴ
ｃｈ

Ｍ  ｉｎ ｈｕｍａ   ｂｈａｖｎ
ｅ
ｉ
ｏｒ ｒｅｃｏｎｉｔｉｏ
ｇ 
ｎ
ｔａｓｋｓ．   Ｆｉｎａｌ
ｌｙ，ａ  ｓｃｈｅｍｅ  ｆ 
ｒ
ｏ
ｅｔｒ
ｘａｃ
ｔｎｇ  ｓｉｇｎｉｆｉｃａｎｔ  ｆｅａｔｕｒｅｓ  ｂａｅｄ  ｏｎ ａｔｔｅｎｔｉｏｎ  ｍｅｃｈａｎｉｓｍ ｉｓ  ｐｒｏｐｓｅｄ．Ｂｅｃａｕｓｅ  ｄ
ｉ
ｓｏｉｅ
ｆ
ｒｅｎｔ ｒｅｇｉｏｎｓ  ｏｆ  ｔｅｈ  ｉｍａｇｅ ｈａｖｅ
 ｉｆｆｅｒｅ
ｄｔ ｉｍｐｏｒ
ｔａｎｃｅ，ｔｈｉｓ ｔｈｅｓｉｓ  ｕｓｅｓ  ｔｈｅ   ａｔ
ｔｅｎｔｉｏｎ  ｍｅｃｈａｎｉｓｍ  ｔｏ
ａ

ｓｓｉｇｎ  ｄｉｆｆｅｒｅｎｔ  ｗｅｉｇｈｔ  ｃｏｅｆ
ｆｉｃｉｅｎｔｓ  ｔｏ ｅａｃ 
ｐｉｘｅｌ  ｏｆ ｔｈｅ  ｆｅａｔｕｒｅ  ｉｍａｇｅ，   ｗｈｉ  ｍａｋｅｓ  ｉｔ  ｅａｓｉ
ｅｒ
ｈｃｈ
ｏ
ｆ

ｒ ｔｈｅｎｅｔｗｏ  ｒｋｔｏ  ｌｅａｒ ｔｈｎｅ  ｒｅｉｏｎ  ｗｉｔ
ｇｈ ｌａｒｇｅｒ  ｗｅｉｇｈｔ．
Ｔｈｅ ｅｒｓｕｌｔｓ ｏｆ  ｅａｃｈ ｖｉ  ｄｅｏ ａｒｅ  ｆｕｓｅｄ  ｕｓｎｇ ａ
ｓ
 ｉ
ｅｆ－ａｔｔｅｎｔｉｏｎ  ｍｅｃｈａｎｉｓｍ  ｔｏ  ａｓｉｇｎ  ｗｉｇｈｔ  ｃｏｅｆｆｉｃｉｅｎｔｓ  ｆｒ  ｅａｃｈ  ｒｅｓｕｌｔ   ｓｅｕｅｎｃｅ ｔｈｒｏｕｇｈ  ｉｔｓ  ｏｗ
ｌ
ｓ
ｅ 
ｎｏｑ
ｃｈ
ａｒａｃｔｅ
ｏｎ．Ｔｈｅ  ｓｙｓｔｅｍ  ｃｏｍｐａｒ
ｒｉｓｔｉｃ ｓｅｑｕｅｎｃｅ  ｄｉｓｔｒｉｂｕｔｉｅｓｗｉｔｈ
ｉｌｌ


东北大学硕士学位论文 Ａｂｓｔｒａｃｔ


ｓｅｖｅｒａｌ  ｍａｉｎｓｔｒｅａｍ  ｈｕｍａｎ  ｂｅｈａｖｉｏｒ  ｒｅｃｏ
ｇｎｉ
ｔｉｏｎｍｅｔｈｏｄｓ  ｏｎ
  ｔｈｅ  ＵＣＦ１０１  ｔｅｓｔ  ｓｅｔ：ｔｈｅ  ａｃｃｕｒａｃｙ 
ｏ

ｆ ｔｗｏ－
ｓ
ｔｒｅａｍ  ｎｅｔｗｏｒｋ  ｕｓｉｎｇ ＳＶＭ  ｉｓ  ８８．％，０
ａｎｄ  ｔｈｅ  ａｃｃｕｒａｃｙ ｏｆ  ２ＤＣＮＮ＋ＬＳＴＭ  ｎｅｔｗｏｒｋ ｉｓ ８

，ａ  Ｃ３Ｄ＋Ｂｉ－ＬＭ＋Ａｔｔｎｔｄｅｌ  ｉｎ  ｔｈｉｓｈｅｓ ｉｓ９０．７％．Ｔｅ ｓｕｌｓ  ｓｈｏｗ  ｔｈａｔ  ｔｈｅ  ｐｒｏｐ

ｅ
．６ｉｏｎ ｍｏｓ
ｏ
Ｔ
％Ｓ  ｔｉｓ  ｈｒｅｔ
ｎｄ
ｅｄ  ｓｙｓｔｅｍ  ｉｓ  ｂｅｔｔｅｒ．
Ｋｅｙ  ｗｏｒｄｓ：  Ｈｕｍａｎ  ａｃｔｉｏｎ  ｒｅｃｏｇｎｉｔｉｏｎ  ３Ｄ  ｃｏｎｖｏｌｕｔｉｏｎａｌ  ｎｅｕｒａｌ  ｎｅｔｗｏｒｋ  ＬＳＴＭ  ａｔｔｅｎｔｉｏｎ
；

 ；；
ｍｅｃｈａｎｉｓｍ
Ｉ 

Ｖ
东北大学硕士学位论文

０
￡ 

＿
目 

录
独创性声明  
Ⅰ
＃
 中文摘要 ＃

Ⅱ
Ａｂｓｔｒａｃｔ ＃ Ⅲ


第１章  绪论１
＃

  １．１ 选题背景及研究 
义
意
＃１   １．１．１  背
题
选
景  ＃１  １．１．２ 课题研义
意
究
与目的  ＃２ １．２内
国

外研究现状  ＃２   １．３  本课题究
研
的
内容与章节安排 ＃６   ３
．
１
．１  要主
研究内容 ＃６ １３
．
２  论文结构和章节安排＃７  ２
第

章  视频行为特征的分取
提
段
 ＃９   ２．１卷积神络
网
经
 ＃９   ２．１．１卷积运算 
绍
介
＃  ９ ２．１．２  卷积神经网络结构 ＃１３   ．
２
 于基３Ｄ卷积神经网络的视频分
征
特
段取＃１５ 
提 
２．２．１ ３Ｄ卷绍
介
积
 １６
＃  ２．２．２  ３Ｄ卷积神经网络 
构
结
＃７１   ２．３３Ｄ卷积神经网络的与
果
结
分  １９  
析＃２．３．１ 常用数据库和视
预
频
处  １
理＃
９２．３．

２
３卷积Ｄ
神经网络
６
小
４
析
分
果
结
３
．


２
＃

练
训
型
模


Ｖ
东北大学硕士学位论文



第３章 各段行为特征的上下文关系学习 ＃
９
２
  ３．１ 循环神经网络
＃

２９   ３．１．１  循环神经网络
绍
介
 ＃２９  ３．１．２循环神络
网
经
结构  ＃３１ ３．１．３  循环神经网
的
络
前向传播  ＃３２   ３．１．４ 循环神
网
经
络的后向传播＃３３   ３．１．５  循环
经
神
网中络
的梯度消
失
 ＃３４  ３．２ 基于Ｂｉ－
Ｓ
Ｌ
ＴＭ的上下文关系学习＃３５  ３
２
．
．  ＳＴＭ的
１Ｌ
结
构  ＃３６  ３．２．

２
Ｂｉ－ＳＴＬ
Ｍ的建立  ＃３９ ３．２．３
级
层
Ｄｏｐｏｕ
ｒ
ｔ
算法 ＃４０  ３．３
ｉ
Ｂ
－ＳＴＭ
Ｌ
效果分析
＃

４２   ３．４  小结  ＃４７   第４章
合
融
注意力机制的人体行为识别  ＃４

９
 ４．１  注意力机制算法  ＃４

９
 ４．１．１  注意力机制简介  ＃４９


４１．
．２  注意力机制的结构原理  ＃５０
４

．  ２基于注意力机制的显著性特征提取 ＃５３ 
．
４
２１基
．  于软注意力机制的图像显著性表达
５
＃
４  
４．２．２  基于自注
力
意
机的制
结果融合 ＃５６  ４．

３
实结验果与分析
＃

５７   ４．４  深度学
框
习
架的选择＃６３ 
．
４
５  小结 ＃６４  第
章
５
总结和展望
７
献
文
考
参
望
展
与
题
问
２
结
总
作
工
１
．


５
６
＃
Ｖ 

Ｉ
东北大学硕士学位论文 目 

录
致谢  １
７
＃
ＶＩＩ


东北大学硕士学位论文 第１
章绪论


第１
章绪论


本章从宏观角度介绍本文研宄内容的意义与背景，介绍国内外主流的人体行为识别


技术方法，以及时下流行的深度学习技术和针对人体行为识别任务的改进。在本章的最


后，介绍了本文的主要研究内容和章节安排 

。
１．１选题背景及研究意义


１．１．１选题背景


年冯诺依曼和他的现代计算机问世以来人们逐渐发现在些重复计算


一
自９４６
？
１，，
的事情上，计算机做得比人好得多。而关于让计算机根据传感器数据理解人类动作则伴


随了整个计算机视觉的发展史，
其中基于计算机视觉的人体行为识别的研宄尤为重要 

。
因为在人与人交流的过程中，
视觉信息是第
一
时间接收到的。通过对方的姿态、面部动


作和手势等，可以帮助人们获得对方的情感或者意图。在大数据时代中，处理人机交互



或者视频监控情况中，如果试图通过人工的方式来鉴别，
完成对全部任务的遍历是不可


能的，它需要消耗大量的人力物力资源。因此，基于计算机视觉的人体行为识别技术的


研宂正在逐渐获得更多学者的关注 

。
１９世纪７０年代，Ｍａｒｅｙ等学者最早开始了人体行为识别技术的研究Ｗ，

但是限于计


算机水平低下，
没有获得更多的关注。上世纪８０年代开始，反向传播算法（即Ｂａｃｋ


算法简称多层感知器的出现以及各种


２］
Ｍｕ
３
Ｐｒｏｐａｇａｔｏｎｉ，ＢＰ） ［
，（ｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｉｏｎ） 
［］
Ｗ
基于传统的机器学习的模型陆续问世，
例如Ｂｏｏｓｔ
ｉｎｇ、最大熵法％支持向量机Ｗ等 

。
机器学习算法使得人体行为识别的传统特征融合和分类效果达到了个高度也使得学



一
者们开始更多地关注人体行为识别技术的研宄。１９８５年，多伦多大学的Ｈｉｎｔ
ｏｎ教授提


深层神经网络的思想而后又应用了卷积神经网络
７］
出了［
，（Ｃｏｎｖｏｌｕｔｉｏｎ  ＮｅｕｒａＮｅｔｗｏｒｋ
ｌ


＾
即ＣＮＮ） 尤其是卷积神经网络的提出，
使得深度学习技术在自然语言处理、计算机


视觉语音识别与合成等领域取得了重要进展人体行为识别研究进入了个新的高度
一
、， 

。
进入２１世纪，国际顶尖学府、微软研究院、谷歌研究院等Ｐ多家机构在人体动作识别领


 １
域展开了更加深入研宄在工业方面人体行为识别技术也己经进入了普遍应用的阶段。， 

，
尤其在ＡＲ交互、视频监控、视频检索等领域。随着人工智能与人体行为识别技术越来


－ 

－
１ 
东北大学硕士学位论文第１
章绪论



越紧密的结合，人体行为识别技术的研究会成为计算机视觉领域中更加热门的研究方向


之
一


。
１．１．２课题研究意义与目的


人体行为识别是指对人体行为进行分析和分类，
涉及图像处理、深度学习、
机器学


习等多个学科领域，在工业场景中，
广泛应用于ＡＲ交互、
智能监控、行为捕获分析等


领域［
】０】


。
在体感交互方面，
手势识别不需要使用键盘或鼠标等外部设备就可以理解用户的意


图，
实现人与设备的交互。ＶＲ游戏的本质就是人体行为识别，通过视频行为获取用户


动作，了解用户意图 

。
在安全监控方面，学校、超市、广场等大型公共场所需要对人群进行监控和分析 

。
传统的视频监控使用人工监控，在流量少的情况下，人工监控成为主要的监控手段。 


然
而，在人口密度高、流动量大的地方，
效果并没有机器监控的效率高，人工监测需要大


量的人力，人体的注意力会随着时间的推移而减少。现在常用的是手段是利用人类行为


识别技术自动识别视频中的异常行为，实现智能监控 

。
在行为捕获和行为搜索方面，
例如百度的百度识图，视频检索需要识别人的行为 

，
提取要检索的视频的特征计算视频库中的相似度，匹配视频库中的视频，以达到分类 

目
的。行为捕获技术在互联网搜索引擎中被广泛使用 

。
目前人体行为识别技术已取得很好进展，
但也存在着如何提髙复杂和有遮挡动作识


别率、如何降低视频编码空间和提高图像运算速度、如何适应低质量和多噪声的视频行


为识别等系列问题
一


。
深度学习算法在图像处理、文本处理和语音识别方面得到了广泛应用，并取得了良



好效果。对于深度学习中序列模型问题，涉及到对序列数据的底层知识信息提取和序列



关系的学习直以来都是相关领域的研究重点和难点因此本课题的研究具有重要


一
，。，
的理论价值 

。
１．２国内外研究现状




＞
人体行为识别在现实生活中应用广泛成为国内外研宄机构和高校的研宄热点之

一
， 

。
传统的人体行为识别方法主要使用人工提取行为特征再利用分类模型得到最终的结果 

，
而使用深度学习的算法可以自动学习并获取有意义的高层特征表达，
并对不同的视频特


征进行分类。
对于复杂动作或者多人参与动作的数据集，视频中存在大量动作，使得提


－
２ 

－
章绪论


取有意义的特征表达变得困难如何能有效提取视频行为特征直是国内外学者的研



一
。，
宄重点 

。
传统方法主要是人工提取特征，
并建立起特征分类的模型，进而识别人体行为。 

按
照表示方法上分为整体表示方法和局部表示方法 


。
整体表示方法是指整体分析个人体动作将人体完整动作作为个整体

１
Ｂｏｂ
一一Ｉ
ｃｋ
［ 

］
，。ｉ
提出了运动能量图像（ＭＥＩ）和运动历史图像（ＭＨＩ）来表示视频特征信息，其中，ＭＥ 

Ｉ
表示运动图像如何移动表示每个像素点的时间历史的函数等人

２
ＭＨＷｅＤ
１
ｎａｎｄ
［ 

』
，Ｉ。ｉｌ
通过时空体积代表ＭＨＩ，
并使用三维体积的扩展增加了拍摄角度变化的鲁棒性。Ｙｉｌｍａｚ


等人使用时空体积的不同特性来确定行为是沿时间轴叠加物体轮廓



３
ＡＳＴＶＳＴＶ
１
ｔ］
（），
建立起来的。由于缺乏主体的外观和时间信息，整体方法的方式过于模板，不能有效捕



捉行为视点［
１４
］


。
相比于整体表示法，
传统方法中的局部表示法有更好的效果。区域表示法是指视频


中使用局部区域来表征人体行为信息。局部特征表征视频信息主要步骤：

首先检测出视


频中运动像素点位置，
然后在运动区域中获取有效的描述子 

。
在运动区域检测方面，Ｌａｐｔｅｖ等人［

１５
］
将Ｈａｒｒｉｓ角点探测［
１６］
扩展到３Ｄ空间，３ＤＨａｒｒ
 ｉｓ

探测器能够在大空间变化下和不稳定运动下发挥作用。ＬｕＪ
ｉ等人Ｍ提出利用兴趣点的

 ｌ
统计属性裁剪无意义的特征 

。
在局部描述子提取方面，
获取兴趣点区域后，
需要对局部区域形成描述符表示行为


信息Ｋ等人
７］
基于方向直方图ＨｏＧ 
８
提出梯度方向直方图ＨｏＧ３Ｄ作为


１１
ａｓｅｒ
［［】
。ｌ（），（）
运动描述符等人
９
将局部区域的光流直方图ＨｏＦ当做时空信息描述符Ｄａ
１
。Ｌａｐｔｅｖ［】
（），ｌａｉ
等人［
２Ｇ】
提出运动边界直方图（ＭＢＨ）扩展了 ＨｏＦ的鲁棒性。轨迹是随着时间推移而正


确追踪的特征并逐渐应用于行为识别等人和等人首次提出
４］
ＭｅｓｓＭａ 

１
ｎｇｋａｎｅｎ
［
，。ｉｔｉｉ
轨迹提取局部特征，使用轨迹速度作为局部特征。Ｍｅｓｓｉｎｇ等人使用３ＤＨａｒｒ

ｉｓ  角点检


测兴趣点然后使用跟踪器对运动区域兴趣点生成轨迹等人 


使
２２］４
ＫＬＴＭａ
１
ｋａｎｅｎ
［［】
，。ｔｉｉ
用ＫＬＴ跟踪器提取轨迹特征，
再将特征聚类；计算仿射变换矩阵是利用各个聚类中心


点，
最后计算得到的仿射变换矩阵中元素表示轨迹。Ｂｒｅｇｏｎｚｏｉ等人同时使用ＳＩＦＴ 

描
述子和ＫＬＴ跟踪器提取特征轨迹，
可以抓取视频中细微动作 

。
在局部描述符的聚合方面，
从视频中获取局部特征后，
需要对特征进行固定长度的


处理才能作为模型的输入等人提出词袋中局部描述子分布



７９２４２５
＿
ＤｏＢｏｖ
｜｜
、
ａｒＰ
，
［１
，。ｌｌ（）
作为描述符最近种更好的编码描述方式ＦＶ（ＦＶｅｃ 编码逐渐成为更



一
，，ｉｓｈｅｒｔｏｒ）
Ｗ２
好的选择。ＺｈｕＹ等人［
２
Ｍ吏用时空词典和稀疏编码进行聚合得到固定大小的描述符， 

。
３


－
东北大学硕士学位论文 第１章绪论


近年来深度学习在计算机视觉领域获得越来越多的关注些学者也尝试将深度



一
，，
学习算法应用于行为识别。深度学习方法不用手动提取特征，保留了更多视频原有的信



息般更优于传统方法
一
， 

。
等人提出时空网络如图Ｕ所示利用ＣＮＮ提取空间特征使用ＬＳＴＭ 

等
３３
ＬＣ［１
ｉ，，，
循环网络提取时间信息，
两种网络使用串联结构，
并且提出了最大融合、平均融合和逐


元素相乘融合三种融合方法等人提出三维卷积网络方法在

３４
。Ｊｉ
［］
（３ＤＣＮＮ），２ＤＣＮＮ


的基础上加入了时间维度，不仅可以学习到空间信息，而且可以获取时间信息。Ｗａｎｇ 


等
人［
３５］
提出了  ３ＤＣＮＮ和ＬＳＴＭ结合的网络，加强了动作识别中时间序列的学习，同时对



视频帧图像进行显著性检测，
减少网络参数，
提高训练速度。３ＤＣＮＮ每次只能获取固


定帧数图像不像ＬＳＴＭ可以动态改变输入具有定局限性但是其效果比ＣＮＮ 


和
一
，，，
ＬＳＴＭ结合的方法要好并且训练速度更快另外ＤＣＮＮ和ＬＳＴＭ的结合也是 


个
一
，。，３
很好的思路 

。
Ａｃｔｉｖｉｔ
ｙＲｅｃｏｇｎｉｔｉｏｎ


ｌｎｐｕｔ：Ｓｅｑｕｅｎｃｅ


ｏｆＦｒａｍｅｓ


＼  ｃ
＼  Ｎ  Ｎ  ／
ｃ
 ７
Ｎ  Ｎ  ／
＼ ＇
 ／ ＬＳＴＭ
 

Ｉ
＼  ／
Ｏｕｔｐｕｔ：Ｌａｂｅ 

ｌ


ｍ
，

ＰａｙｎｇＢａｓｋｅｔｂａｌ
ｊ
ｉ 

ｌ
图１．１  ＣＮＮ＋ＬＳＴＭ结构图


ＣＮＮ＋ＬＳＴＭｓｔｒｕｃｔｕｒｅｄ
Ｆｉ
ｇ．  １．１ｉａ
ｇｒａｍ


２０１４年Ｓｉｍｏｎｙａｎ等人＿首次提出双流网络，
如图１．２所示，
空间流网络和时间流


网络采用相同的ＣＮＮ网络结构，
采用并联架构，互不干涉，
各自提取各自特征。最后


融合方式为平均融合、最大值融合或者ＳＶＭ进行分类融合，

使用ＳＶＭ的融合分类效


果最好 

。
４
－ 

－
东北大学碩士学位论文 第１章绪论


Ｓ
ｐａｔ
ｉａｌ ｓｔｒｅａ 

ｍ
ｆｕｌ
６ Ｗ
Ｃｏ  Ｃ Ｃ
Ｃｏｎｖｌｎｖ２Ｃｏｎｖ３ｏｎｖ４ｏｎｖ５
 ２０４８ Ａ


 ＊＊

＊＊

＊＊
３
＊＊

＊＊
ｌｊＶ
７７９６５５２５６３３５１２３５１２３３５１２
 ｄｒ〇
ｐ
〇ｕｔ ｄｒ〇
ｐ
〇ｕｔ  Ｓｏｆｔｍａｘ
 ＼＼


＾ 丨
 Ｐｏｏｌ  ２
＊
２  Ｐｏｏｌ  ２
＊
２  Ｐｏｏｌ  ２
＊
２
 ＼＼  


■
｜ 
／／

｜
Ｓｉｎ
ｇ
ｌｅ  ｆｒａｍｅ －
     
 ｜
＼＼


ｌ
１
Ｖ＇
：
 ／
ｓｃｏ
ｓｓ


ｒ 

ｅ
翁
：
ｆｕｓｏｎ


／／
ｉ
  ＼＼Ｔｅｍ
ｐｏｒａ
ｌ ｓｔｒｅａｍ 

／
Ｗ＼ 


＾
Ｗ   丨
—
Ｉ
６ｆｕｌ
ｌ
７
Ｎ Ｃｏ   Ｃ Ｃ
 ｎｖｌＣｏｎｖ２Ｃｏｎｖ３ｏｎｖ４ｏｎｖ５
４Ｑｇｇ  ２〇４８ ｖ


 
＊
  
＊＊＊＊＊＊＊＊＊
 ｔｍａｘ
ｆ
？

７７９６５５２５６３３５１２３３５１２３３５１２ｓｏ 

ｄｒｏ
ｐ
ｏｕｔ ｄｒｏ
ｐ
ｏｕｔ
 
＊＊＊
Ｐｏｏ！  ２２Ｐｏｏｌ  ２２Ｐｏｏｌ  ２ 

２
Ｏ
ｐ
ｔｃａｌ  ｆｏｗ
图１．２双流网络结构图


Ｆ２Ｔｗｏ ｓｔｒｅａｍ ｎｅｔｗｏｒｋｓｔｒｕｃｕｒｅ



ｉ
ｇ．  １．ｔ
Ｗａｎｇ等人Ｐ使用改进的轨迹描述子代替光流提取时间信息

Ｉ
，
将局部ＣｏｎｖＮｅｔ响应


汇集在轨迹为中心的时空管，生成的描述符称为ＴＤＤ，
使用Ｆｉｓｈｅｒ向量将视频中局部区


域ＴＤＤ聚合成全局向量，
使用ＳＶＭ作为行为分类器。在双流网络基础上，
２０１７年 

，
Ｗａｎｇ等人加入分段和随机化采样，

提出ＴＳＮ网络。
将视频分成多段，
分别进行时间


流和空间流特征提取，
时间流网络输入使用掩膜光流，
消除相机抖动带来的影响。训练


时加入大数据集预训练、数据增强、图像校准等技术，

使得网络效果更优 

。
除了时空网络和双流网络还有些很出色的方法尤其是基于无监督的人体行为


一
，，
分析方法。ＹａｎＸ等人Ｍ提出ｌ
了深度自动编码器（Ｄｙｎｅｎｃｏｄｅｒ）获取视频运动信息，



将
Ｄｙｎｅｎｃｏｄｅｒ当做视频的时空紧凑信息，
给定视频的Ｄｙｎｅｎｃｏｄｅｒ的重构误差当做分类误


差，压缩了行为识别的存储和运行成本。为了更好地学习时间信息，ＳｒｉｖａｓｔａｖａＮ等人＿ 


１
提出了基于ＬＳＴＭ的自编码模型，由编码器ＬＳＴＭ和解码器ＬＳＴＭ组成。编码器ＬＳＴＭ



接受视频序列作为输入并学习到人体行为特征的紧凑表达解码器，ＬＳＴＭ将紧凑序列作



为输入，
并重建输入序列 

。
虽然深度学习目前在人体行为识别方面有了很好进展，

但是也存在着
一
抖问题：


深
度学习方法需要大量的数据作为训练样本，
现在大部分的数据库量相关性较高ｉｉ偏小 

；
网络底层的输出作为整体局部特征，
往往容易忽略；火部分深度学习的彳丁为识别方法 

，
容易忽略行为识别中时间流和空间流的倍息维度差异。传统的桩于深度学的人体行为



识别方法单纯使用卷积神经Ｎ络只能提収局邰动作的特征表达，
小能对完整视频彳Ｔ为提


５
－ 

－
东北大学硕士学位论文 第１章绪论


取出有效特征。而后改进的基于深度学习的人体行为识别方法加入循环神经网络学习局



部特征的上下文关系，可以解决局部特征相互独立的问题，将时间流特征和空间流信息


特征结合，共同作为视频信息特征序列，

并取得了很好的效果。
所以本文对人体行为识


别技术基于深度学习相关的方法进行科研探索 

。
１．３本课题的研究内容与章节安排


１．３．１主要研究内容


行为识别作为计算机视觉的个基本问题在机器学习和人工智能领域具有很高的



一
研宄价值。在前期研宄的基础上，
本文以人体行为识别为核心，
利用深度学习方法特别


是卷积网络和循环网络，得到不同段动作的上下文关系，

随后利用分类融合方法，实现


人体行为分析。
本文的主要研宄内容如下 

：
（１）分析人体行为识别的研宄现状和现存问题，将人体行为识别传统方法和深度学



习方法对比。
发现传统方法的人工提取方法鲁棒性较差，而且准确率偏低。因而选择基


于卷积网络和循环网络方法进行人体行为识别的研宄 

。
（２）研究分析深度学习中二维卷积网络和三维卷积网络在行为识别中的差异。对比


分析二维卷积网络在双流网络上的效果和三维卷积在单流网络的效果，

二维卷积使用 

光
流图像作为输入来获取时间信息，
其计算时间长，对视频画质要求较高，而且极易受相


机抖动影响，不适合行为分析的实时应用。三维网络针对时间流信息对二维卷积维度进



行扩展，
自动获取时间特征，而且裁剪无意义的时间信息，适合作为视频行为识别的特


征提取器 

。
（３）研宄深度学习方法中常见的序列模型和循环网络的几种变种。对比循环网络中



ＲＮＮ、ＬＳＴＭ、双向ＬＳＴＭ（Ｂｉ
－
ＬＳＴＭ）三种主流方法，
针对ＲＮＮ梯度消失问题和ＬＳＴＭ


只能选择前序时间信息问题，
选择Ｂｉ
－
ＬＳＴＭ作为序列模型，
对于序列模型学习时间加


速方面，
使用层次Ｄｒｏｐｏｕｔ算法作为人体行为中序列上下文学习模型的正则化方法 

。
设计种整合注意力机制和序列模型的人体行为识别模型由于人体行为只作


一
（４）。
用于张图像中的小部分正如人的视野注意力只会集中在人体动作区域对背景关



一一
，，
注的很少。
在特征图显著性提取方面，通过注意力机制将人体动作部分显著性提高，


增
强行为特征的表达能力。在各个子段视频结果融合方面，

视频人体行为的分类结果融合


使用自注意力机制，将显著得到视频特定重要的动作段，
提高分类准确率 

。
－
６ 

－
章绪论


１．３．２论文结构和章节安排


ｒ

，  「注意力机制获］  「
ｉｆｉ去


’
视频分段处理
 ：
取显繊特征：  誌ｇ


 

￣
连续帧   ｕｒｅ  Ｊ

Ｆｅａｔ
ｆ

 
＾
＾
 ｍａｐｓ
 ＾


：
＾
＇
ｆ
连续帧 ｕｆＴＴ  Ｉ  匀：
 ３ＤＣＮＮ＋Ｂ１
 １ 

—

＾
／Ｉ  ＼  ｔ 
 ＼
 °
：




；

．
／ 、；


；
（
连续倾
（Ｋ  ＾
 ：ｎ臟ｓ 卜州 

：
１
ＬＪ

－－
－１


１
Ｌ
 
！

 －－－－
  Ｊ
ｍｍ？各连续帧特征提取？行为识别结果分类？准确率统计


—  
？ ■ ？
（ （）
图１．３论文框架


Ｆｇｉ．  １．３ Ｔｈｅｓｉｓ  ｆｒａｍｅｗｏｒｋ


本文研宄为深度学习及人体行为识别，全文为五个章节，以下为每个章节简介 


：
第１
章内容分为研究背景及意义，
国内外研宄现状和主要内容以及对本文的安排介


绍。本章大致介绍了人体行为识别从传统方法到深度学习方法的发展历史，
介绍了国内


外人体行为识别的研究进展和改进原因，以及本论文的大致结构和研究目标 

。
第２章主要讨论三维卷积网络用于视频行为特征提取。本章主要阐述卷积网络算法



的理论，
对比分析二维卷积和三维卷积的优缺点和适用场所，初步确定以三维卷积作为


人体行为特征编码层。最后总结常用的人体行为识别数据集并详细介绍ＵＣＦ１０１数据集



和ＨＭＤＢ５１数据集，
并在ＵＣＦ１０１
数据集上测试３Ｄ卷积神经网络的模型性能 

。
第３章探讨了几种常用的适用于人体行为分析的序列模型。

将这几种网络从数学上


进行推导与结构分析。提出以Ｂｉ
－
ＬＳＴＭ作为视频段的解码层。使用第２章的３Ｄ卷积神



经网络作为视频特征编码层，
将各子段动作特征向量作为Ｂｉ
－
ＬＳＴＭ网络的输入，
输出


向量使用平均融合的方式得到整体结果向量，

最后使用Ｓｏｆ
ｔｍａｘ分类器得到分类结果 

。
第４章是在序列模型的基础上融合了注意力机制获取特征图的显著性区域。对于视



频各帧图像局部区域的显著性提取和各视频段的显著性提取，使用基于项的软注意力机



制获得图像各局部区域的权重分布和各视频段的权重分布，
使用自注意力机制融合各视


频分段的结果序列。本文最后通过对比实验选择最适合行为识别的任务的注意力机制模



型和参数，
并且对模型训练中的批次大小和学习率两个超参数进行调优。最后，对比了


７ 

－
东北大学硕士学位论文第１
章绪论



几种人体行为识别任务中主流的网络结构，从准确率的性能指标上分析本文设计方法的


优点 

。
第章为总结与展望首先总结了前四章内容分析本方法设计的些优点和缺点
一
５，， 

，
阐述训练神经网络中需要注意的些细节展望本方法需要改进的地方以及已经出现


一
。，
的还未在人体行为识别领域应用的新技术 

。
－
８


－
东北大学硕士学位论文 第２章视频行为特征的分段提取


第２章视频行为特征的分段提取


传统的视频帧图像处理主要采用２Ｄ卷积网络进行特征提取，对于目前流行的双流



网络框架中，２Ｄ卷积以光流信息图作为输入获取时间信息特征光流图计算较为耗时， 

，
且易受抖动干扰。
为了综合时间信息和空间信息，３Ｄ卷积网络应运而生，３Ｄ卷积顾名


思义，就是将２Ｄ卷积在时间维度进行扩展即不仅可以获得，
２Ｄ卷积网络的空间特征 

，
而且可以获取连续若干帧之间的时间特征。本章将详细阐述卷积神经网络结构和３Ｄ 


卷
积网络的作用，并利用ＵＣＦ１０１
数据集分别对２Ｄ卷积网络和３Ｄ卷积网络进行对比实


验 

。
２．１卷积神经网络


卷积神经网络的理论提出是在世纪年代等人的生物学研宄表明

４
Ｈｕｂｅ
１
［］
２０６０，ｉ 

，
层局部区域范围的神经元而后网络采用
４２］
每层的神经元节点只响应前内ＬｅＮｅｔ 

一
［
５
－
。，
若干卷积层和若干全连接层组成，
中间包含各种非线性操作以及池化操作。卷积层的卷


积核对图像的指定位置进行卷积运算，可以从低阶特征提取到高阶语义。与其他网络相


比，卷积网络的参数共享策略提高了网络的训练效率和可扩展性。ＬｅＮｅｔ－
５网络的成功


应用使得卷积神经网络得到了更多的关注。随后出现了很多卷积神经网络框架， 


如
＾由于卷积运算主要处理类网格结构的数据因此对于时间序


４３］４４
ＧｏｏｇｌｅＮｅｔ
［
、ＲｅｓＮｅｔ
［
，，
列以及图像数据的分析与识别具有明显优势。随着深度学习和相关网络框架的发展， 

卷
积神经网络在图像识别、文本处理和语音处理都得到了广泛应用 


。
２．１．１卷积运算介绍


在卷积功能分析中，卷积是通过函数Ｘ和Ｗ进行相关数学运算，被加权函数Ｗ和



乘积函数Ｘ围成的曲边梯形的面积 

。
对于连续函数卷积：
设ＸＯ和Ｗ〇〇是）
Ｒ上的可积函数，作积分 

：
ＸｘＷｘ
－
ｔｄｔ
 ２１
＾
．
（）（）（ 

）
＼
对于离散函数卷积：设Ｘ（
ｍ）和Ｗ（
ｎ）是长度为Ｎ的离散信号，
作积分 

：
（
Ｘ＊Ｗ）［
ｎ
］
＝
 ＹＸｊ（
ｍ
）
Ｗ（
ｎ
－
ｍ
）  （
２２）


．


ｍ
９ 

－
东北大学硕士学位论文第２章视频行为特征的分段提取



卷积运算的应用相当广泛例如使用个二维卷积核Ｋ对传统的图像做相应的卷



一
，Ｉ
积运算 

：
Ｋ）Ｋ 
＊
Ｓｊ＾ＹＩｍｎｍｎ
＝＝
ｌ
￣－
ｉｉ
，ｊ）＾
ｉ
＞
Ｊ２３
－
（）  （（  ，（）（）（ 

）
ｍｎ


卷积是可交换的，可以等价写作 

：
Ｙ＾Ｋ 
＊
Ｓｉ
，
ｊ）
＾
Ｋｌｉ
，ｊ）
＝
Ｉｉ
－
ｍＪ＞
－
ｎ
）
ｍｎ
＞
（
２４）
．


（（）（  ｛｛）
ｍｎ


从增加ｍ的方面来看，输入的指数在增大，
但是核的指数在下降，
而核翻转是实现


可交换性相比之下许多深度学习框架实现个称为互相关函数的相关函数该函数



一
。，，
几乎和卷积运算样但是没有翻转卷积核
一
， 

：
Ｙ＾Ｉ 
＇
Ｓｉ
，ｊ）
＝
ｌ
＊
Ｋｉ
，ｊ）
＝
ｉ ＋ｍ＾＋ｎ
 Ｋｍｎ
＾
（
２５
－


）
｛   （）（  （）（）
ｍｎ


在机器学习中学习算法在卷积核的适当位置学习适当的值因此个基于核翻转


一
，，
的卷积运算的学习算法所学得的核，是对未进行翻转的算法学得的核的翻转。单独的卷



积运算在机器学习中是很少见的，无论卷积运算是否对核进行翻转，卷积经常与其它函



数起使用而且这些函数的组合通常不可交换
一
， 

。
卷积运算通过两个重要思想：稀疏交互和参数共享，

作为区别传统神经网络的重要


特性，通过稀疏交互和参数共享这两种思想，卷积神经网络大大改进了机器学习系统 


，
下面依次介绍这两种思想 

。
稀疏交互的物理意义是，通常图像、文本、语音等现实世界中的数据都具有局部的



特征结构，
首先学习局部特征，
然后结合局部的特征以形成更复杂和抽象的特征。卷积


核尺寸远小于输入的维度因此每个输出神经元仅具有与前层特定局部区域内的神经



一
元的连接权重，称之为稀疏交互 

。
传统的神经网络中输入与输出之间具有矩阵乘法关系，其中，网络层之间的输入与



输出的连接关系可以由个权值参数矩阵来表示每个单独的参数值都表示了前后层某


一
两个祌经节点之间的交互。相反，卷积网络具有稀疏交互特征，通过卷积核在指定图像


位置滑动来实现稀疏交互的特点，由于稀疏交互的作用，

所以卷积核的尺寸远小于图像


本身的尺寸，以减少训练参数，
提高计算效率。
如果有ｍ个输入和ｎ个输出，则传统神


经网络的矩阵乘法需要个参数而且相应算法的时间复杂度为如果将每



个输出与前层神经元的连接数限制为则连接系数的方法只需要个参数以及


一一
ｋ，
的运行时间。在实际应用中，ｋ远小于ｍ就可以取得可观的效果。

稀疏交互的


图像化解释如图２．１所示，上面两层网络，当ｓ是由卷积核大小为３的卷积产生时， 


只
１０ 

－


有三个输出受到ｘ的影响；下面两层网络，当ｓ是由矩阵乘法产生时，连接不再是稀疏表



达，所以所有的输出都会受到＆的影响 


。
图２．１
稀疏表达和全连接


Ｆｇ２
ｉ．．１ Ｓ
ｐａｒｓｅ  ｅｘｐｒｅｓｓｏ  ａｎ
ｎｄ  ｆｕｉｌｌ ｃｏｎｎｅｃｔｏｎ


ｉ
参数共享是指在同个模型的不同模块中使用相同参数它是卷积运算的固有属性

一
，


。
在传统神经网络中当计算层的输出时权重矩阵每个参数仅对应组输入和输出

一一
一
，


。
，
在卷积网络中，卷积核的每
一
个元素将作用于每
一
个输入的特定位置。
根据参数共享的


思想我们只需要学习组参数集合而不需要针对每个位置的每个参数都进行优化

一


，
，，
这是参数共享最大的优点 

。
图片有个特性图片的语义特征不随着图片区域的位置改变而改变对于主要用



一
。
，
于提取底层特征的前几层网络把图像每个局部区域对应的卷积核进行权值共享 


就
一
，
，
可以进步减少网络中参数的个数根据参数共享的思想我们只需要学习组参数集



一
一
。，
合，而不需要针对每个位置的每个参数都进行优化，前向传播的运行时间是



但是大大降低了模型的存储需求，
降至ｋ个参数，
而且ｋ远小于ｍ。参数共享的物理意


义是使得卷积层具有平移等变性假如图像中有只猫那么无论它出现在图像中的任



一
。，
何位置，
都应该视为猫，
即神经网络的输出对平移变换来说应当是等变的。
如图２２
．


所
示，上面两层网络，深色箭头表示卷积网络中对卷积核的使用，由于参数共享，这个单






－
－
１１


独的卷积核参数被用于所有的输入位置；下面两层网络，这个单独的深色箭头表示在卷


积网络模型中对模型参数的中间元素的应用，由于没有使用权值共享，所以参数只使用



次
一


。
Ｑ ＱＱ Ｇ


Ｖ
ｒ＞ ｒｖｒｒｖｎ


ＷＷ Ｗ Ｗ 〇



＞
图２２．
参数共享和全连接


Ｆｇ２２  Ｐａｒａｍｅｔｅｒ  ｓｈａｒｎｇ  ａｎｄ  ｆｕ
ｉ．．ｉｌｌ ｃｏｎｎｅｃｔｏｎ
ｉ 

由于卷积运算主要用于处理类似网格结构的数据，
尤其是卷积网络具有稀疏连接和


参数共享的特点，大大减少了图像处理中的计算时间复杂度和空间损耗，

提高了模型训


练效率以及可扩展性。通过卷积运算的两种特性，卷积核可以首先在输入的指定位置学



习局部特征，
然后结合局部特征，形成更复杂和抽象的特征，
与传统的神经网络相比 

，
不仅提高了训练效率，
而且提高了网络鲁棒性 

。
二维卷积主要应用于图像处理领域卷积通常对应着个非常稀疏的矩阵因为输


一
，，
入图像的大小般远大于卷积核的大小尺寸任何使用矩阵乘法但不依赖于矩阵结构的



一
特殊属性的神经网络算法都适用于卷积运算线性滤波是图像处理最基本的方法首先。。 


，
对于图像的每个像素点计算其邻域像素和滤波器矩阵的对应元素的乘积然后将乘



一
，，
积相加起来共同作为该像素位置的值，
从而完成了滤波过程。
如图２．３所示，
演示了在


二维张量上的卷积运算。对于图像而言，通过在图像指定位置与滤波器模板进行翻转运



算，然后在原图像上移动相应位置，将元素乘以相应位置并相加得到最终结果 

。
１２ 

－


Ｉｉｉ
ｐｕ 

ｔ
＂＂＂
＂＂＂＂＂
１１   Ｉ
  Ｋ｜｜Ｊ
ｅｒｕｃ 

ｌ
ａｄ

ｅ
ｕ－
 


ｂ
｜

  —
＝ｚ  ｗｘ


ｐ｜｜
＾
 ｆ ９ ｆｉ ＝ 

＝
ｍｍｍｍ－
ｍｍｍｍ  ＝ｚ  ＝  ｙ  ｚ


ｉ
 ｊ ｋ ｌ  Ｐ  ＝   ＝＝！


Ｉ
ｗ Ｏｕｔ
ｐｕｔ


？
ａｗ  ＋  ｂｘ  ＋  ｆ
ｅｕ  ＋  ｃｉ  ＋  ｃ  ＋ ＇
ｔｉ；｛ｉｒ  ＋


ｅ
ｙ  ＾  ｆｚ  ｆｙ  ＋  ｇｚ  ｇｙ  ｈｚ
ｅｕ
？
＋／ｚ ＋  ｆｗ  ＋  ｐｘ  ＋  ｇｗ  ｈｘ  －
＼


－
ｉ
ｙ  ＋  ｊｚ  ｊｙ  ＋  ｋｚ  ｋｙ  ＋  Ｉ 

ｚ
图２３．二维卷积运算


Ｆｇ２３Ｔｗｏｄｍｅｎｓｏｎａ ｃｏｎｖｏｕｔｏｎ


－
ｉ．．ｉｉｌｌｉ
计算机视觉方向是深度学习应用最广和最深的领域之随着硬件设备的改进和海



一
量数据的增加，
深度学习在图像处理领域中的研究和应用得到了飞速发展，
而卷积祌经


网络的研宄在图像处理中占据了绝对重要的地位 

。
２．１．２卷积神经网络结构


卷积神经网络在多维图像中的应用十分广泛。卷积网络框架众多，

但是各个网络层


结构大致相同，
如图２４．
所示，
典型的卷积神经网络中，主要包含卷积层、下采样层


和全连接层等网络结构。卷积层通常和下采样层结合使用，
并且在网络的最后几层中使


用全连接层网络用于下采样获得整体特征 

。
叩ｕｔ 丨
ｍａ
ｇｅ ３  Ｆｅａｔｕｒｅ Ｍｐａ ３ｓ Ｆｅａｔｕｒｅ Ｍｐａｓ ５ Ｆｅａｔｕｒｅ Ｍｐａ ５ｓ
 Ｆｅａｔｕｒｅ Ｏｕｔ
ｐｕｔ  Ｌａｙｅ 

ｒ
Ｍｐａ
ｎ
—
 ｎ—

ｓ
  
１
－
ｉ
－－
， 

－
 
［
１   

．
￣
Ｌ —

了
■ ？口
 ｒ ｌ
 〇 ｑ


Ｕ 


■
－
Ｊ
Ｊ．
一
－
Ｉ
—
—
｜
［＿ 
Ｃｏｎｖｏｕｔｏｎｌ
ｉ  Ｐｏｏｌ
ｉ
ｎ
ｇ  Ｃｏｎｖｏｌ
ｕｔｏｎ
ｉ  Ｐｏｏｌ
ｉ
ｎ
ｇ  Ｆｕｌｌ
ｙＣ
ｏｎｎｅｃｔｅｄ


Ｌａ
ｙｅｒ  Ｌａ
ｙｅｒ
 Ｌａｙｅｒ
 Ｌａｙｅｒ
 
Ｎｅｔｗｏｒｋ



图２４．
卷积神经网络结构图


Ｆ４Ｃｏｎｖｏｏｎａｕｒａｅｔｗｏｋｓｔｒｕｃｔｕ
ｇ２ｕｔ ｎｅ ｎｒｒｅ


ｉ．．ｌｉｌｌ
３
－ 

－
１


卷积神经网络中各层网络层作用不一
。其中，卷积层主要用于提取输入图的语义特


征；池化层本质是降采样，主要用于减少计算量和防止过拟合；而全连接层是为了将各



特征层的分布式特征映射到样本标记空间，以便于输出层的分类输出。

下面分别是三个


网络层的计算过程 

：
（１）卷积层输出中有多个特征图，每个特征图由多个神经元组成，

而每个神经元在


卷积核中通过特定位置和前层特征图局部连接卷积层每个特征图的输出共享个卷


一一
积核，
将卷积核作为特征提取器，
那么每组输出看作特征提取后的特征。
每个输出特征


图可以组合卷积多个特征图的值 

：
ｘＪｆｕ
（Ｊ 

）
Ｖ
＇  （
２６．


）
＋Ｕ
ｕｒＬ ｘ ｋｂ丨，
ｊ 

ｊ
Ｍｉｅ


｝
其中，ｕ
ｊ
称为卷积层Ｌ的第Ｊ个通道的特征输出，它是通过对输入图像特定局部区域部


分ｘ广进行卷积运算和偏置求和得到其中ｘ是卷积层的第个通道的激活后输出

１
，ＬＪ 

。
ｊ
是前层的输出特征图集合，
作为第Ｊ个通道的卷积核矩阵，是卷积核的偏置 

。
公式中作为卷积层的激活函数般的神经网络中激活函数通常为饱



一
（２．１），ｆ
（〇。，
和非线性函数，如ｓｉ
ｇｍｏ
ｉｄ函数、ｔａｎｈ函数等。当网络层不断加深时，
神经网络会出现


梯度爆炸和梯度弥散现象，这就使得不饱和非线性函数在深度神经网络中尤为重要，



同
时还可以加快收敛速度。深度卷积神经网络常使用线性整流函数（ＲｅＬＵ）作为激活函



数 

：
／（
ｘ
）
＝
 ｍａｘ
（
〇ｘ，
）  （
２７．


）
由公式和图可知ＲｅＬＵ函数的非饱和性和稀疏性在定程度上缓



一
（２７．）３．５，，
解了梯度爆炸和梯度弥散的问题，且不需要指数运算，计算复杂度低，

适合用于后


向传播 

。
■   
＼ 

／ 
？Ｕ



－


１
ｊ
图２５ＲｅＬＵ
．函数曲线


Ｆｇ２
ｉ．．５ ＲｅＬＵ  ｆｕｎｃｔｉｏｎ  ｃｕｒｖｅ


４ 

－
－
１



（２）为了解决卷积层输出神经元过多引起过拟合问题，卷积神经网络引入池化层 

。
池化层是将特征图局部区域的特征进行统计分析得到代表整个局部区域的总体特征， 

如
式（２８．）所示池化层通过减少神经元的数量来减少网络模型的计算量即下采样过程
，， 

，
又可称为下采样层。
 ， 

、
１
＝
ｘｆｕ
（＾


，
ｕｒａｊ
ＬＤ  卜ｏｗｎ
Ｘｊ
、
｝
＋ｕ
ｂ



ｊ
（
２８
－


）
其中称为池化层Ｌ的第通道的激活后的输出由前层输出特征图下采样



一
，ｕＪ，；
ｊ
加权和偏置相加得到，Ｄｏｗｎ（＿
）表示池化方法，通过滑动特征图对每个图像块内的像素



求和、求均值或者最大值的方法，
作为图像块的整体表达 

。
（３）卷积神经网络中使用卷积层和池化层获取高阶局部特征，在网络的后几层，



如
式所示使用全连接层对特征图进行下采样得到整体特征转换为维特征向量


一
（２９．），，
作为输入 

。
Ｘ ’ Ｗ

－
（）
（
２９）
．


／   ／／
－
Ｉ   ， 

／
＋
ｘ
＝
ｕ ｃｏ 

ｂ
其中称为全连接层的激活后的输出由输入特征图进行权重Ｗ加权和偏置Ｖ相



１
，ｕ／，；
加得到 

。
卷积神经网络主要分为这三个网络层，
现在主流的卷积神经网络框架也都是基于这


个基础层结构根据具体任务改进得到。２Ｄ卷积网络在处理
一
幅图片时有着很好的表现


效果但是对于时序类型的连续多帧图片

，，２Ｄ卷积却无法得到时间维度上的特征信息 

。
而３Ｄ卷积神经网络专门用于解决视频流的连续帧特征提取问题，下面作详细介绍 

。
２２
．
基于３Ｄ卷积神经网络的视频特征分段提取


３Ｄ卷积顾名思义就是比２Ｄ卷积在时间维度上多

一
维，即在连续帧图像流上进行卷


积运算。所以，３Ｄ卷积神经网络既可以提取空间信息又可以提取时间信息，
相对于光


流图的时间消耗，３Ｄ卷积运算大大减少了运算耗时，而且效果不低于光流信息的特征


提取方法本文基于。３Ｄ卷积神经网络的特征提取部分利用传统的，３Ｄ卷积神经网络 

，
对视频中的若干段分别进行特征编码，其中各段之间的３Ｄ卷积网络参数共享。

如图２６

 ．
所示本章基于Ｄ卷积神经网络提取视频特征部分的步骤主要分为搭建个用



一
，３：（１）
于人体行为识别的３Ｄ卷积神经网络，包括３Ｄ卷积层、３Ｄ池化层和全连接层部分， 


对
连续帧图片流的每个通道进行由前到后的特征提取，
最终通过全连接层形成整体的特征


描述；
（２）将视频流的各个动作段的连续多帧图片经过步骤（１）得到特征向量后， 

经
５
－ 

－
１


过特征特征融合方法得到整个视频的特征描述子；
（３）经过Ｓｏｆ
ｔｍａｘ分类器得到类别概


率 

。

＾
驗
 ；续＾
？
￣￣￣ —
二１１ 
训ｒ ＝
〇
Ｖ 
  ［
；
｜ （ 
Ｉ
（
＼＿  （）
络训练７
；
丨
Ｉ Ｃｏｎｖ３ｄ Ｉ
｜ 

丨


１
 
｜
   Ｔ ■
｜ 

｜
ＣｌＤ
＇
（
连续帧
（）
！  １
Ｐｏｄ  ３ｄ   

Ｊ
ＨＪ  ｙ ＾ 
ＩＩ

ｉ
ｖ￣￣
＿＿  Ｉ  ？纖网络


Ｌ
［
Ｌ￣

Ｔ   

   ＾！
：
？
ｉ
！
？
！


Ｊ
＿Ｉ —
．
－１


！
    ｒＬ
；
创建均值ＡＩＩ－ 

Ｉ
（
！

１
￣￣￣￣
连续帧
文件 
１
）
Ｉ 

｜
Ｉ（（
  Ｌ
丨
１
Ｉ ■  —
 一  ．一．  一  ■ 一  ■ 一  －一一一  一        一      一  

Ｊ
  ▼   


Ｍ￣￣
？各连续 — 征提取

？行为识别结果分类

？准确率统计


（ （）
图２６
．
基于３Ｄ卷积神经网络特征提取框架图


ｇ２６  Ｆｅａｔｕｒｅ  ｅｘｔｒａｃｔｏｎ  ｆｒａｍｅｗｏｒｋ  ｂａｓｅｄ  ｏｎ  ３Ｄ  ｃｏｎｖｏ
Ｆｉ．．ｉｌｕｔｉｏｎａｌ ｎｅｕｒａ  ｎｅｔｗｏｒｋ
ｌ 

２２
．．１ ３Ｄ卷积介绍


３Ｄ卷积非常适合时空特征学习，３Ｄ卷积具有更好的时间信息模型能力。３Ｄ卷积 


，
如图所示在Ｄ卷积的基础上增加个维度即连续多帧图像卷积操作如图
一
２７．
，２，。２．８ 

，
将２Ｄ卷积应用于单通道图像或应用于多通道图像将生成幅图像因此２Ｄ卷积网络


一
。，
无法获取输入信号的时间信息；只有３Ｄ卷积保留了输入信号的时间信息，
从而产生了


个图像序列同样的方法也适用于Ｄ池化和２Ｄ池化
一
，３ 

。
ｔｅｍｐｏｒａ 

ｌ


Ｗ图２７３
．Ｄ卷积示意图


Ｆｇ２７３Ｄ ｃｏｎｖｏ
ｉ．
．ｌｕｔｉｏｎｄａｉ
ｇａｍ
ｒ 

６
－ 

－
】


 ／ ／
  
｜ ／


ｋ
  Ｈ 
ｋ
Ｄ ｄ
—


？
Ｈ  ＾
＾ ＞ ｋ
Ａ－


Ｊ
 ｏｕｔｐｕｔ   ＾ 


／


Ｗ
Ｗ 
２Ｄｃｏｎｖｏｌｕｔｉｏｎ  ３Ｄｃｏｎｖｏｌｕｔｉｏｎ


图２．８二维和三维卷积运算


Ｆｉ
ｇ．２．８２Ｄ  ａｎｄ  ３Ｄ ｃｏｎｖｏｕｔｌｉｏｎ


人体行为识别输入为连续多帧图像，以往大多数网络采用２Ｄ卷积层，损失了时间



信息。而使用３Ｄ卷积不仅获取了时间信息而且保留了空间信息。相对于２Ｄ卷积网络



使用光流图获取时间信息，
其耗时长、易受干扰的缺点，３Ｄ卷积更适宜于连续帧的特


征提取 

。
２２２ ３
．．Ｄ卷积神经网络结构


卷积神经网络是等人在年第次提出的用来解决连续帧图像任务



４６］
Ｄ
一
Ｓ２０
［
３Ｊｉ１３，
的卷积神经网络后面的些改进的Ｄ卷积网络都是基于这个网络的优化如下图２９



一
。３。＿
所示，该网络含有１
个ｈａｒｄｗｉｒｅｄ  （硬连线）层、３个３Ｄ卷积层、２个下采样层和１


个
全连接层 

：
＊ 

＂
Ｉ
＇
．

咖



＾
ｃｏｎｖｏ
咖咖ｏｎ
 ｓｕｂｓａ＿
＾＾
ｎ
ｉ
、
ｈａｒｄｗＤｓａ

ｆｅｄ議  ｓｕ
ｃｏｎｖｏｕｏｎ

？
，
？
ｉ
ｌ
ｔｉ
／
１？
￣
１
－
＂

ｌ
ｓＴ
  ＆ ｐ  ＾  ＼

 ”
Ｆ
Ｉ
ｆｌ
 ｐｍ  临  ＼
 『
ｎｕ



ｐｔ
ｉ：
ｌ ％
、
獅
，＾
７
上 

１
■ 

二
１
  匕二２
＊
＊
２３２ § ５４ｘ３４  ２３２＾２７ｘ１ 

７
图２９．
经典３Ｄ卷积网络


Ｆｉ
ｇ．
２９Ｃ
．ｌａｓｓｃ  ３ｉＤ ｃｏｎｖｏｌｕｔｉｏｎｎｅｗｏｒｋ

 ｔ
在第
一
个硬连线层中，上图网络应用
一
个固定的硬连线核来处理原始帧，生成多个


信道信息，
并分别处理每个信道信息。ｈａｒｄｗｉｒｅｄ层相当于提取视频信息的特征先验知


７
－ 

－
１


识，
包括五种特征信息：
灰度图、ｘ和ｙ方向的梯度、ｘ和ｙ方向的光流信息。
随后的


Ｄ卷积层对上述五个特征通道的每个特征通道进行卷积运算如同２Ｄ卷积神经网络



一
３，
样的卷积操作不同在于Ｄ卷积网络是在连续图像上的相同位置同时执行卷积操作
一
，３ 

。
Ｄ卷积之后的下采样层同Ｄ卷积核工作原理
一
致进步得到空间分辨率和帧数降低


一
３３，
但是通道数不变的特征图。最后经过全连接层和Ｓｏｆ


。
经典的３Ｄ卷积网络依旧存在着诸多问题，
其中，
网络输入需要计算连续帧的光流


信息且不能处理长时序的视频流针对这些问题种更加简洁美丽的Ｄ卷积神经



一
，。，３
网络框架由此产生如图所示通用的卷积神经网络卷积层

４７
。２．１０，３Ｄ［］
使用８层３Ｄ 

、
５层池化层和２层全连接层，提取人体行为特征。该网络具有很好的普适性，适用于多



个视频动作场景，如行为识别，
场景识别，视频相似度分析等，此网络以多张连续帧图


片作为网络的输入，
使用八层３Ｄ卷积层同时学习时间和空间维度特征，不仅减少了时


间和空间损耗，
而且效果更好 

。
＞
Ｃｏｎｖｌａ
＾ Ｃｏｎｖ２ａ


￣
  ￡

６４１２８
２


Ｖ．

＾  ＾  ｙＬ  ）


￣
ｒ ｒ ｎ
Ｃｏｎｖ３ａ Ｃｏｎｖ３ｂ
写


２５６  ２５６ § ＿ 
 ｔ 

ｎ
ｖ ｘ  ｖ／Ｌ
ｆ  ．
 


ｒ
ｆ
＼


＾
＾  Ｃｏｎｖ４ａ Ｃｏｎｖ４ｂ
＾


连续巾贞
 ５１２ ５１２  °

？Ｌｏｓｓ


图片 ｌ Ａ 
ＪＬ＾Ｊ

ＣｏｎｖＳａ Ｃｏｎｖ５ｂ
 ＾ 


 ５１２ ５１２


ｖ 
／＼ 
／ 


）
ＦＣ６ ＦＣ７


４０９６ ４０９６


Ｓｏｆｔｍａｘ
： ］


图２．〗０通用的３Ｄ卷积网络


Ｆｉ
ｇ．２．１０Ｕｎｖｅｒｓａ ３
ｉｌＤ ｃｏｎｖｏｌｕｔｏｎａ
ｉｌ ｎｅｔｗｏｒｋ


使用２Ｄ卷积神经网络来识别单个帧图片类别，显而易见，这种方式无法考虑到连续


帧图像的运动信息针对这问题加入了光流场作为时间信息的改进使用传统光流信



一
。，
息代替连续帧图像的运动信息随即使用，２Ｄ卷积神经网络提取光流图的高阶语义特征 


，
但是光流信息般只获取前后两帧图像运动信息且极易受背景影响因此种利用



一
一
，。，
８
－ 

－
１


卷积神经网络来捕获空间和时间维度信息特征的３Ｄ卷积神经网络应运而生。上述的传



统的３Ｄ卷积神经网络可以在连续帧或者多帧之间生成多个信息通道，
并且在每个通道


中分别执行卷积和下采样像卷积网络样通过组合动作特征图通道的信息来获



一
，２Ｄ，
得最终的特征表示 

。
本章系统中为了更好地提取完整行为特征首先将视频分成多段每小段视频处



一
，，
理成连续多帧图像，
并进行求均值化、翻转等数据预处理，作为３Ｄ卷积网络的输入 

。
然后，
根据训练标签指定文件夹里的视频作为网络输入，经过上述３Ｄ卷积网络后，


将
最后
一
层全连接层的
一
维特征向量的输出做元素加权平均，作为融合策略。最后，经过


Ｓｏｆｔｍａｘ分类器得到类别的概率分布 

。
２３３．Ｄ卷积神经网络的结果与分析


２３．．１常用数据库和视频预处理


随着人体行为识别技术的发展，相关的数据库也在不断改进和发展，
表２．１列出 

了
近几年人体行为识别领域相关的数据库 

。
表２．１人体行为识别数据集


Ｔａｂｌｅ ２．１ ＡｃｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎ  ｄａｔａｓｅｔ


数据集名称 发表时间 行为类别 总视频片段


ＫＴＨ ２００４  ６ ２３９ 

１
Ｗｅｉｚｍａｎｎ  ２００５ １０  ９０


ＩＸＭＡＳ ２００６ １１  ３６３


Ｈｏｙｗｏｏｄ ２００８ ８
ｌｌ２４０


ＵＣＦＹｏｕＴｕｂｅ  ２００９
 １１  １１００


Ｈｏ２ ２００９ ２ ３６６９
ｙｗｏｏｄ 

Ｉｌ１
ＵＣＦ５０ ２０１０ ５０  ５０００


ＨＭＤＢ５  ２０１１１  ５１  ６８４９


ＵＣＦ１０１  ２０１２ １０１  １３３２０


Ｓｐｏｒｔ－
１ Ｍ ２０１４ ４８７  １００ 

万
考虑到数据库库质量和普适性，
本文中使用ＵＣＦ１０１数据集和ＨＭＤＢ５１数据集


［
４９］
作为本文的数据集，也是目前人体行为识别领域最为挑战性的两个数据集。其中



９
－ 

－
１
东北大学碩士学位论文 第２章视频行为特征的分段提取


ＵＣＦ１０１数据集包含１０１
个类别，
每个类别至少１００个样本，
共１３３２０个视频，总时长


２７小时训练集包含。９５３７个视频样本测试集包含，３７８３个视频样本如图。２．１１，ＵＣＦ１０ 


１
数据集主要来自ＢＢＣ／ＥＳＰＮ的广播电视频道收集的各类运动样本、以及互联网特别是视



频网站ＹｏｕＴｕｂｅ上下载来的样本，
动作分类可分为五类：（１）人和物体相互作用；
（２ 

）
仅身体动作；
（３）人与人相互作用；（４）演奏乐器；
（５）运动。相对于ＵＣＦ１０１，
，
ＨＭＤＢ５ 

１
数据集具有相对较少的数据共有个类别每个类别至少有个视频段 


共
一
一
，５１，１０１，
有６８４９个视频段。但是ＨＭＤＢ５１数据集画质稍差，且相机抖动明显，

对行为识别模型


加入了更多噪声，而且背景环境较为复杂，相对于ＵＣＦ１０１数据集，

现有的网络中


ＨＭＤＢ５数据集准确率并不高如图 ＨＭＤＢ５数据库大多来于电影还有



一
１。２．１２，１自，
些公开数据库的整合以及ＹｏｕＴｕｂｅ等视频网络库动作分类主要是五类  般的



一
，：（１）
面部表情带有辅助对象的面部动作般的身体动作有物体辅助的



—
；（２）；
（３）  ；
（４）
人体行为；
（５）人体互动的身体动作，
涵盖了日常见到的人体行为 

。
ｏ
ｔ 

丄
 ＳＳｆＳＴｉ  ＳＥＳＫＴＩＥＳＣ
Ｔ  ＳＪＣ
ＴＳＳＳＴ
＇
＊２３０２５＾＊ｉａ
ｉｉ


＊
ＳＳＣＣＴｔＨＤＳＫｊ
Ｅ３Ｃ２Ｘｏ  ＥｓＴ３ＨＢ３１  ２５ＫＺｎ３５
ＭＥＳＣＩ  Ｅ５ｔ５  Ｘ２Ｓ３ＳＥＥＫ  ＪＥＳＳＥＥＳＳＳＴ  ｉｉＡＪＲｉＴ  

ｄ
 ：；


ＳＳ戀！盡在３Ｅ

 Ｉ


—
＿：ｌ＾ — 丄ｗｒ＾ｉＦ 
—   —
ｉ
 ＢＭＨｍ  ＂＂＂＂＂＂＂＂Ｈａｍｍ  ｍｍｍｍｍｍｍｍｍ  ｍｍｍｍｍｍｍｍｍ 
ｍ
ｍｍａｍｍｍｍｍ  ｍｍｍｍｍｈｍｉ  ＾ 
＾  ＼ｉ
ＢＰ



ｊ
」＾ Ｉ
？ＪＬ．— ＩＬ，


ｍＷｉ通ｍｎＳＳＳＥＢＵｆ
，ｔ ■ ＥＥＪＧＴｌＷ  Ｅ５ＳＯ５＾  ＭＫＴｕ２？１Ｍ￡ｉＭ５５Ｌ＾  Ｅ５２２３５５５５１
＾
Ｂ  
 ！！ｒ
 ｉ
１＾９


图２．１１ＵＣＦ１０１数据集样例


Ｆｉ
ｇ２．．１１ ＵＣＦ１０１  ｄａｔａｓｅｔ  ｓａｍｐｅ

 ｌ
２０


－
－


４ ｍ  ＾ Ｂ  ｙｉ Ｉ  於’ ％
＾
、２＿也


 ＾  ＾  ＾
＾


ｈ
 ｐｕ，
Ｃｕｓｈ ｏｒｔｖ＾ｃ．  ｃ
－
－， 加ｂ  ｃ．，
＾
＾ ｔ＾ｉ ４＊ｉ
＾  ｍ ｗｍｍｍ
．
ｉｉｉ


＾ Ｕ  ＿  ？？Ｗ  ｍｏｆ
ａ  ＾＊＊ａ
＾
．
，＊． 

？
Ｗ 改被 啟嫩＊ ＾ｍ 切Ｉ
 ｇ
ｂａｍｒｕｎ


恤
＾ｌ ＾ ７
＾Ｂ＾ｆ
＇
ｔ
ｕ
 ｗ
ｉ
＊
ｈｓｒ
＾ ＜｝ Ｈｔ
！
ＷＳ
 Ｍｍ
ｉｌ
ｔ 
￡ｆｔ  ？ｔ＊ｎ＊＞ 

？？
＂


？
？？
＊ ？？？？？＊  ？？？  ？＊？ｙ＊？ 
／
ｔｕｒ


ｎ
Ｈｘ ＊ｌ＊＾  ｂｍ＊ｔｗ？ ？？？＞？



團鱷
ｈｅｉｒ  ｋｖ  ｂｕｔ
＾■
＊
＊
？
ｐ＊ｔｖ  Ｆｃ
縐＿＿■ ｍ

 ？ｉ
ｆ
 ｐｕＭｕｐ  ｐｕｎｃｈ 
 
？＊＊？


ｂｔ
ｆｌ
图２．１２ ＨＭＤＢ５１
数据集样例


Ｆｉｇ２．．１２ ＨＭＤＢ５１ ｄａｔａｓｅｔｓａｍｐｅ

 ｌ
模型训练之前首先进行视频预处理。因为３Ｄ卷积网络的输入需要连续帧图像，



首
先将ＵＣＦ１０１数据集中的视频转化成图片序列作为输入序列。
传统的３Ｄ卷积神经网络


的输入是在段视频中随机连续采样张图片这样的方法使得不太合理很可能会造



一
ｎ，，
成关键行为段的损失影响模型效果另种方法是扩大采样的帧数尽可能获取完整的



一
，
；
行为，这样会造成帧与帧之间信息的冗余，而且增加卷积网络参数，影响网络效果和运



行效率。本文采用视频分段的方式，首先将视频分成多个子段，

每个段之间随机采样若


干张图片，既包含了完整的动作，
又减少了无用的信息输入。如图２．１３所示，
例如将视


频分成三段，
每段随机取两张连续帧图片，
分别作为３Ｄ卷积祌经网络的输入 

。
ｍＬ 

￣
ＨＰ＃  ｉ  ＨＩＴ  积神经网
＇

 ｔ 

Ｓｆ
—
ｃ－
 ｒ 

ｉ
ＬＺｊ


黾命 

ｓ
如图２．１３视频预处理示意图


Ｆｉ
ｇ．２．１３ Ｖｉｄｅｏ
 ｐｒｅｐｒｏｃｅｓｓ
ｉｎ
ｇｓｃｈｅｍａｔｉ 

ｃ
２ 
－ 

－
１


２．３．２３Ｄ卷积神经网络模型训练



本章的动作特征提取部分首先将视频分成多段然后每段使用层Ｄ卷积

一
８３ 

５
？
．
；
、
层Ｐｏｏｌ和２层全连接层的３Ｄ神经网络结构作为模型编码层，

并共享各段的部分网络参


数权值最后Ｄ神经网络输出层为每段的结果向量即维特征向量并通过结果段



一
；
３，，
融合方式得到整体结果序列 


。
分段输出层的特征向量融合方法通常采用两种方法种是平均法如图 

各
一
：，２．１４，
个子段最后层全连接层的维特征向量按元素进行加权平均得到最终融合的维特



一
一一
征向量再经过ｔｍａｘ
ｆ＊类器得到最终结果种是最大值法如图按元素选


一
，
Ｓｏ；
，２．１５，
择各子段最大值组成个子段将该子段的维特征向量作为最后的特征向量同样使



一一
，，
用Ｓｏｔｍａｘ
ｆ分类器得到最终结果。下文将对两种融合方式做对比，选择更适合人体行为


识别任务的平均融合方式作为结果序列的融合方法 

。
０３．
 〇．
ｉ  ０１０．．５
０２．
 ０２． ０．１ ０．５  ｌ
 ＞ ０．２ ０．
１３ ０．
１ ０．５７


０１．

 
Ｃ
Ｍ ０．１
 ｜
〇７．
图２．
１４平均法融合示意图


Ｆｇ２ｉ．．１４  Ｍｅａｎ  ｍｅｔｈｏｄ  ｆｕｓｉｏｎｄａｇｒａｍ

 ｉ
０３．
０１．
０．
１ ０．５
０２．
 ０２．
０．１ ０．
５ ｌ  ＞ ０．３ ０．２ ０．１ ０．


７
０１．

 〇ｌ．
 ０１
． ０．７
图２．１５最大值融合示意图


Ｆｇ２ｉ．．１５ Ｍａｘｉｍｕｍ  ｆｕｓｏｎ  ｄ
ｉｉａｇｒａｍ


网络输入的帧数和段数对模型本身有着决定性的影响，
本文通过对比交叉实验， 

选
择最佳的帧数和段数的组合。由于硬件条件限制，
本文在通用的３Ｄ卷积神经网络基础


上将卷积层设置为
，８层池化层数和全连接层数保持不变根据输入序列的帧数不同
，。 

，
相应改变池化层的参数 

。
在下列实验中，
本文选择了几组在对比试验中性能效果较好的实验结果作为参考 

。
本次帧数和段数参数选择的对比实验，是在相同的Ｄｒ
ｏｐｏｕｔ值、相同的正则化方式、 

使
用相同的优化方法情况下，对两个超参数两两交叉进行对比实验，实验结果如表２２．



所
示，对比实验中分别使用两种融合方式：
平均融合和最大值融合方式，
不仅考虑到段数


２２
－ 

－
东北大学碩士学位论文第２章视频行为特征的分段提取



和帧数对模型影响，而且考虑了不同的分段数对两种融合方法的作用效果，
并使用提前


停止方式得到各参数组合最佳模型 

：
表２２
．
不同超参组合的模型结果对比（准确率，％）


Ｔａｂｌｅ  ２２  Ｃｏｍｐａｒ
．ｉｓｏｎ  ｏｆｍｏｄｅｌ  ｒｅｓｕｌｔｓ  ｏｆｄｉｆｆｅｒｅｎｔ  ｓｕｐｅｒｐａｒａｍｅｔｅｒ  ｃｏｍｂｉｎａｔｉｏｎｓ（ａｃｃｕｒａｃｙ
 
－
％ 

）
帧数 段数 平均融合  最大值融合


８  ６ ７８３．  ７８５

 ．
８  ９  ８１．４ ８０６

 ．
８  １２ ７９８ ７７３

 ．．
１６ ６ ８００．  ７９． 

７
１６ ９ ８０９．  ７９０

 ．
１６ １２ ７８０ ７８２

 ．．
２４ ６ ７７５ ７７５

 ．．
２４ ９  ７７９ ７６８

．．
２４ １２  ７６２ ７７０

 ．．
由上表得，当帧数为８，
段数为９时准确率效果最好。而且平均融合方式的效果在


多数组合中比最大值融合方式更好，
尤其是在段数较少的情况下，平均融合法相对于最


大值融合法提升效果更大。下面本文为了得到精确的参数值，对段数进行微调，

依旧是


在相同的Ｄｒｏｐｏｕｔ值、相同的正则化方法、使用相同的优化方法情况下，设定最佳帧数



为８，对段数进行微调，
其结果如下表２３．
所示 

：
表２．３不同段数的模型结果对比（准确率，％ 


）
Ｔａｂｌｅ  ２３  Ｃｏｍｐａｒ
．ｉｓｏｎｏｆ  ｍｏｄｅｌ ｒｅｓｕｌｔｓ  ｆｏｒ  ｄｉｆｆｅｒｅｎｔ  ｓｅｇｍｅｎｔｓ  （ａｃｃｕｒａｃｙ％ 

）
段数 平均融合 最大值融合


８  ８０９．  ８０． 

１
１０ ８２７ ８．１． 

１
１１  ８０５ ７８８
． 
 ．
通过以上实验可得，
段数越长，
最大值融合的方法效果下降；帧数为８情况下， 

平
均融合和最大值融合方法都能得到最好效果。由此可得，结果融合中使用平均融合方式



更适合本文的人体行为识别任务，而且，帧数为８、段数为１０，可以使得３Ｄ卷积神经



网络获得最佳的特征表示。
如下表２４
．
所示，
最佳帧数的值确定了３Ｄ卷积神经网络的


２３ 

－
－



各个层结构结构参数以及输入输出的尺寸其中各个段的网络模型结构完全致

一
、，， 

，
并且各段网络参数共享 

：
表２４．
分段３Ｄ卷积网络结构图参数


Ｔａｂｌｅ２．４  Ｓｅｇｍｅｎｔｅｄ  ３Ｄ  ｃｏｎｖｏｌｕｔｉｏｎ  ｎｅｔｗｏｒｋ  ｓｔｒｕｃｔｕｒｅ  ｃｈａｒｔｐａｒａｍｅｔｅｒｓ



网络层名 输入大小 滤波器大小 核大小 输出大小


＊＊
Ｄａｔａ ８
＊
１１２１１２ －  －
８＊１１２１１２
＊


３
＊
Ｃｏｎｖｌａ ８１１２
＊
１１２
＊
３  ６４ ３＊３＊３ ８＊１１２
＊
１１２
＊
６４


Ｐｏｏｌｌ ８＊１１２
＊
１１２
＊
６４ －
 １
＊
２
＊
２ ８
＊
５６
＊
５６
＊
６４


Ｃｏｎｖ２ａ  ８＊５６＊５６＊６４  １２８  ３＊３＊３  ８＊５６＊５６＊１２８


＊
Ｐｏｏ２ ８ｌ
＊
５６
＊
５６１２８ －
 ２＊２＊２ ４＊２８＊２８＊１２８


Ｃｏｎｖ３ａ  ４＊２８＊２８＊１２８ ２５６ ３
＊
３
＊
３  ４＊２８＊２８＊２５６


ｖ３ｂ  ４
＊
Ｃｏｘｉ
＊
２８
＊
２８
＊
２５６ ２５６ ３３
＊
３  ４＊２８＊２８＊２５６


Ｐｏｏｌ３  ４＊２８＊２８＊２５６  ２＊２＊２ ２＊－
１４
＊
１４
＊
２５６


＊＊＊＊
Ｃｏｎｖ４ａ  ２＊１４１４２５６ ５１２ ３３
＊
３ ２＊１４１４
＊
５１ 

２
Ｃｏｎｖ４ｂ  ２＊１４
＊
１４
＊
５１２ ５１２  ３＊３＊３ ２＊１４
＊
１４
＊
５１ 

２
Ｐｏｏ４ ２
＊
＊
ｌ１４
＊
１４５１２ －
 ２＊２＊２ １
＊
７
＊
７
＊
５１ 

２
＊＊＊＊
Ｃｏｎｖ５ａ  １７
＊
７
＊
５１２ ５１２  ３＊３＊３ １７７５１ 

２
Ｃｏｎｖ５ｂ  １
＊
７
＊
７
＊
５１２ ５１２  ３＊３＊３ １
＊
７
＊
７
＊
５１ 

２
Ｐｏｏ５ １
＊＊＊
ｌ７
＊
７５１２ －
 １２
＊
２ １
＊
４
＊
４
＊
５１ 

２
Ｆｃ６ 
＊＊
１４
＊
４５１２  ４０９６  ４０９６

 －
Ｆｃ７ ４０９６ ４０９６ －
 ４０９６


２３３
．．
结果分析


下面将本章的分段３Ｄ卷积神经网络模型与双流２Ｄ卷积神经网络模型和传统的３ 

Ｄ
卷积神经网络做对比。其中双流２Ｄ卷积神经网络中的的２Ｄ卷积神经网络为５层卷积



层、３层池化层和２层全连接层空间流和时间流网络的网络结构相同但是参数不共享， 


。
如下图所示空间流网络的输入从视频流中随机采样张图像时间流网络输入从



一
２．１６，，
视频流的光流图中随机采样张连续帧的光流信息两个网络结果使用平均融合合并

一
， 

，
得到双流网络的最终结果分段。３Ｄ卷积神经网络结构与传统的３Ｄ卷积网络结构相同 


，
２４
－


－


使用８层３Ｄ卷积层、５层３Ｄ池化层和２层全连接层。如图２．１７所示，传统的３Ｄ卷积



神经网络输入是在视频流中连续采样１６帧图像作为视频的时空信息 

：
＿
，



、
＿ ｗｍ  

鉍
：
图２ １６
．
空间流网络输入（左）和时间流网络输入（右 

）
Ｆ２６Ｓ ｓｔｒｅａｍ ｎｅｔｗｏｒｋ ｎｐｕｔ（ｍｎｅｔｗｏｒｋ

ｇｐａｔａｅｆｔａｎｄｔｍｅｓｔｒｅａｎ
ｐｕ
ｒ
ｇｈ
ｉ．．１ｉｌｉｌｉｉｔｉｔ
） （ 

）
－
Ｉ  

．
｜  ｜

 ＿
Ｉ
图２

．１７３Ｄ卷积神经网络输入




＾
Ｆｉ
ｇ．２．１７３Ｄ ｃｏｎｖｏｌｕｔｉ
ｏｎａ ｎｅｕ
ｌｒａｌ ｎｅｔｗｏｒｋ ｎｐｉ
ｕ 

ｔ
本文采用固定的输入和输出维度方式，
各个模型的激活函数均使用ＲｅＬＵ函数。


所
有模型都在大致相近的时间内达到神经网络稳定收敛状态，
并且模型训练时采用提前终


止的正则化方式，
保证模型达到最佳状态。不同的神经网络模型采用了相同的归
一
化方


式所有模型使用相同的梯度下降法和学习率
，，
并采用相同的正则化方法和正则化参数 

，
对比结果如下表２．５和图２．１８所示 

：
表２．５分段３ＤＣＮＮ与其他模型对比


Ｔａｂｌｅ２．５Ｓｅ
ｇｍｅｎｔｅｄ３ＤＣＮＮｃｏｍｐａｒｅｄ ｔｏｏｈｔｅｒ ｍｏｄｅｌ 

ｓ
性能指标 空间流网络 时间流网络 双流网络 ３ＤＣＮ１Ｍ 分段３ＤＣＮＮ


准确率（％  ６６）．８ ７１．５ ８１．６ ８０．３ ８２．


７
运行时间（ｈ） ２１．５ ３２．０  ２２－
．１ ２３． 

４
２５
－ 

－


准确率（％ 

）
８１６．
 ８０．
３  ８２７


Ｍ
空间流网络  时间流网络 双流网络  ３ＤＣＮＮ  分段
ｉｌ 

ｌ
３ＤＣＮＮ


图２．１８不同模型的对比结果


Ｆｇ２
ｉ．．１８ Ｃｏｍｐａｒｉｓｏｎｒｅｓｕｌｔｓ ｏｆｄｆｆｅｒｅｎｔ  ｍｏｄｅ
 ｉｌ 

ｓ
由以上数据可知，
分段３Ｄ卷积神经网络在人体行为识别任务上比２Ｄ卷积祌经网络


有更优异的表现分段，３Ｄ卷积网络充分考虑了完整视频动作信息，

并且与传统的３Ｄ 

卷
积神经网络随机采样部分视频帧相比，
有更好的准确率效果；
且各段参数共享可以并行


计算，所以相比于传统的３Ｄ卷积网络，
分段后的时间复杂度并没有明显的缺陷。以上


结果是在采用相同正则化系数、梯度学习率和Ｄｒｏｐｏｕｔ规则情况下，在相同数据集



ＵＣＦ上进行控制变量的结果其中双流网络与原文结果稍有不同但是大抵是 

致
一
１０１，，
的至于不同的原因是因为为了对比实验的条件致性双流网络和本章的分段 

Ｄ
一
，，，３
卷积网络都没有加入预训练模型 

。
从结果来看，在提取视频序列特征方面，３Ｄ卷积网络模型相对于２Ｄ卷积网络有更


好的结果。
在时间要求严格的情况下，
使用分段３Ｄ卷积网络的表现超过了双流网络的


表现。
然而，正如前述实验所知，由于３Ｄ卷积祌经网络只能输入固定序列长度，
而且


序列长度越多，训练参数成倍数增加，
使得模型训练时间复杂度大大增加，
甚至损失函


数不收敛。因此，
使用３Ｄ卷积神经网络处理人体行为识别任务在长时间的视频特征提


取中具有定局限性本文后续将利用循环神经网络的结构特点解决视频序列的长时间



一
依赖问题 

。
２４
．
小结


在本章节中，
本文从数学角度剖析了卷积运算原理和作用，
阐述了卷积神经网络和


传统神经网络在结构和信息传递上的区别。分析了２Ｄ卷积网络在序列图像中提取时间


２６
－ 

－


特征的原因和问题并且从结构上解释了
，
３Ｄ卷积神经网络与２Ｄ卷积神经网络的区别 

，
以及３Ｄ卷积网络的设计理念 

。
在传统的３Ｄ卷积网络的基础上，
本文将视频首先进行分段，其中各段之间的３Ｄ 

卷
积网络的参数共享，然后将每
一
段经过３Ｄ卷积神经网络得到特征向量，最后经过平均


融合的方法得到人体行为识别结果。
本章通过控制变量方法，得到了视频段数和视频帧


数的最佳参数，
并且与双流网络算法进行对比实验，
得出了分段的３Ｄ卷积神经网络在


视频信息特征提取上的优越性。为后两章网络模型的搭建奠定良好基础 


。
２７
－ 

－


２８
－ 

－
东北大学硕士学位论文 第３章各段行为特征的上下文关系学 

习
第３章各段行为特征的上下文关系学 


习
本章将通过数学推导的方式详细介绍循环神经网络的工作流程。接下来将从结构上


分析循环神经网络面临的问题，梯度消失现象产生的数学原因。随后介绍了循环神经网



络的种升级结构长短期记忆网络并仔细介绍长短期记忆神经网络的门结构最后


一
，
。
，
在长短时记忆网络的基础上利用３Ｄ卷积神经网络提取的视频特征作为输入，学习不同



时间的各个动作段的上下文关系，并利用ＵＣＦ１０１数据集和ＨＭＤＢ５１数据集进行对比



实验，
分析该算法的特点 

。
３．１循环神经网络


循环神经网络（ＲｅｃｕｒｒｅｎｔＮｅｕｒａＮｅ
 ｌ  ｔｗｏｒｋｓ，  ＲＮＮ）源自于物理学家Ｊ．Ｊ．Ｈｏｐｆ
ｉｅｌｄ 

教
授在年提单层反馈神经网络人们后来称这种反馈网络为霍普菲尔德


５Ｑ
出的
［］
１９８２，
（Ｈｏｐｆ
ｉｅｌｄ）神经网络。传统的神经网络无法在时间序列上建模，然而，
样本出现的顺序


对于自然语言处理、语音识别、人体行为识别等序列任务尤其重要。而循环神经网络对



￣
并生成出许多变种等
５２
序列问题表现的尤为突出如
５
ＧＲＵＬＳＴＭ
１
［１［Ｉ
，，
、 

。
３．１．１循环神经网络介绍


循环神经网络中的每个时间步也是由若干神经元组成如图所示神经元接



一
，３．１，
受输入Ｘ，通过权重ｗ的连接，
并将权重加权后的信号与神经元的阈值进行比较，通过


激活函数确定是否激活 

。
ｘ＾．
２ 


＾ ｈｘ
ｗｂ，
（ 

）
Ｘ
３  

－
＋１


’
图３．１单个神经元表达


Ｆ Ｓｎｇｅｎｅｕｒｏｎｅｘｅｓｓｏｎ


ｇ３
ｐｒ
ｉ．．１ｉｌｉ
如公式（３．１）所示，
单个神经元表达对应的表达式为 

：

Ｔ
＾Ｗ
３
ｆＷ／＋ｂ）１
ｈ，．

ｆ，
（
ｘ）  ＝ （ｘ）  ＝ （，
ｘ
， 
 （
．


）

１
＝


１
２９ 

－

习
其中／〇为激活函数，
提高网络的表达能力和泛化能力。
循环神经网络常用的激活函数


是ｓｉ
ｇｍｏｄｉ
激活函数和ｔａｎｈ激活函数。如式（３．２）所示，ｓｉ
ｇｍｏｉｄ激活函数表达式为 

：
／（
＾）－
—
＾ （
３－２）


和式（３．
３）所示，ｔａｎｈ激活函数表达式为 

：
／（
ｚ）  ＝  ｔａｎｈ（ｚ）
＝ －
ｌ
￣
＋ｅ
＾ 

＊
（
３．３


）
如图３．２所示，ｓｉ
ｇｍｏ
ｉｄ激活函数和ｔａｎｈ激活函数都有饱和区，但是作用域不同，


其
中，左图的ｓｉ
ｇｍｏｄｉ
激活函数映射到实数区间为（０，
１），而右图的ｔａｎｈ激活函数映射到


实数区间为（
－
１
，
１） 

。
，？  ｔａｎｔ＊



０ 
 
１
Ｕ
 ：
ＩＳ）  ＾






７
° ６
／


／


＾
ｙ 
 －
４  －
２
  ２ ｙ
４ 
－
瞧
１０

－
■

５ ５

ｉ
■

Ｊ

 
１



０

 
一
Ｕ１ 


－
图３．２ｓｉ
ｇｍｏｄｉ函数（左）和ｔａｎｈ函数（右 

）
Ｆｇ
ｉ．３．２Ｓｉｉｔ
ｆ
ｇｍｏｄ  ｆｕｎｃｔｏｎ  （ｅ）  ａｎｄ  ｔａｎｈ  ｕｎｃｔｏｎ  （ｒｇｈｔ）
ｉｆｌ


ｉｉ
由于ｓｉ
ｇｍｏｄｉ
激活函数和ｔａｎｈ激活函数的作用域的不同，
使得两种激活函数在循环


网络中的作用也不尽相同。由于ｓｉ
ｇｍｏｄｉ
的取值域符合门控的定义，常用于门控的激活


函数；
ｔａｎｈ激活函数关于原点对称，
符合绝大部分输入特征的原点对称性质，
并且零附


近的函数梯度大于ｓｉ
ｇｍｏ
ｉｄ激活函数，可以加速收敛速度，
常用于循环神经网络的隐藏


层输出的激活功能 

。
利用神经元组织和传统的有向无环计算图可以呈现出循环神经网络中的循环机制 

，
如图所示前时刻的输出用作后时刻的输入所有的时间步共享相同的参


一一
３３ １
－
．，ｔ ｔ，
数 

。
Ｓ＂＿Ｓ
Ｕ
尸
（））
Ｉ
广广ｌ 

）
图３３．
循环机制示意图


Ｆ３３Ｓｃｈｅｍａｔｃ  ｄａｒａｍ  ｏｆｈｅ  ｃｙｃｅ  ｍｅｃｈａｎｓ 

ｍ
ｇｇｔ
ｉ．
．ｉｉ  ｌｉ
考虑到外部输入Ｘ的驱动系统，
没有输出的循环网络，这种循环网络只能处理输入


Ｘ的信息，
并将其合并到经过时间序列的隐含层的输出中。如图３．４所示，
可以当作当


３０


－
－
东北大学硕士学位论文 第３章各段行为特征的上下文关系学习


前状态包含整个序列过去的所有状态其中黑色方块表示单个时间步的延迟每个时


一
，，
间节点与特定的时间和输入特征相关联 

。
＾
ｕｎｆ〇ｄｉ
  

Ｓ／

Ｊ
ｆＸｆ Ｘ（
ｔ
－
ｌ） ）（Ｘ（
ｔ
）
）ｆ Ｘ（
ｔ＋ｌ
）


Ｊ
图３．４带输入的循环机制


Ｆｇ
ｉ．３．４  Ｌｏｏｐ  ｍｅｃｈａｎｉｓｍｗｉｔｈ  ｎｐｕｔ
ｉ
如公式（３．４）表述上述循环结构 

：
ｈ
｛
ｔ
）
＝
ｆ｛
ｈ
（
ｔ
－
＼
）
，
ｘ
（
ｔ
）
＼
９
）  （
３．４）


其中，０表示网络参数，
／〇表示ｔａｎｈ激活函数，
表示当前隐藏层的输出，当前隐藏


层的输入为前
一
隐藏层输出和当前层的数据输入ｘ，且当前序列信息只与之前时



刻有关 

。
循环网络根据过去时间信息预测未来序列，通常要学会使用当前状态与前ｎ个状态



的相关性，
而没有必要保存所有输入序列的所有信息，仅仅保存能够表达当前隐藏层的


状态的序列部分信息即可 

。
３．１．２循环神经网络结构


与前章卷积网络中卷积核参数共享概念类似在循环神经网络中共享不同时间



一
，，
的参数。而循环网络的特殊之处，
可以把参数共享引入到时间序列中，
在整个循环神经


网络中递归计算，这是卷积神经网络和传统神经网络所无法替代的。通过在神经网络的



结构里引入循环的概念使得神经网络本身可以保持段时间的信息就像神经网络有



一
，，
了时间的记忆循环神经网络中非常重要的概念就是时刻每时刻都会有个状态



一一
。，
，
输出值和输入序列，
其中网络中间状态，也就是状态输出值会按照时间进行传递，
形成


循环网络 

。
如图３．５所示循环神经网络结构是指将输入
，ｘ映射到输出值〇的对应序列。其中 

，
〇（
ｔ
）为隐藏层的输出ｈ（
ｔ
）
经过线性变换后的输出，
再经过Ｓｏｆｔｍａｘ多分类器，
预测序列


结果其中每个时刻的隐含层的参数是共享的并且当前时刻只与之前的时刻信息



一
。，，
有关，和当前时刻之后的信息无关。通过最小化损失函数，
不断的训练网络，使得到的


循环祌经网络可以准确地预测视频行为所属的类别，达到分类的目的。相比于卷积神经



３ 
－ 

－
１


网络或者前馈神经网络。循环网络能够描述序列顺序信息，

充分学习上下文关系并得到


更好的效果 

。
（
Ｖ
＾）
 （＾
ｙ  Ｑｙ  ＾ｙ


（
Ｑ  ＾  ０ Ｑ Ｑ


（
Ｘ
） ｒＸ（
ｔ
－
ｌ）
Ｊ  （ Ｘ（
ｔ）
Ｊ  ＾
Ｘ（
ｔ＋ｌ
）


Ｊ
图３．５循环神经网络结构


Ｆｉ
ｇ．３．５ Ｃｙｃｌｉ
ｃｎｅｕｒａｌ ｎｅｔｗｏｒｋ ｓｔｒｕｃｔｕｒｅ


循环神经网络有着很重要的性质首先每时刻都有状态输出值隐藏单元之间


一
。，，
有循环连接其次只有个环路网络当前时刻的状态输出到下个时刻的隐藏单元之



一
；，，
间存在环路连接；最后，
隐藏单元之间存在循环连接，但循环网络读取整个序列后产生


单个输出。
将上述循环神经网络结构转述为公式（３．５） 

：
屮＝
Ｗ＂＋Ｗ＋ 

６
－？
，ＪＣ
〇
２ｌ    
） （） （ 
／ｚ７＝
ｔａｎｈａ／
（） （（））


〇｛
ｔ
）
＝
 ｖ
－
／ｚ
（
／
）
＋  ｃ  （ 

）
ｊ
） ’
二
仍声ｍａｘ０／
（）

 （（））


其中，
参数偏置向量ｂ和ｃ、
权重矩阵ｗ、ｕ和ｖ，
分别对应于输入到状态、状态到状态


和状态到输出的连接循环神经网络将个输入序列映射到固定长度的带有上下文信息


一
的输出序列 

。
３．１．３循环神经网络的前向传播


循环神经网络变种结构较多，虽然具体隐藏层的神经元之间的连接方式不尽相同 


，
但是基本原理基本相似。
本文以经典的ＲＮＮ结构为例，介绍循环神经网络的前向传播


和数学推导 

。
３２ 

－

习
由图３．５和公式（３．５）所得，其中损失函数使用常见的回归均方误差损失函数，



其
表达式为 

：
（
３－６）


将ＲＮＮ内部神经元结构展开，其中 

：
（１） ｘ（ｔ）表示在序列时刻时训练样本的输入ｔ 

；
（２） ｈ（ｔ）表示在序列时刻时的模型隐藏状态输出量ｔ 

；
（３） ０（
ｔ
）表示序列时刻ｔ时的模型输出，０（ｔ）只由当前状态量ｈ（ｔ）决定 

；
（４）
ｙ（ｔ）表示序列时刻ｔ时模型训练样本的真实标签 

；
（５） Ｌ（ｔ）表示序列时刻ｔ时的损失函数 

；
由此可得循环神经网络的前向传播算法 

：
对于任意序列时刻ｔ，隐藏层状态值ｈ（
ｔ
）可由ｘ（
ｔ
）和ｈ（
ｔ
－
１
）得到 

：

＊＊
＋ｘ（ｔ＋ｂ
ｆ＾ｗ
＝
ｈｈｕ７）
－
ｔｔ＼３．
｛）（ 

） 
（）＾
其中为ＲＮＮ的激活函数般为激活函数
一
ｆ
（〇，ｔａｎｈ 

。
参考公式（３．６）的循环神经网络的结构表达式，序列时刻ｔ的模型输出０（〇表达式


求解为 

：
＊
〇
（
／
）
＝
 ｖ／ｚ
（
ｆ
）
＋ｃ
 （
３．
８）


在序列时刻ｔ时得到的预测输出为 

：
ｙｆ
｛）
＝
 ｓｏ
ｆｍｓｘ〇
ｉ．
｛｛
ｔ
）＾  （
３．９）


３．１．４循环神经网络的后向传播


在ＲＮＮ结构和前向传播算法的基础上，可以推导出ＲＮＮ反向传播算法的流程。



循
环神经网络的反向传播算法的思想与深度神经网络的反向传播算法思路致是通过

一 

一
轮轮的梯度下降算法迭代，
获取合适的ＲＮＮ模型参数值，
即ｕ、ｗ、ｖ、ｂ、ｃ，因为它是


基于时间的反向传播，所以循环神经网络的反向传播也称为ＢＰＴＴ。这里的ＢＰＴＴ和传


统深度神经网络也有很大不同，这里所有隐藏层的训练参数都是时间上共享的，

反向传


播中我们更新的是相同的参数 

。
由上述公式（３．５）和公式（３．６）所得，
输出层的ｖ和ｃ的梯度计算较为简单 

：
Ｓ〇
ＳＬ
＝
＾
ＳＬ｛
ｔ
）
＝  ｛
ｔ
）
＝
 ／
＿

ｙ／
）  （


Ｖ３１０）
 Ｓｃ  Ｓｃ 
．
（）（） 

Ｘ
ｔ

ＳｃＴ
３３
－ 

－

习
循环神经网络的隐藏层需要实现参数共享，梯度计算相对复杂。从ＲＮＮ的模型可



以看出反向传播中某序列时刻的梯度变化量由当前时刻的状态输出的梯度变化



一
，，
ｔ
量和后时刻的梯度变化量两部分计算得到对于隐藏层权重矩阵在某序列时刻

一
ｗ
一
。 

ｔ
的梯度变化量和时刻之前的所有时刻有关需要反向传播步步计算因此定义序



一
ｔ，。，
列时刻ｔ的隐藏状态梯度为 

：
Ｔ
Ｃ
＂
（
ｒ
） 
＝
斗
卿 

）
（
３－１２


）
利用ＤＮＮ的反向传播和链式法则计算ａ（

ｔ ＋１）到ａ（
ｔ
）的递推公式，
其中ｄｉａｇ（〇为对角矩


阵构造函数 

：
 ８Ｌ
Ｓ〇（
ｔ
）  ５Ｌ  Ｓ〇｛
ｔ


）
Ｓ〇   

？
＾＾（
（
ｔ
）  Ｓｈ
（
ｔ
）  Ｓ〇 Ｓ（
ｔ
）
ｈ
（
ｔ
）
Ｔ２
Ｖｄｉａｇ｛＼＋ 
■
〇＝ ■ －
＋  ■
ａ＋－
ｈ３４）
ｙｙｗ
？   ｔｔ  ｔ  ＼  ｔ １．１
｛｛）） （（（））（ 

（） （）  ））
对于序列时刻ｔ
＝
Ｔ，
即最终时刻，ａ（Ｔ）后没有序列连接，
因此有 

：
冲
為識 
＝？
＝
３．１５
）（ 

）
下面依次计算ｗ、ｕ、ｂ的偏导数 


：
ｄｗ ＾５ｈ｛
ｔ
） 
＾ｄｗ

＝
 Ｚ＾
／
＝


１
１
－
（Ｋｔ ＋  ！
））
２
）
－
 ＾
（０ 
？
 （Ｋ｛ ＋  ｌ
）
Ｙ  （
３．１６）



）２ｒ
—
＝＇
＝
ｄｉａｇ（ｌ－
ｈｔ ＋  ｌ
－
＜ｊｔ
－
ｈｔ＋ｌ３１７）
ｊ
（
．
（）））（（））（ 

各汾
（）
（
，
）

 ＾
＾誓 ” 冲
２
＝＝
＿
？
？
３８
ｆ
．１
））（ 

）

 １ 
客
以上总结了  ＲＮＮ的反向传播算法，
后续循环神经网络改进结构中与ＲＮＮ结构有所


不同但是反向传播原理基本致
一
，


。
３．１．５循环神经网络中的梯度消失


虽然ＲＮＮ理论上可以很优雅地解决序列数据的训练但是它也有像ＤＮＮ样有梯



—
， 
度消失的问题，当序列越长，问题越严重。
循环神经网络的求解采用ＢＰＴＴ算法实现 

，
然而使用ＢＰＴＴ算法学习的循环神经网络并不能成功捕捉到长距离的依赖关系由。ＢＰＴＴ


的链式法则和公式可知序列时刻的隐藏层状态量ａ对第时刻的隐藏层状


一
（３５．），ｔ
（
ｔ
）
态量ａ（
ｌ
）的偏导 

：
Ｍ０ 坤坤 
－
）〇 

．
＾ｎ ｉｇ
３＾
（
ｌ
）  ｄａ｛
ｔ
－
＼
） 
ｄａ（ｔ
－
２
）  ３ａ
（
ｌ


）
３４
－ 

－

习
将 ⑷ ？０代入上式可得序列时刻的隐藏层状态量ａ对前



一
／ｊ
＝
 ｔａｎｈ（３．１９），ｔ
（
ｔ
）
时刻的隐藏层状态量ａ（
ｔ
－
１
）的偏导 

：
载誠＋斗＂
＿
“
４％
＝ ■
＝
）］


，
１１  ／  ＼ １Ｉｎ ｆ  

ｎ
ａ
＇
ｎｈ  ａ
＇
ｗｎｈｗｔａ
－
＊－－
ｔａ
－
ｌ／

／ｌ
（）（ 

）
，  ，  ，  （
３．２０）





＇
＝
 

－

｜
，
ｎｌ  ／  ＼ ｎｎ ／１  ｎ ＼


＇
ｗａｎｈｌａｗａｎｈ ａ
－＊＊＊－
ｔ／

ｔ／ｌｌ
（）（ 

）
其中ｎ为隐藏层单元的个数，对应的ｎ＊ｎ矩阵，称为雅各比矩阵 

。
９ａ（ｔ
—
１）


由于预测的误差是沿着神经网络的每层反向传播的因此当雅各比矩阵的最大特


一
征值大于１时随着距离输出越来越远每层的梯度大小会呈指数增长导致梯度爆炸
，，， 

；
反之，若雅各比矩阵的最大特征值小于１，梯度的大小会呈指数缩小，产生梯度消失 


。
对于般的前馈网络梯度消失意味着无法通过加深网络层次来改善神经网络的预测效


一
果，因为无论如何加深网络，只有靠近输出的若干层才真正起到学习作用。这就使得循



环神经网络模型很难学习到输入序列中的长距离依赖关系 

。
对于梯度爆炸问题可以通过梯度裁剪来缓解，当梯度的范式表达大于给定值时，


对
梯度进行等比收缩。对于梯度消失问题相对较为复杂，由于激活函数本身的梯度饱和问



题，
使得梯度消失问题需要从模型本身进行改进。对于前馈网络来说，可以通过残差学


习的方法缓解梯度消失现象，从而使我们能够学习到更深层网络的特征表达。对于循环



神经网络来说，有很多改进的模型来缓解梯度消失的问题 

。
３２
．基于Ｂｉ
－
ＬＳＴＭ的上下文关系学习


长短期记忆神经网络（Ｌｏｎｇ  Ｓｈｏｒｔ Ｔｅｒｍ  Ｍｅｍｏｒｙ，
ＬＳＴＭ）是循环神经网络中最知名


的成功的扩展由于上节提到的循环神经网络中出现的梯度消失和梯度爆炸的问题

一
。 

，
学习能力有限在实际应用中的效果往往达不到预期效果针对＿存在的这些
，
。问题 

，
ＬＳＴＭ做了针对性的改进，并获得很好的效果。ＬＳＴＭ可以对有价值的信息进行长期记



忆，
从而有选择的学习前面序列信息，减少循环神经网络的学习难度。
如图３．６所示 

，
本系统利用第２章３Ｄ卷积神经网络提取视频特征，然后将各段动作特征向量使用双向



３５


－
－

习
ＬＳＴＭ （Ｂｉ
－
ＬＳＴＭ）学习各段动作特征前后文关系，
输出层还原特征序列，
最后经过平


均融合方法得到行为特征 

。
ＢｉＬＳＴＭ训练
？
ｉａ？
（ （）

—
？各连续帧特征提取
＾
 

？行为识别结果分类

？准确率统计


图３．６基于Ｂｉ
－
ＬＳＴＭ上下文关系模型框架图


Ｆｇｉ．
３．６  Ｂａｓｅｄ  ｏｎ  Ｂｉ
－
ＬＳＴＭｃｏｎｔｅｘｔｍｏｄｅ  ｌ  ｄａｒａｍ
ｉ
ｇ 

３．２．１ ＬＳＴＭ的结构


由于＿存在着不能长期记忆的问题即梯度消失现象学者们针对这问题构



一
，。
造出长短时记忆神经网络ＬＳＴＭ，
这种网络可以学习序列数据中长期依赖关系，用来缓


解ＲＮＮ的梯度消失问题 

。
大多数的＿神经网络都是拥有复用的神经网络模块，常规的ＲＮＮ复用的模块有



着非常简单的结构如图所示个层激活函数的神经单元

一
。３．７，ｔａｎｈ 

。
＠ Ｑ


ｔ  ｔ  ｔ
＾ —
 ｒ＿

４
＾ Ｗ



ｊ、 
Ｊ   

Ｊ
＠ ０ ？


图３．７标准ＲＮＮ结构中复用的模块


Ｆｉ
ｇ
．３．７ Ｍｏｄｕｅｓ ｍｕｌｌｔｉ
ｐ
ｌｅｘｅｄ ｎａｓｔａｎｄａｒｄＲ
ｉＮＮ  ｓｔｒｕｃｔｕｒｅ


ＬＳＴＭ也是基于这样的基础，
但是复用的模块结构却不尽相同。与传统的＿中的


简单ｔａｎｈ激活函数的神经单元相比。
如图３．８所示，ＬＳＴＭ的祌经单元拥有四个神经单


元结构，
他们之间存在着相互作用的逻辑关系 

。
３６


－
－


？ ？ ？


／ 
￣￣＊
 Ｓ
Ｙｔ  
 ＾

 ｒ ＼
＾


ｔ
ｖ 
Ａ
 ｉＭＬ ／ｘ  
Ｊ  
Ａ
 

ｙ


．
 １１ 

１
０  ＠（
ｘ
ｊ
）


１
图３．８标准ＬＳＴＭ结构中复用的模块


Ｆｇ３８Ｍｕ
ｉ．．ｌｔｉ
ｐｅｘｅ
ｌｄ  ｍｏｄｕｅｓ  ｎ  ａ  ｓｔａｎｄａｒｄ  ＬＳＴ
ｌｉＭｓｔｒｕｃｔｕｒｅ


由上图３．８所示，ＬＳＴＭ的关键在于ｃｅｌｌ

单元，水平的状态传递贯穿了整个结构的


顶部通过单元中间的三个门结构控制信息的删除和更新每个ＬＳＴＭ包含三个


一
。ｃｅｌｌ，
门结构，
分别是输入门、遗忘门和输出门。和传统的循环网络相比，ＬＳＴＭ仍然是基于


输入ｘ和前时刻隐含层输出来计算当前时刻隐含层输出心只不过是对内部的结



一
／ｌ
ｔｔｄ，
构进行了更加精心的设计加入了输入门遗忘门以及输出门三个门和个内部记忆单



一
，、
元输入门控制当前计算的新状态以及更新到记忆单元中的程度；遗忘门控制前一


步
记忆单元中的信息有多大程度被遗忘；输出门控制当前输出有多大程度取决于当前的记



忆单元 

。
ＬＳＴＭ中神经单元的第步就是判断信息流之中的哪部分信息是需要丢弃的而这



一
过程则需要遗忘门来完成所示遗忘门根据＆和ｈ的状态利用

” “ ”
如图 

一
“
。３．９，
ｔ
＿
；！
，
函数把单元状态中的每个数字映射到和的区间上则代表完全遗



一
ｓｉ
ｇｍｏｄｉ，０１，０
忘，１
代表完全保留，
并且当输入较大或者较小时，
输出会非常接近１或者０，
从而保


证门开或者门关 

。
图３．９遗忘门结构


Ｆｇ３９  Ｆｏｒｇｏｔｅｎ  ｇａｔｅ  ｓｔｒｕｃｔｕ
ｉ．．ｒ 

ｅ
当网络接受新的信息时遗忘门可以帮助实现对过去信息的过滤遗忘门对应的

“ ”
，
。 

表达式如下，其中ａ（
＿
）表示门控函数，即ｓｉ
ｇｍｏｄｉ
激活函数，
■
和…分别表示遗忘门的


权重矩阵和偏置 

：
３．２１
（ 

）
３７


－
－
东北大学硕士学位论文第３章各段行为特征的上下文关系学 

习

下面是决定让多少新的信息加入到单元中这部分由两个过程组成如图

一
ｃｅｌｌ，。３．１ 

０
所示首先激活函数建立的输入门决定要留下哪些信息
”
同时
“
，，
利用ｓｉ
ｇｍｏｄｉ，，
由ｔａｎｈ


激活函数的神经单元生成需要添加进ｃｅｌｌ

单元的新的单元状态值Ｃｔ
；然后，将两部分融


合，形成新的单元状态 

。
ｉ
ｈ￣
ｉ ＾


Ｘ｜
Ｉ


图３．１０输入门结构


Ｆｇｉ．３．１０ ｎＩ
ｐｕｔｇａｔｅ  ｓｔｒｕｃｔｕｒｅ



输入门对应的表达式如下其中和匕分别表不输入门的权重矩阵和偏置而Ｃ
“ ”
，，，


ｔ
表示ｃｅｌｌ
单元的状态值 

：
＝
ｆＴｗ
Ｖ＋
－
ｉ
＾＾
．
，  （
，
［１
３
］ 


）
Ｃ ＝
ｔａｎｈ
（
ｗ
ｃ
－
［
／２
／
＿
１
，
ｘ
Ｊ 
＋  Ｚ？
￡
．
）  （
３．２２


）
最后我们决定输出单元的哪些值首先同样是利用激活函数建立输



“
ｃｅｌｌｓ
ｇｍｏｄ
。，ｉｉ
其次使用激活函数非线性表达单元的状态值Ｃ最后将激活后的状


”
出门，，ｔａｎｈｃｅｌｌｔ
，
态值和输出门融合得到隐藏层的状态输出值

“ ”
， 

。
“
 ＿
 辛  １


＾
图３．］］输出门结构


Ｆｇ３ｉ．．１１  Ｏｕｔ
ｐ
ｕｔ  ｇａｔｅ  ｓｔｒｕｃｔｕｒｅ


在行为识别例子中，
输出门可以控制输出，由于本文用到的神经网络模型中存储的


是行为特征而最终的输出却是个类别概率这就需要这种门的结构用来控制输出



一
，，，
层的输入。
输出门的表达式如下，
其中，
＆表示最后的隐藏层的输出 

：
３２３
（ 

）
ｈ
ｔ 
—
 ｏ
ｔ
－
ｔａｎｈ
 （
Ｃ；


）
３８
－ 

－
东北大学硕士学位论文第３章各段行为特征的上下文关系学习



由上述ＬＳＴＭ各部分结构可得在个训练好的网络中当输入中的序列没有重要


一
，，
的遗忘门的值接近于输入门的值接近于此时过去的记忆会被



”
信息时
“ ” “
，ＬＳＴＭ１，  ０，
保存，从而实现长期记忆功能；当重要信息出现在输入的序列中时，ＬＳＴＭ应当把其存



入记忆中此时输入门的值接近于当重要信息出现在输入的序列中且该信息意



“ ”
，１；
，
输入门的值依旧接近于而遗忘门的值接近于 

如
“ ”
味着之前的记忆不再重要时
“ ”
，１，０，
此新的信息保存下来，旧的信息得到裁除。经过这样的结构设计，整个神经网络更容易



学习到序列之间的长期依赖 

。
３．２２Ｂｉ
．
－
ＬＳＴＭ的建立


长短时记忆神经网络的建立有很多方式，并且不同的变种结构在不同的场景应用都


取得了不错的效果在本系统中Ｄ卷积神经网络提取的维特征向量前时刻隐



一一
。，３、
藏层输出和前
一
时刻隐藏层状态量Ｃ作为序列模型ｔ

ＬＳＴＭ输入，
其中ｈ和ｃ都使用


零向量初始化 

。
无论是然语言处理中的机器翻译还是人体行为识别任务每时刻的类别概率都



一
自，
是依赖于整体序列。这就意味着，在序列时刻ｔ时，不仅依赖于之前的行为状态，还依



赖于之后的行为状态。然而，
传统的ＬＳＴＭ在时序上处理序列，往往忽略了未来的上下


文信息种原始的改进是加入时间帧的未来信息起预测当前时刻输出当值比



一一
。ｎ，ｎ
较大时，可以捕获未来的有用信息，但是ｎ过大时，模型效果将会很差。因为网络模型



将参数集中在输入信息上，
导致对于不同输入信息的预测向量联合的拟合能力下降。 

所
以，这种改进不适合深度网络的使用 

。
采用双向ＬＳＴＭ  （ＢｉｄｉｒｅｃｔｉｏｎａｌＬＳＴＭ  ，Ｂｉ
－
ＬＳＴＭ）的连接结构可以考虑到双向信息


序列处理，且两个网络并行计算，
相互不受影响。相比于在输入层加入未来信息的改进


方法，Ｂｉ
－
ＬＳＴＭ有更好的拟合效果，且适用于长时序列。Ｂｉ
－
ＬＳＴＭ相对于ＬＳＴＭ的主


要不同是训练前向和后向两个ＬＳＴＭ网络而且两个网络都分别连接个输出层这个


一
，，
结构提供给输出层输入序列中每个时刻的完整的过去和未来的上下文信息
一


。
对于连续帧来说，
每
一
个视频分段都表示着
一
个连续动作的不同动作片段。因此 

，
每个动作片段都有个自己的时间戳这就意味着每个动作片段是在每个时间



一一
一一
，，
时刻网络模型处理的最小单元。由此可得，Ｂｉ
－
ＬＳＴＭ网络前后向学习的特征适合人体行


为识别任务 

。
３９
－ 

－

习
如图该结构采用两个ＬＳＴＭ网络并行方式前个ＬＳＴＭ由前向后正序处



一
３．１２，，
理后个ＬＳＴＭ由后向前倒序处理即序列时刻得到的结果可以代表前向ＬＳＴＭ 


和
一
，，ｔ
后向ＬＳＴＭ共同作用的结果 

。
〇ｕｔｐｕｔＬａｙｅｒ
 Ｚ Ｑ（ｌ 

ｔ
＾＾  
ｊａ


Ｈｄｄｅｎ  Ｌａｙｅｒ  ＶＶ；
ｉ


ＶＪ  Ｖ５ Ｖ５


 ＼＾  ＼
Ｉｎｐｕｔ Ｌａｙｅｒ


…
＾）
）
＿
图３．］２Ｂｉ
－
ＬＳＴＭ模型示意图


Ｆｉ
ｇ．３．１２Ｂｉ
－
ＬＳＴＭｍｏｄｅｌ ｄｉａｇｒａｍ


在特征提取层次上每小段视频代表着不同时刻的动作部分每个序列模型的



一一
，，
输入表示相应动作部分的特征向量这些输入数据经过个前向ＬＳＴＭ的传递过程和

一 

一
个反向ＬＳＴＭ的传递过程，
分别对文本进行由前向后和由后向前的处理。
输出层接受这


两个相反方向的训练结果作为输入进步整合整段视频动作的特征拟合过程并且把



一
，，
最终结果输入到神经网络模型的Ｓｏｆ
ｔｍａｘ分类器中 

。
３２３
．．
层级Ｄｒｏｐｏｕｔ算法


是指在深度学习的训练中具有定概率的神经元节点的随机临时丢弃

“ ”
Ｄｒｏｐｏｕ
一
ｔ， 

。
相当于说，Ｄｒｏｐｏｕｔ对每份小批量训练数据起作用，由于随机丢弃部分神经元的机制 


，
相当于每次迭代都在个整体模型中训练不同的子模型相比于Ｂａｇｇ方法Ｄｒｏｐｏｕ

一
。ｉｎｇ， 

ｔ
被认为是种实用的大规模深度神经网络的模型集成算法能够实现指数级数量神经网



一
络的训练与评测 

。
具体实现中某个神经元节点的激活值需要以概率ｐ被丢弃保留下来的
“ ”
Ｄｒｏｐｏｕｔ，， 

神经元节点值，被同概率放大，
如图３．１３所示。对于包含Ｎ个神经元节点的网络， 

可
Ｗ
以将其视为Ｄｒ
ｏｐｏｕ作用下的２个模型的集成ｔ。这些模型是原始网络的子网络，
共享部


分权值，
并且具有相同的网络层数，重要的是，模型整体的参数数目不变，因此简化了


运算 

。
４０
－


－

习
图３．１３ Ｄｒｏｐｏｕｔ不意 

图
Ｆｉ
ｇ．３．１３ Ｄｒｏｐｏｕｔｓｃｈｅｍａｔｃ

 ｉ
对于任意的神经元每次训练都和组随机挑选的不同的神经元集合共同进行优化

一
， 

，
可以减弱全体神经元之间的联合适应性，
降低过度拟合风险，增强泛化能力。但是在序


列任务领域则不尽然在这领域Ｄｒｏｐｏｕｔ算法仍然是关键的正则化方法近年来 


些
一一
，。
比较成功的改进Ｄｒｏｐｏｕｔ
算法被提了出来，包括自适应舍弃元和循环舍弃元等等，
但是


这些改进Ｄｒ
ｏｐｏｕｔ
算法都不能很好的应用于人体行为识别和自然语言处理等序列模型领


域这是因为在时间的影响下由于
，，Ｄｒｏｐｏｕｔ
舍弃的单元参与循环神经网络的循环链接 

，
在ＲＮＮ和ＬＳＴＭ的聚合作用下，
序列信息会随着循环步的进行逐渐丢失。由此产生了


种解决方法即层级Ｄｒｏｐｏｕ算法该算法的核心思想是Ｄｒｏｐｏｕ部分设置在网络的



一
，ｔ，
ｔ
非循环部分这样做有两个好处第可以有效避免序列噪声随着时间序列逐步增大的


一
。，
问题，
第二，可以使得Ｄｒｏｐｏｕｔ造成的信息损失与时间序列长度无关，只与网络层数有


关 

。
循环神经网络中常使用三种Ｄｒｏｐｏｕｔ方法：
传统Ｄｒｏｐｏｕｔ方式、
循环Ｄｒｏｐｏｕｔ方式和


层级Ｄｒｏｐｏｕｔ方式。其中，
如图３．１４所示，
传统的Ｄｒｏｐｏｕｔ即在Ｂｉ
－
ＬＳＴＭ的输入层前


和输出层后加入Ｄｒｏｐｏｕｔ操作；如图３，
１５所示，
循环Ｄｒｏｐｏｕｔ是指在每个ＬＳＴＭ的隐含


层的输出后加入Ｄｒｏｐｏｕ操作然后作为下个隐含层的输入如图所示层级



一
ｔ，；３．１６，
Ｄｒｏｐｏｕ是指在每层的ＬＳＴＭ输出层后加入Ｄｒｏｐｏｕ操作然后作为网络输出层的输



一
ｔｔ，
入 

。
Ｙ〇４ ＹＶ９

ｌ


｜
｜

Ｄｒｏｐｏｕｔ

Ｌ
ｊ
 
Ｍ
 

ｆ

圍
＾ ？？？
— ＇



］


１
ｘｏ ＸＩ  Ｘ９
图３．１４循环Ｄｒｏｐｏｕｔ方法


Ｆｇ３ｉ．．１４Ｌｏｏ
ｐ
ｉｎ
ｇ
Ｄｒｏｐｏｕｔ ｍｅｔｈｏｄ


４ 
－ 

－
１

习
ｎ


ｒｕ

）
：
ｔ
模型
ｉ
ｌＳｔＭ
 １｜  ｜
ｌｉ＾ｌ


５
Ｃｒ
Ｉ！  ：
！  

ｍ
Ｉｉ
ＶＩＶ 

ｉ
图３．１５传统Ｄｒｏｐｏｕｔ方法


Ｆｉ
ｇ．３．１５Ｔｒａｄｉｔｉｏｎａｌ  Ｄｒｏｐｏｕｔ ｍｅｔｈｏｄ


Ｉ  层级Ｄｒｏｐｏｕｔ和多层ＬＳＴＭ模型 

｜



ｉ ？ ？ ？ 

ｉ
？ ｉ ？ ？ ？



識 ＿ 
？？？ ？
！ 

！
图３．１６层级Ｄｒｏｐｏｕｔ方法


Ｆ３６Ｈｅｒａｒｃｈｃａ  Ｄｒｏｐｏｕｔ  ｍｅｔｈｏｄ


ｉ
ｇ．．１ｉｉｌ
３３
．Ｂｉ
－
ＬＳＴＭ效果分析


人体行为识别任务属于序列问题，
当前时刻的输出结果受到前后时刻特征的影响 

。
如图３．１７所示，
本章首先将ＵＣＦ１０１的１０１
种类别标签转化为０到１００之间的数字编


码，
然后使用３Ｄ卷积神经网络在第五层池化层提取４ ＊４特征图后，
将特征图加权融合


得到维特征向量最后利用ＢＬＳＴＭ学习序列上下文关系最小化损失函数进

一 

一
，ｉ，，
步提高准确率。之所以不使用全连接层向量，因为高维度的计算问题和全连接层重复信


息较多，
所以使用特征图平均融合的方式 

。
４２
－


－

习
连续帧图片输入 ４＊４＊５１２＃ｇＴ图输出 

｜
： 

Ｉ

 Ｉ
Ｗ
 國
＼
ｉ


１


丨
丨 卜＇
＇
丨
门
ｎ ，


；
ｉ   ５ ３ Ｍ ？ ＊
￣
＾
Ｉ 

上
ｘｒ   ｍ
￣￣￣
 厂＂！
ｉ ｉ
 □  Ｘ    ■ 


！
ｉ
５
？  Ｉ
，－
．
 ／
！ 

！
！  ！

 （ —  —
１
｜


？

７
？
 Ｚ｜
／  ｉｉＮｋ
＇
 

！
 ／  ＿
？

ｉ
ｉ
；；
ｒ 


！
！ ％    ｍ！
｜




｜

 

＊
！

４＊４＊５１２特征图输出
 ＢＬＳＴＭＷ络
－ — 
ｒ，ｉ
 
 
—
 
ｉｉ？ｉｈ特征图向量Ｉ 

１
｜
ｉ
平均融合Ｉ  

ｉ
 ０ 

＾
Ｓｏｆｔｍａｘ＞ｇ
￣￣
？Ｉ

＾
ｉ
丨 
Ｂ｜
，
ｌ
＂！
Ｆｉ 

ｉ
！  
？ ？
；
１  ？ ＇
；
 ｉ？ ？
 ） ？
ｔ Ｉ


：
  ／   
？ ？
？

丨
｜
？
．
ｉ
：！丨
，；


；
  ？ ，
￣
  
  ０
１
Ｉ
００２２

！／！
１．
丨＃
千
，


｜
＿  
＇
＾



ｊ  ｉ
｜ 釅 ｌ」彳
＿：  

」
图３．１７ Ｃ３Ｄ＋Ｂｉ
－
ＬＳＴＭ实验路线图


Ｆｉ
ｇ．３．１７ Ｃ３Ｄ＋Ｂｉ
－
ＬＳＴＭｅｘｐｅｒｍｅｎａｉｔｌ ｒｏａｄｍａｐ


本章系统模型训练数据集使用ＵＣＦ１０１数据集，

因为可以使用第２章３Ｄ卷积网络


训练得到的模型参数，
作为本章系统的编码层部分的参数初始化，
提高模型收敛速度 

。
本章系统模型中的ＬＳＴＭ部分的网络层对模型效果有着重要影响，

本文首先需要确


定ＬＳＴＭ的网络层数。为了确定层数大小，对比实验中使用３ＤＣＮＮ＋ＬＳＴＭ模型作为测



试框架，
其中３Ｄ卷积神经网络Ｄｒｏｐｏｕｔ率为０．５， ＬＳＴＭ不使用Ｄｒｏｐｏｕｔ。对比实验使


用相同的训练方式和参数ＬＳＴＭ的第层隐含层输入为零初始化使用验证集提前停



一
，，
止的方式得到最优模型，
学习率使用离散下降的方式减少震荡，
在网络梯度下降优化方


４３
－ 

－

习
法和正则化方法以及正则化系数相同的情况下，
如表３．１所示，
得到ＬＳＴＭ为各个层数


的准确率结果 

：
表３．１不同层数对准确率的影响


Ｔａｂｌｅ３．１  Ｔｈｅ  ｅｆｆｅｃｔ  ｏｆｄｆｆｅｒｅｎｔ  ａｙｅｒｓ  ｏｎ  ａｃｃｕｒａｃ
 ｉｌ


ｙ
层数 １２  ３ ４５ 

６
准确率（％ ８３）．６ ８１．３ ８５．９  ８６ ８１．４ ７９８

 ．
验证集 ｌｏｓｓ ２１．４３ ２７．６１  １９７０．  １９７０． ２７．６０ ３２．９ 


１
运行时间（ｈ）  ２４．２ ２５８． ２７．０ ２９．３ ３３．０ ３７． 


６
从表３．１中可以看出，
深层次的ＬＳＴＭ对于人体行为识别任务没有太多的提升，


反
而会变得更差出现过拟合现象，交叉验证的代价函数变得更大。此外，

随着网络层数的


加深，
算法达到收敛的时间也不断增大，
综合以上考虑，选择三层ＬＳＴＭ对模型综合的


效果更好 

。
神经网络的层数确定以后，
如表３．２所示，
首先验证Ｂｉ
－
ＬＳＴＭ相对于ＬＳＴＭ的效果


如何，
本文中使用ＵＣＦ１０１
和ＨＭＤＢ５１共同测试两种模型性能。该对比试验采用相同


的输入特征维度和输出神经元维度，使用相同的梯度下降法和相同的正则化方法，

并使


用相同的归化方式
一


。
表３．２ ＬＳＴＭ和Ｂｉ
－
ＬＳＴＭ效果对比（准确率，％ 

）
Ｔａｂｌｅ３．２  ＬＳＴＭ  ａｎｄ  Ｂｉ
－
ＬＳＴＭｒｅｓｕｌｔ ｃｏｍ
ｐａｒｉｓｏｎ（ａｃｃｕｒａｃｙ％）


数据集 Ｃ３Ｄ平均融合  Ｃ３Ｄ＋ＬＳＴＭ  Ｃ３Ｄ＋Ｂ  ｉ
－
ＬＳＴＭ


ＵＣＦ１０１  ８２．７  ８５．９  ８６． 

８
ＨＭＤＢ５  ５４１．２ ５５．６  ５７５

 ．
以上结果为使用当前最流行的两个数据集，采用相同参数和学习率情况下，

得到的


两个模型的效果。
从结果上来看，双向ＬＳＴＭ在人体行为识别方面，确实比单向ＬＳＴＭ


有更好的效果而且，Ｂｉ
－
ＬＳＴＭ中每个ＬＳＴＭ模型是并行计算其训练耗时和单层，ＬＳＴＭ


相差无几。
本文在以下实验中将以Ｂｉ
－
ＬＳＴＭ为基础，
进行后续对比验证实验 

。
由以上验证实验，本文确定了使用Ｂｉ
－
ＬＳＴＭ结构作为本文系统序列模型学习视频特


征前后文关系后下步就是选择隐含层每层网络神经元维度大小由第二章实验可知

一
，。 

，
循环网络的输入向量维度为５１２，即３Ｄ卷积神经网络视频特征向量维度。对于隐含层



来说不同的神经元维度对模型表现有很多影响般是采用神经元维度大于等于输入



一
，，
维度的２倍。本次对比实验，如表３．３所示，
在ＵＣＦ１０１数据集中，
不同隐含层神经元


维度对算法准确率的影响 

。
４４ 

－


维度的２倍。本次对比实验，如表３．３所示，在ＵＣＦ１０１数据集中，不同隐含层神经元


维度对算法准确率的影响 

。
表３．３不同维度的网络效果


Ｔａｂｌｅ３．３ Ｎｅｔｗｏｒｋ  ｅｆｆｅｃｔｓ  ｉｎ  ｄｆｆｅｒｅｎｔ  ｄｍｅｎｓｏｎｓ
ｉｉ
 ｉ
神经元维度 运行时间（ｈ）  准确率（％ 

）
１２８ ２５０．  ７６． 

１
２５６ ２５．０ ７３． 

５
５１２  ２６３．  ８２． 

０
１０２４ ２７７ ８４４

 ．．
２０４８  ２９０．  ８６． 

８
４０９６  ３２．５  ８５． 

２
由表３．３可得，神经元维度在２０４８左右，
效果最好。因此，
本文选择２０４８作为神


经元维度。３Ｄ卷积神经网络＋双向ＬＳＴＭ网络在训练过程中，由于模型较复杂会出 


现
ｌｏｓｓ曲线震荡且不收敛情况。
本文将第２章的３Ｄ卷积神经网络训练得到的参数值作为


该系统的初始值，极大提高了收敛速度 

。
本章系统中加入两层的双向ＬＳＴＭ网络，加深了网络复杂度，相应的需要合适的正



则化方式防止过拟合现象严重。选择恰当的Ｄｒｏｐｏｕｔ方式可以有效缓解过拟合现象， 


当
Ｄｒｏｐｏｕｔ率过小时，网络结构几乎没有进行正则化处理，此时无法消除结果的过拟合现



率过大时相当于网络模型中大部分神经元随机丢弃造成

“ ”
象；当Ｄｒｏ
ｐｏｕ
ｔ，，ｌｏｓｓ曲线


不收敛或者欠拟合。下面将根据３Ｄ卷积神经网络＋Ｂｉ
－
ＬＳＴＭ模型，从不同Ｄｒ
ｏｐｏｕｔ 

方
法到不同的Ｄｒｏｐｏｕｔ率值进行对比实验，选择最恰当的Ｄｒｏｐｏｕｔ参数 


。
如表３．４所不，
本文选择传统Ｄｒｏｐｏｕｔ、循环Ｄｒｏｐｏｕｔ和层级Ｄｒｏｐｏｕ三种方法进行

 ｔ
对比实验，
其中Ｄｒｏｐｏｕｔ率选择均为各方法中性能表现最好的值 

。
表３．４不同Ｄｒｏｐｏｕｔ方法对模型影响


Ｔａｂｅ３４ＤｆｆｅｒｅｎｔＤｒｏｏｕｔ  ｍｅｔｈｏｄｓ  ａｆｆｅｃｔ  ｈｅ  ｍｏｄｅｔ
ｐ
ｌ．ｉ 

ｌ
传统＋层级


模型性能 传统Ｄｒｏｐｏｕｔ 循环Ｄｒｏｐｏｕｔ 层级Ｄｒｏｐｏｕｔ
Ｄｒｏｐｏｕ 

ｔ
准确率（％ ８６）．８  ８３ ８７．２ ８５． 


６
运行时间（ｈ） ２７．９ ２６５ ２６２ ２５０

 ．．．
验证集  ｌｏｓｓ  １８７０． ２１．１３  １８．３０ ２００． 

１
４５
－ 

－


由表３．４可知，层级Ｄｒｏｐｏｕｔ方式最适合人体行为识别任务，
不仅准确率有所提高 

，
而且运行时间进步缩短使用两种Ｄｒ结合方式反而效果更差主要是因为序



一
。ｏｐｏｕｔ，，
列模型中过多神经元被丢弃导致模型难以收敛和拟合层级相对于其他方



“ ”
，。Ｄｒｏｐｏｕｔ
式在模型训练过程中，
具有加速收敛易于迭代的优点。下图３．１８所示为三种Ｄｒ
ｏｐｏｕｔ


相
应的损失函数下降曲线对比 

：
—一
层次Ｄｒｏｐｏｕｔ  ■  ■
传统Ｄｒｏｐｏｕｔ
．
循环Ｄ 
ｒｏｐｏｕ 

ｔ
３００


２５０


，
９
１５０
 ＼＼




＼
—
 — ＇


－
ＷＭＷＷＴＷｒ
〇
Ｔｒｆｒ
０  １  ２ ３ ４ ５ ６


迭代次数（１０Ｋ 

）
图３．１８三种Ｄｒｏ
ｐｏ
ｕｔ损失函数曲线图


Ｆ８  Ｔｈｒｅｅ  Ｄｒｏｏｓｓ  ｆｕｎｃｔｏｎ  ｇｒａｐｈｓ
ｐｏｕ
３ ｌ 

ｉ
ｇ．
．１ｔｉ
算法的唯参数是层的神经单元有多大几率需要被丢



“
ＤｒｏｐｏｕＤｒｏｐｏｕ率即每
一一
ｔｔ，
弃过大或者过小对模型效果有重要影响甚至会导致模型训练不收敛下面



”
。Ｄｒｏｐｏｕｔ，。
本文对层次Ｄｒｏ
ｐｏｕｔ的几种Ｄｒｏｐｏｕｔ
率进行比较，
得到表３．５结果 

：
表３．５不同Ｄｒｏｐｏｕｔ对结果影响


Ｔａｂｌｅ３．５ Ｄｉｆｆｅｒｅｎｔ  Ｄｒｏｐｏｕｔ  ｅｆｆｅｃｔｓ  ｏｎ  ｒｅｓｕｌｔ 

ｓ
Ｄｒｏｐｏｕｔ率 运行时间（ｈ）  准确率（
°
／。 

）
０．１  ２９．０  ８４． 

８
０３ ２８
．  ８６４

 ．
０．５  ２６２．
 ８７． 

２
０７ ２
．５．５  ８５． 

７
０９ ２４
．  ８３． 

１
由以上所有实验结果分析总结以及图３．１９和图３．２０的损失函数下降曲线所示， 


加
入层次Ｄｒ
ｏｐｏｕｔ算法在识别准确率和收敛速度方面都有不错的提高。本章最终确定以


Ｄｒｏｐｏｕｔ
率为０５
．
的层次Ｄｒｏｐｏｕｔ
作为Ｂｉ
－
ＬＳＴＭ的正则化方式最适合本系统的人体行为


４６
－ 

－


识别任务，其中Ｂｉ
－
ＬＳＴＭ网络层为三层，隐含层单元维度为２０４８，以３Ｄ卷积神经网


络最后层卷积层的平均融合特征向量作为序列模型输入完成各子段动作特征向量的


一
上下文关系学习，提高识别准确率 

。
ｂａｔｃｈｊｏｓｓ


２００  ＇
１８０




Ｍ
－
６０




三
ＳＣＯ
 

Ｌ
６００ 
 

！
＾Ｃ０   Ｙ＾ Ｉ
２Ｄ０


ｏｃｏ 
ｅｏｃｃ  ｉ
ｃｏｏ
 ａ ｉｃｏｏｏｋ  ｓｏｘｏ  ４〇  ｉ  ｏｃｏｋ  ｓｏｏｏｏｋ
 ｅｏ  ｏｏｏｉ


图３．１９不加层次Ｄｒｏｐｏｕｔ的损失函数收敛曲线



Ｆｉ
ｇ．３．１９Ｔｈｅｃｏｎｖｅｒｇｅｎｃｅｃｕｒｖｅ  ｏｆ  ｔｈｅ  ｏｓｓ  ｆｕｎｃｔｏｎ  ｗ

ｌｉｉｔｈｏｕｔｈｉｅｒａｒｃｈｉｃａｌ  Ｄｒｏｐｏｕ 

ｔ
ｂａｔｃｈ
ｊｏｓｓ


１
００
＇



９００


｜
８０Ｃ


６００ 
＼


Ｅ
ｚｏｏ


Ｖ

 

￣
ｉｎｎ 
—
〇〇Ｃ    广：
ｎ
 ．  


ＣＯＣＯ  ５ＸＣ ｋ１
０  ＯＯＣｋ  ：
５０Ｃ〇ｋ ：Ｃ００〇ｋ ：５０００ｌ  ＢＣＯＯＣｉ  ３５ＣＯＯＩ  ４Ｃ

 ＣＯＯＬ ＾５  ＣＯＯｉ ５００ＣＣｔ ５５０００ｋ
图３．２０加入层次Ｄｒｏｐｏｕｔ的损失函数收敛曲线


Ｆ２０Ｔｈｅｃｏｎｖｅｒｈｔｈｅｈａｒｃｈｃａ Ｄｏｐｏｕｔ
ｇ
３
ｇｅｎｃｅ  ｃｕｒｖｅ ｏｆｈｅ ｏｓｓ  ｆｕｎｃｔｏｎｗｔｅｒｒ
ｉ．．  ｔｌｉｉｉｉｌ
３．４小结


本章节主要介绍了循环神经网络在人体行为识别中的使用第部分介绍了通用的



一
循环神经网络的原理、结构以及存在的问题；第＿
部分介绍了改进的循环祌经Ｍ络，


长
短时记忆神经网络（ＬＳＴＭ）和相应的变形结构，双向ＬＳＴＭ （Ｂｉ

－
ＬＳＴＭ）；第三部分对


循环神经网络的层数单双向、ＬＳＴＭ的选择、Ｄｒｏｐｏｕｔ算法的选择和Ｄｒｏｐｏｕｔ率的设定 


，
进行了大量对比实验由于人体行为识别属于序列任务中的种所以本章运用循环神



一
。，
经网络学习人体行为上下文关系，
并获得了出色表现。由于传统循环网络存在梯度消失


４７
－ 

－

习
问题，使得远距离学习上下文关系变得很困难，并且考虑到序列时刻的结果和前后序列



都有关系所以本文采用，Ｂｉ
－
ＬＳＴＭ作为学习人体行为上下文关系模型本章实验证明。 


，
Ｂｉ
－
ＬＳＴＭ在人体行为识别上的表现确实优于单向的ＬＳＴＭ。最后通过对循环神经网络中


的层数、隐含层维度、Ｄｒｏｐｏｕｔ率等参数进行控制变量的对比实验确定了以三层网络， 

、
输出维度为２０４８、层次Ｄｒｏｐｏｕｔ率为０５
．
为组合的最佳参数，并获得了很好的效果 

。
４８
－ 

－
东北大学硕士学位论文 第４章融合注意力机制的人体行为识别


第４章融合注意力机制的人体行为识别



注意力机制ＡＭｅｃｈａｎ是种模拟人脑的机制研究发现人脑在工


一
（ｔｔｅｎｔｉｏｎ ｉｓｍ）。，
作时是有定注意力的比如当我们欣赏幅艺术作品时可以看到其全貌而当我们



一一
。，。
深入观察画作的细节时其实眼睛只聚焦在画幅上很小部分而忽略其他位置的图像



一
，，
背景之类无关信息这就说明大脑在处理信号时是有定权重划分的而注意力机制的



一
，，
提出正是模仿了大脑这种特性。本文将注意力机制用于图像显著性表达中，
使得图像中


关于人体行为区域在网络中的权重更大结合前两章的方法进步提高行为识别准确


一
，，
率。通过相关对比实验，
分析该算法的性能优点。在本章的最后，
将讨论几种常用的深


度学习框架，
并选择适合本文的框架 

。
４．１注意力机制算法


４．１．１注意力机制简介


注意力机制在机器翻译中得到广泛应用，
利用编码解码模型－
，
使用注意力机制解决


词偏置问题近几年开始应用在图像方面每次解码都需要每个像素点的特征向量



一一
。，
间融合作为输入，
使得有意义的局部区域特征无法发挥作用。利用注意力机制，
通过前


隐藏层的输出计算对应的当前图像的每个像素的权重其中对应人体行为部分



一一
，，，
的图像区域权重值偏大，
将像素特征向量加权平均，
使得图像人体行为局部区域得到显


著性表达注意力机制可以缓解图像信息赘余问题

。，
获取真正有效的局部区域如图。４．１ 

，
划船部分大约只占图像部分的二分之利用注意力机制将划船区域权重加大使得中



一
，，
间部分重要性提高，
而减小背景之类无用信息的干扰 

。
图４．１
注意力机制的应用示例


Ｆｉ
ｇ
．４．
１ Ｅｘａｍｌ
ｐ
ｅｓ  ｏｆａｔｔｅｎ
 ｔｉｏｎｍｅｃｈａｎｉｓｍ 

ｓ
４９
－ 

－


４．１．２注意力机制的结构原王 

里
人类视网膜不同部位对不同信息接受和处理的敏锐度不同，
为了最大化利用有限的


视觉信息处理资源，
需要选择视觉区域特定部分，
集中关注它。注意力机制主要有两个


作用：（１）决定需要关注输入的哪些部分；
（２）合理分配有限资源给重要的部位 

。
注意力机制可以理解为从大量信息中有选择的筛选出固定量信息，
并按重要性进行


权重分配如图所示特征图可当做系＼＾１１＾＞数据构成给定循



一
。４２．，Ｓｏｕｒｃｅ，
环神经网络中某个时刻的输出序列Ｑｕｅｒ
ｙ，通过计算Ｑｕｅｒｙ和各个Ｋｅｙ的相关性，
得到


每个Ｋｅｙ对应Ｖａｌｕｅ的权重系数，然后对Ｖａｌｕｅ进行加权求和，

得到最终注意力机制融


合后特征。聚焦重要信息的过程表现在每个像素的权重计算上面，
权重越大越聚焦在对


应的特征向量Ｖａｌｕｅ上，也就是说，
权重代表了信息重要性 

。



１
Ｉ
Ｋｅｙｌ  Ｋｅｙ２ Ｋｅｙ３ Ｋｅｙ４


Ｕ
Ａｔ〇ｎ


 ｆｆ
       
Ｑｕｅｒｙ
ｉ
 ！
Ｖａｌｕｅ


｜  Ｔ Ｔ Ｖ Ｔ 

｜
 Ｖａ  Ｖａ  Ｖａ 
｜  Ｖａｌｕｅ  １ｌｕｅ２ｌｕｅ３ｌｕｅ４ 

！
ｉ   


Ｊ
图４２
．
注意力机制原理


Ｆ４２Ｍｅｃｈａｎｓｍｓｏｆａｔｔｅｎｔｏｎ


ｇ
ｉ．．ｉ  ｉ
同样来说注意力机制可以看做是种软寻址方式特征图看作是存储器内存储的



一
：
，
内容，由待训练的权重和像素特征向量组成，通过循环网络输出序列和元素Ｋｅｙ的地址



进行相关性计算来寻址关于权重计算方面每个Ｋｅｙ都会取出内容内容的重要性



一
。，，
根据输出序列Ｑｕｅｒｙ和Ｋｅｙ的相关性大小来决定，之后对像素特征向量加权求和，

得到


最后的Ｖａｌｕｅ值 

。
注意力机制具体计算过程如下图所示可分为三个阶段第个阶段是根据循


一
４３．
，：
环网络输出序列Ｑｕｅｒｙ和元素Ｋｅｙ计算权重系数；第二个阶段是将得到的权重进行



归化处理也可将第二阶段简化为第阶段第三个阶段是根据归化后的



一一
一
Ｓｏｆｔｍａｘ，；
权重系数对特征图的Ｖａｌｕｅ进行加权求和 

。
５０
－ 

－


ｒ 

１
Ｋｅｙ 
１  Ｋｅｙ２ Ｋｅｙ 
＇

３ Ｋｅｙ４ 
 
Ｑｕｅｒｙ
 

Ｊ，ｌ  ｊ， 阶段Ｍ

 


！
ｓｉ ｓ２ ｓ３ ｓ４ 

！
！
  丨
  


 

ｉ
Ｌ  —  —
 — 

   ＿  ＿
       Ｉ  ＿  ＿  —   


ｉ
  
￣
「
＾ 

！
 Ｓｏｆｔｍａｘ  归一
化  Ｐ介隹受２ 

丨
   

   

Ｉ
； 
一
士  孓 －


１
！  ａｌ ａ２ ａ３ ａ４ 

＇
 
           

ｉ

＾；，
Ａｔｔｅｎｔｉｏｎ
＾
｜  

｜

     
ｉ  

ｉ
ｉ  

ｉ
 Ｖａｌｕｅｌ Ｖａｌｕｅ２ Ｖａｌｕｅ３ Ｖａｌｕｅ４
 

｜
ｉ  

ｉ
ｉ 

     
 

ｉ
图４．３注意力机制计算过程


Ｆｇ４
ｉ．．
３ Ａｔｔｅｎｔｏｎ  ｍｅｃｈａｎ
ｉｉｓｍｃａｌｃｕａｔｏｎ  ｐｒｏｃｅｓｓ
ｌｉ 

在第个阶段中由于应用场景不同可以使用不同的函数和计算机制根据循环网



一
，，
络输出和每点像素的特征向量计算两者的相关性或者是相似度

一
。 

：
（１）使用向量点积的方式衡量相关性 

：
Ｄｓｔａｎｃｅ
ＱｕｅｒｙＫｅｙ
＝
ＱｕｅｒｙＫｅｙ 
■
ｉ
［
， 
）  

４．１


）

ｉｔ
（
（２）使用余弦相似度的方式衡量相似度 

：
Ｄｉｓｔａｎｃｅ
 ｛ＱｕｅｙＫｅｙｒ
，
，
）
＾
為  丨丨
（
４２）


．
（３）使用前馈网络训练权重系数 

：
ＤＱｕｅｒｙＫｅｙｍｐＱｕｅｒｙＫｅｙ 
＝
ｉｓｔａｎｃｅ， 
ｌ
，  ４３
 （ 
｛）   （ｔ）（
．


）
式式和式距离公式计算出的权重不在同量纲下需要进行


一
（４．１）、（４２
．）（４３．），
归化操作以便进行后续权重乘法第二阶段使用Ｓｏｆ

ｔｍａｘ将不同量纲的权重系数归


一
，。
化越重要的部分权重越大
一
， 

：
Ｄ，ｓ


＜
ｅ
ａ
＾Ｓｏｆｔｍ
＾Ｄ＾

—
ｓ
）
ｉ
Ｔ
Ｄ－
 （
４ ４


）

 ｉ
ｔｅ
＝
ｋ 

＼
第三阶段将归化得到的权重分布加入到输入序列中加权融合得到最终的输入



一
，，
序列 

：
Ｔｘ


Ａｅｎｔｉｏｎ
ＱｕｅｒｙＳｏｕｒｃｅ）
＝
＾ｃｃｖａｌｕｅ
？
Ｉｔ


 （
， 
  ｊ
ｋ ｔ
（
４５．


）
＝
ｋ   

＼



－
５
－
１


注意力机制在应用方面可以分为四类：基于输入项的软注意力（ｉｔｅｍ－
ｗｉｓｅ  ｓｏｆ


ｔ
ａｔｅｎｔｉｏｎ）、基于输入项的硬注意力（ｉｔｅｍｗｉｓｅ  ｈａｒｄ  ａｔｅｎｔｉｏｎ
－
）、基于位置的软注意力


（ｌｏｃａｔｉｏｎｗｉｓｅｓｏｆ
－
ｔａｔｅｎｔｉｏｎ
   ）、基于位置的硬注意力（ｌｏｃａｔｉｏｎｗｉｓｅｈａｒｄａｔｅｎｔｉｏｎ
－
  ）。 

基
于项和基于位置的注意力主要区别在于输入形式不同，基于项的注意力输入是包含明确


的项的序列，如向量、矩阵或者特征图。基于位置的注意力是对输入为特征图的情况下



设定的，
所有目标通过位置确定 

。
基于项的注意力在项的层次操作原始输入在经过神经网络编码后形成每项具



一
，，
有个单独编码的序列基于项的软注意力每项都会有个权重系数对所有的项的



一
一一
。，
序列进行线性加权合并，加权融合后的编码序列即为注意力操作后的序列特征。相反的



是硬注意力机制不是进行线性加权而是硬性选择个或者多个项编码作为最终的特



一
，，
征 

。
基于位置的注意力机制是在特征图上进行相关操作。基于位置的软注意力对整个特


征图进行个变换使得重点区域能够凸显出来而基于位置的硬注意力从特征图中离


一
，。
散选取个子区域其中选取的区域位置是由注意力机制训练或者计算得到作为最终



一
，，
的特征 

。
每种注意力机制有自己的特定的输入和应用场合，这是因为不同的注意力机制的输


入和结构原理不同如表。４．１所示基于项的注意力机制关注于输入序列间的特征分布
， 

，
从而获得权重分布；基于位置的注意力机制关注于输入特征图的变换矩阵，通过变换矩



阵将特征图的重担区域挑选出来 

。
表４．１注意力机制的四种类型


Ｔａｂｌｅ ４．１ Ｆｏｕｒ  ｔ
ｙｐ
ｅｓ  ｏｆａｔｅｎｔｉｏｎ  ｍｅｃｈａｎｉｓｍｓ
 

注意力类型 输入 操作


基于项的硬注意力 项的序列 离散选择些项


一
基于位置的硬注意力 特征图 离散地选择子区域


基于项的软注意力  项的序列 对所有项线性加权合并


基于位置的软注意力 特征图 对输入进行变换


在模型选择方面注意力机制通常由个原始神经网络之外的前馈网络组成注意



一
，，
力机制网络可以和原始模型起训练对于软注意力注意力网络对输入是可微的 

所
一
。，，
以可以使用梯度下降方法优化；对于硬注意力，网络对输入不可微，

需要使用蒙特卡洛


采样和ＥＭ算法确定特征子区域位置，或者使用强化学习方式学习硬注意力机制。在计



５２
－ 

－


算机视觉领域，
由于图像的结构化的数据特点，
常使用基于项的注意力机制作为图像显


著性区域提取的改进方法之
一


。
４２
．
基于注意力机制的显著性特征提取


在图像特征提取的过程中，
会发现特征图像素点越多，
做像素点特征融合送入ＬＳＴＭ


的输入时，
模型的性能会显著下降。而特征图尺寸过小，
则不能充分表示动作片段的信


息特征。
如何既保留住３Ｄ卷积神经网络中深层特征图，
又提取出图像中显著性动作区


域特征，
对本文系统的模型效果有重要影响，也是本章的研究重点 

。
本文系统涉及到３Ｄ卷积神经网络、
循环神经网络和注意力机制。如图４４
．
所示，


系
统框架主要分为将整个视频流分成多段每段连续多帧图片进行图片预处理

一
：（１）， 

，
每段的部分模型参数共享；
（２）利用８层３Ｄ卷积神经网络提取各个片段视频的时空信


息特征，
各段模型参数共享，３Ｄ卷积网络输出为多通道特征图；
（３）利用ＬＳＴＭ模型


特点使用基于输入项的软注意力机制利用ＬＳＴＭ的隐含层输出序列和每时刻的输



一
，，
入序列计算特征图每个像素点对应的权重分配，
将特征图所有像素点的特征向量加权求


和，
得到特征图的显著性特征；
（４）将前向ＬＳＴＭ和后向ＬＳＴＭ的隐含层输出结合 

，
作为最后层全连接层的输入利用注意力机制学习每时刻的结果序列的权重


一一
；
（５）
自
分布，加权融合得到最终的结果序列，
使用Ｓｏｆ
ｔｍａｘ分类器得到最终的分类结果 

。
显
Ｍｍｉ
－
Ｌｓｉ
＾

 ｒ
．＿
 ■ …
…
１   ｍｍｊＪ ）


；
＠＼   Ｉ


Ｉ
ｉｒ   
＾
／ｉｊ
 ｜
｜＾ 
；
：
！：
Ｃ

＾ｒＩ  Ｘ
Ｉ 

纖特征提取＼ｓ＾
＾
—
；


—
 

Ｊ
 
Ｊ
— Ｌ  — －Ｊ … … …
Ｌ — 


厂￣
测试集
￣
？各连猶特征提取 —
行为识别结果分类？准确率统计
—
？ 

 
）！
Ｖ 

［   
｜


图４４．
基于Ｂｉ
－
ＬＳＴＭ和注意力机制的人体行为识别框架图


Ｆｉ
ｇ４４Ｔｈ
．．
ｅ  ｆｒａｍｅｗｏｒｋｏｆａｃ  ｔｉ
ｏｎｒｅｃｏ
ｇｎｉｔｉｏｎｂａｓｅｄｏｎＢｉＬＳＴＭ  ａｎｄ  ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓ 

ｍ
５３
－ 

－
东北大学硕士学位论文 第４章融合注意力机制的人体行为识 

别
４．２ １．
基于软注意力机制的图像显著性表达


本文将基于项的软注意力机制加入ＬＳＴＭ输入端的前层利用，ＬＳＴＭ的隐含层的输



出和特征图各个像素点的特征向量提取特征图显著性区域。相比于传统的平均融合方式 


，
注意力机制会使得模型把精力放在权重系数较大的像素点上，
不仅使得模型更容易收敛 

，
而且可以更好的学习视频图像中真正的行为特征 

。
基于输入项的软注意力机制是可参数化的，
即可微。
并且可以嵌入到ＬＳＴＭ的输入


层中，
实现端对端的模型训练。梯度计算可以通过注意力机制模块，反向传播到模型其


他部分。考虑到这两种注意力机制在其它领域的优异表现和系统方案的可行性，
本文用


到两种基于输入项的软注意力模型用于图像显著性表达模型
５４
：Ｓｏｔ
ｆ－
Ａｔｔｅｎｔｉｏｎ
［１
、Ｌｏｃａｌ


－
Ａｔｔｅｎｔｉｏｎ 模型＾ 
１
。 下面就这两种计算方法做详细解释 

。
Ａｔｅｎ模型是将特征图中每个像素点ｘ分配个权重系数如图所示

一一
Ｓｏｆ
ｔｏｎ４５
－
ｔｉ，．


，
将每个像素的特征向量进行加权求和，整体作为ＬＳＴＭ的输入。当前时刻的隐含层的输


出又影响着下时刻的输入特征图中像素点的权重系数
一


。
ｙ（ｔ 

）
个 
ｈ（ｔ）


’Ａ



ｉ
Ａｔｔｅｎｔｉｏｎ Ｌａｙｅｒ


＊
：  Ｃｏｎｔｅｘｔｖｅｃｔｏｒ 

．
｜  督
ａｔ


ｊ
 Ｓｏｆｔｗｅｉｇｈｔｓ  

＼
興


」
＾
《Ｊ
ｈ（ｔ）
■ Ｊ  ＞＞．
Ｊ－
＞
Ｉ


＞
｜
｜  ｜
图 ４．５  Ｓｏｆｔ
－
Ａｔｅｎｔｉｏｎ 示意图


Ｆｉ
ｇ４
．．５  Ｓｏｆｔ－
Ａｔｅｎｔｉｏｎｓｃｈｅｍａｔｉ 

ｃ
每个像素的权重分布由像素特征向量Ｘ和前序列隐藏层的输出经过层前馈



一一
网络和Ｓｏｆ
ｔｍａｘ分类器得到，
为序列长度。公式如下，Ｃ
？
ｉ
即为当前序列时刻经过ｉＳｏｆｔ 

－
Ａｔｔｅｎｔｏｎ
ｉ
融合后的特征向量 

。
５４
－ 

－
东北大学硕士学位论文 第４章融合注意力机制的人体行为识 

别
ｅｘ
Ｐ
（％ 

）
ＺＬｅｘ
ｐ（＾－
）  （
４６）
＿


Ｑ ＾ａａｉ
ｊ
Ｘ


ｊ
其中权重函数ａ〇表示个前馈网络
一
， 

：
）
ａ
（
Ｋｉ 
＾
ｘ
ｊ）
＝
 ｖ
ｌ
ｔａｎｈ
 （
ｗ
ｉ
＇
 ｘ
ｊ
＋ｗ
２
＇
 ｈ
ｉ＼
）  （
４７）
．


计算机资源是有限的，
尤其是对图像的逐像素处理十分消耗资源，
由上述可知，


使
用Ｓｏｆｔ
－
Ａｔｔｅｎｔｉｏｎ确实能够使得模型将注意力和大部分参数计算放在行为区域，

减少不


必要的浪费 

。
Ｓｏｆｔ
－
Ａｔｔｅｎｔｉｏｎ模型虽然解决了权重问题，
但是当像素点众多，权重计算需要指数运


算计算成本较高于是出现ＡｔｅｎＡ模型相当于取定大小



一
，。
／Ｌｏｃａｌ
－
ｔｉｏｎ。Ｌｏｃａｌ
－
ｔｔｅｎｔｉｏｎ
窗口内的Ｓｏｆ
ｔ－
Ａｔｔｅｎｔｏｎｉ
模型 

。
ＬｏｃａＡ相当于Ａｔｅｎ的折中版如图首先找到个对齐位置

一
ｅｎｔｏｎＳｏｆ
ｔｏｎ４６
－
ｔｔ
－
ｌｉｔｉ。．， 

，
再以这个位置左右划定个窗口按照距离中心点的距离分布得到窗口内各像素权重

一
， 

，
即高斯分布。
最终结果为窗口内像素特征向量的加权求和。Ｌｏｃａｌ
－
ｉ
在机器翻译


中应用不是很多，
但是在图像领域有很好的应用效果，尤其是图像描述任务。Ｌｏｃａｌ


－
Ａｔｔｅｎｔｉｏｎ 的中心点求取是该注意力机制的重点
、
 


。
ｙ（ｔ 

）
个 
ｈ（ｔ）


Ａｔｔｅｎｔｉｏｎ  Ｌａｙｅｒ


 －


：
！  ＾Ｃｏｎｔｅｘｔ ｖｅｃｔｏｒ  

Ｉ

Ｃ
Ａｇｎｅｄ ｐｏｓｏｎ

ｌｉｉｔｉ
■ 

｜
１
＾

一

Ｌｏｃａｌ ｗｅｉｇｈｔｓ 
—


Ｉ


：
 ｍ
（ｔ）
＿ ＃
ｒ


＾
ＭｔＩｉｉ

  
！  Ｔ Ｔ ｔ  Ｔ  Ｔ Ｔ


图 ４．６Ｌｏｃａ丨
－
Ａｔｔｅｎｔｉ
ｏｎ 示意图


Ｆｉ
ｇ４６
．Ｌｏｃａ．ｌ
－
Ａｔｔｅｎｔｉｏｎｓｃｈｅｍａｔｉ 

ｃ
５５
－ 

－


学习对齐位置是Ｌｏｃａｌ
－
Ａｔｅｎｔｉｏｎ的关键对齐位置＆是由前馈网络训练得到其中
，， 

，
Ｓ代表序列长度，
得到窗口位置后，
根据窗口大小，以位置仏为中心，左右各扩展至窗 

口
长度的半
一


。
ｐｔ 
＝
 Ｓ－
ｓｉｇｍｏｉｄｔａｎｈ
＾
ｗ
＾
／ｊ
，
 ＾  （
４８）


．
选取完窗口大小和位置需要确定窗，口内各像素点的权重系数不同于。Ｓｏｆ

ｔ－
Ａｔｅｎｔｉｏｎ


的前馈网络获取，Ｌｏｃａｌ
－
Ａｔｅｎｔｉｏｎ通过距离中心点的远近确定权重关系，

即使用高斯分


布，以ｐ为中心ｔ
，越靠近中心点权重系数越大。其中，ｍ为像素点坐标，ａ为超参数，


需
要经验设定 

：
ａｘ＝
ｘ－
ｅｘ
」４９）
ｐ
．
 ．
（ 

（Ｊ） ｊ
以上是本文中使用的两种基于输入项的注意力机制模型，基于输入项的注意力机制



使得网络更专注于和输出内容有关的输入部分，
本文使用这两种注意力机制进行特征图


显著性表达，
提髙网络整体效果，降低像素特征计算量，
减少时间复杂度 

。
４．２．２基于自注意力机制的结果融合


般的注意力机制指的不是Ｔａｒｇｅｔ和之间的注意力机制而是内 

部
一
Ｓｏｕｒｃｅ，Ｓｏｕｒｃｅ
元素之间或者Ｔａｒｇｅｔ内部元素之间的相关性学习。Ｓｅｌｆ－
Ａｔｔｅｎｔｉｏｎ  （自注意力机制）
［
５６


他
被称为Ｉｎｔｒａ－
Ａｔｅｎｔｉｏｎ（内部注意力），是通过学习特征Ｓｏｕｒｃｅ分布本身，

获得的权重


分布，不依赖Ｔａｒｇｅｔ额外信息。

本文在各段结果序列融合方面，
使用自注意力机制融合


各个子段的结果序列。相比于以往的平均融合方式或者最大值融合方式，利用自注意力



机制学习各序列本身的分布得到权重分布，
随机进行加权融合，可以更好的表示结果分


布，最后使用Ｓｏｆ

。
Ｓｅｌｆ－
Ａｔｅｎｔｉｏｎ机制会更容易捕捉各个段之间长距离依赖的特征。对于ＬＳＴＭ这种序



列模型来说，对于长距离的相互依赖的特征，
需要经过若千时间步骤信息累积才能将两


者联系起来，距离越远，有效信息越少。

加入Ｓｅｌｆ－
Ａｔｅｎｔｉｏｎ会解决这些问题，自注意力


机制在计算过程中将各个子段视频特征中任意两个特征序列通过个计算步骤联系起



一
来，所以长距离依赖特征之间的距离被极大缩短，
可以有效地学习特征分布并利用这些


序列特征 

。
Ｓｅｌｆ－
Ａｔｅｎｔｉｏｎ机制的原理本质是学习序列本身分布，得到各个序列的权重系数。 

如
图４７
．
所示，
各自分段视频的结果序列作为输入，通过学习自身特征分布，
得到权重系


数，随即进行加权融合，整合的序列作为完整视频的结果序列 

。
５６
－ 

－


ｙ（ｔ 

）


个


＂
－
一
Ａｔｔｅｎｔｉｏｎ  Ｌａｙｅｒ 
￣

Ｖ


ｊ
ＬＴ 
ｃ（ｔ）
！  

！
ｗｅｉ
ｇｈｔｓ
 

Ｊ
Ｉ Ｉ Ｉ Ｉ１


ｔ    ｔｔ 

ｔ
图４．７Ｓｅｌｆ
－
Ａｔｔｅｎｔｉｏｎ不意图


Ｆｉ
ｇ．
４７Ｓｅｆ
．ｌ
－
Ａｔｔｅｎｔｉ
ｏｎｓｃｈｅｍａｔｃ

 ｉ
Ｓｅｆ
ｌ
－
Ａｔｔｅｎｔｉｏｎ机制结构原理较为简单，
通过
一
个前馈网络训练得到各个输入对应的


权重值，
然后经过Ｓｏｆ
ｔｍａｘ分类器归
一
化权重分布。其中都是待训练的参数，


由
此可见，
自注意力机制也是可以参数化进行端对端训练 

：
Ｔ
Ａ＝ｓｏ
ｆｔｍａｘａｎｈｗｘ
＇
ｖ
－
   （ｔ
ａ   （０） 

）
…
ＣＡ 
－




ｘ
（
４．１０）
本文中使用Ｓｅｌｆ
－
Ａｔｔｅｎｔｏｎｉ
机制代替平均融合方式进行结果融合操作。Ｓｅｆｌ
－

 ｉ
机制可以通过前馈网络学到自适应权重，
对各个分段结果显著性特征提取，有助于整体


模型效果的提升 

。
４３．
实验结果与分析


本章利用注意力机制在图像中的应用，

结合注意力机制和循环神经网络提取出图像


的显著性特征进步提高准确率如下图所示本文的完整系统总结首先 


将
一
，。４．８，：，
类别标签转为数字编码然后修改第二章的。，３Ｄ卷积神经网络模型Ｐ〇〇４

１层的池化核 

，
如下表４２．
所示，
得到Ｃｏｎｖ５ｂ层的１４ ＊１４尺寸的特征图，
其中通道数为５１２，
展开得到


％个特征维度为的维向量利用软注意力机制和前时刻隐含层的输出对

一
一
１５１２，１９６


个特征像素点进行权重分配，
将每
一
时刻加权融合后的特征向量作为当前序列时刻的输


入最后循环神经网络每时刻隐含层的输出通过层线性输出层再利用

一一
。，
，Ｓｅｌｆ


－
７
－ 

－
５


Ａｔｅｎ机制学习各个时刻特征分布得到的维向量作为Ｓｏｆ
ｔｍａｘ分类器的输入 

通
一
ｔｉｏｎ，，
过最小化交叉熵损失函数，获得最终的分类结果 

。
表４２３．Ｄ卷积网络中Ｐｏｏｌ４层参数修改


Ｔａｂｌｅ４２ ．Ｍｏｄｉｆｃａｔｏｎ ｏｆＰｏｏ４
ｉｉ  ｌｌａ
ｙｅｒ
ｐ
ａｒａｍｅｔｅｒｓ ｉｎ３Ｄｃｏｎｖｏｌｕｔｏｎｎｅｔｗｏｒｋ
ｉ 

网络层名输入大小滤波器大小核大小输出大小




 

＊＊
Ｐ〇〇４ ２１１４１４
＊
５１２   －
２
＊
１
＊
１  １
＊
１４
＊
１４
＊
５１ 

２
连续帧图片输入＾   １４＊１４＊５１２特征图输出



Ｉ   ／ｆ：
Ｊ
ｌ 


Ｉ
＿
 
！  ！ 
 ａＩ




｜
Ｙ？
１４＿＊５ｍ寺ｌ

ｔｔｅｎｔｉ０


＾
 Ｉ 

１

 特征图显著
、
、
％
１


１
＇
、
、
ｉ
、！
 
注撤
知
．
、
；
、


｜
ｉ  ＾
—
｜  ［
Ｓｏｆｔｍａｘ
＾＾ 

ｊ
    ｎ
￣
ｉ
ｉ
ｉ
Ｉ
；
「
動叫
Ｉ

＇
ｒ
￣
＇
？
？ｒ＼标签ｉ
概率 

ｉ
 ＡＣ
ｈ？
 ｍ  
—
：
ｉ＼

ｅ＂
  ｉ
＼
〇 〇．〇３ 

ｉ
ｋ 一


１
震
 ？
 ／１ 
？
？
Ｉ丨
ｉ
ｉ
丨
．
ｉ
： 

Ｉ
ｉ
 ｉ
？
 ｉ ｍ
 ；
１００ ° －２２
 

ｉ
Ｗ  Ｌ」
丨 

１
ｉ
 

ｉ
图４８
．
本文系统实验路线图


８Ｔｈｅ ｓ
ｙｓｅｍｍ
Ｆｇ４ａｔｃｅｘａ ｒｏａｄｍａｐ
ｐｅｅｎ
ｔｒｔ


ｉ．．
ｉｉｌ
５８
－ 

－


Ｓｏｆ
ｔ－
Ａｔｅｎｔｉｏｎ机制是对所有像素点求权重分布，而利用Ｌｏｃａｌ－
Ａｔｅｎｔｉｏｎ需要先确定


最佳的窗口大小使用前两章确定的超参数和相同的优化方法在相同的，，Ｄｒｏｐｏｕｔ方法 

、
相同的Ｄｒｏｐｏｕｔ率、
相同的正则化方式和正则化系数、相同的学习率情况下，对比不同


的窗口大小对结果的影响，结果如表４３
．
所示 

：
表４３Ｌｏｃａ
．ｌ
－
Ａｔｅｎｔｉｏｎ与Ｓｏｆ
ｔ－
Ａｔｅｎｔｉｏｎ对结果的不同影响


Ｔａｂｌｅ  ４３  Ｔｈｅ  ｄｆｆｅｒｅｎｔ  ｅｆｆｅｃｔｓ  ｏｆ
．ｉ  Ｌｏｃａｌ
－
Ａｔｔｅｎｔｉｏｎａｎｄ ＳｏｔＡ
ｆ－
ｔｔｅｎｔｏｎ  ｏｎ  ｔｈｅ  ｒｅｓｕ
ｉｌｔ 

ｓ
窗口大小 运行时间（ｈ） 验证ｌｏｓｓ 准确率（％ 


）
２０  ３６７．  ２３．６０  ８２． 

０
４０  ３７０．  ２００．  ８５． 

５
８０  ３７０．  １７９．  ８８２

 ．
１２０  ３７５．  １７９ ８８４
．
 ．
１６０  ３８０．  １７５３
．  ８９． 

１
Ｓｏｆ
ｔＡｔｅｎｔｏｎ ３８０ ７４２  ８９ 

６
－
ｉ．１．．
由表４．３和第３章实验结果可得，不嵌入注意力机制的网络模型准确率为８７２．％ 

，
使用Ｓｏｆ
ｔ－
Ａｔｅｎｔｉｏｎ机制＋循环网络提取图像显著性特征有更好的效果且时间损耗相当， 

。
其中每时刻之前的隐含层输出由个前馈网络训练得到所有子段视频共享参数



一一
，，，
权重。有此可见，对于尺寸为１４ ＊１４的特征图作为循环神经网络的输入，给每
一
个像素


点分别分配个权重系数的注意力机制的方式准确率效果最好
一


。
本文最终系统使用Ｓｅｆｌ
－
Ａｔｔｅｎｔｉｏｎ学习输出序列相互间关系并获得相应权重分配， 

使
用加权融合的方式，
得到最终的整体输出序列，
表４４．
展示了Ｓｅｌｆ
－
Ａｔｔｅｎｔｉｏｎ与平均融合


法对模型效果的影响 

：
表４４Ｓｅｆ
．ｌ
－
Ａｔｔｅｎｔｏｎｉ与平均融合对结果的不同影响（准确率，％ 


）
ｙ％）
Ｔａｂｌｅ  ４４  Ｔｈｅ  ｄｉｆｆｅｒｅｎｔ  ｅｆｆｅｃｔｓ  ｏｆ
．
 Ｓｅｆｌ
－
Ａｔｔｅｎｔｉｏｎ  ａｎｄ  ａｖｅｒａｇｅ  ｆｕｓｏｎ  ｏｎ  ｔｈｅ  ｒｅｓｕｉｌｔｓ
（
ａｃｃｕｒａｃ 

数据集 Ｓｅｌｆ
－
Ａｔｅｎｔｉｏｎ  平均融合


ＵＣＦ１０１  ９０７ ．８９６

 ．
ＨＭＤＢ５  １５９０
，５８． 

３
由上表４４．
可知，Ｓｅｆｌ
－
ｉ
机制对本系统的结果有提升作用。
由于Ｓｅｆｌ
－


本质是依据输入序列分布获得权重系数，
那么对于其他分段提取特征再进行结果融合的


模型，Ｓｅｆｌ
－
Ａｔｔｅｎｔｉｏｎ能够依旧有效，尤其是对于卷积神经网络的各段模型结果融合其效



５９


－
－


果是否有提升。如表４５．
所示，
本文将第二章的３Ｄ卷积神经网络分别使用平均融合和


Ｓｅｌｆ
－
Ａｔｔｅｎｔｉｏｎ方法作为验证 

：
表４５３．Ｄ卷积网络中的Ｓｅｆｌ
－
Ａｔｅｎｔｉｏｎ与平均融合对比结果（准确率，％ 

）
Ｔａｂｌｅ４．５Ｔｈｅｄｉｆｆｅｒｅｎｔ  ｅｆｆｅｃｔｓ  ｏｆ  Ｓｅｆｌ

－
Ａｔｔｅｎｔｏｎａｎｄａｖｅ
ｉｒａ
ｇｅ  ｆｕｓｏｎ  ｏｎ  ｔｈｅ  ｃｏｎｖｏｕｔｏｎ
ｉ 
 ｌｉ
ｎｅｔｗｏｒｋ（ａｃｃｕｒａｃ
ｙ％ 

）
数据集 Ｓｅｌｆ
－
Ａｔｅｎｔｉｏｎ  平均融合


ＵＣＦ１０１  ８６４．  ８２． 

７
ＨＭＤＢ５  １５５．５  ５４． 

２
以上结果验证，
本文的Ｓｅｌｆ
－
ｉ
机制作为结果融合方式不仅作用于循环神经网


络在卷积神经网络也有定效果最终本文系统确定以Ｄ卷积神经网络为特征图



一
，。，３
提取器，
使用循环卷积网络ＬＳＴＭ和Ｓｏｆｔ－
Ａｔｔｅｎｔｉｏｎ机制提取特征图显著性特征作为序


列模型输入，
最后使用Ｓｅｌｆ
－
Ａｔｔｅｎｔｉｏｎ机制将每个分段视频的特征输出向量加权融合，


并
以Ｓｏｆｔｍａｘ函数作为模型分类器，通过最小化交叉熵损失函数，

得到最终分类结果 

。
最后对模型训练时两个超参数进行调优：
训练批次大小和学习率设定。
本文考虑到


两种梯度优化方法种是随机梯度下降法ＳＧＤ种是小批量梯度下降法ＭＳＧＤ

一一
，（），（） 

。
其中ＧＤ算法每次更新只考虑个样本点下次更新选择另个样本点所以ＳＧ 


Ｄ
一一一
，Ｓ，，
训练引入的噪声较多，
使得ｌｏｓｓ下降曲线震荡过大，且更新时间较长。而ＭＳＧＤ是指


将训练集分成若干个批次每次按顺序更新其中个批次直至达到收敛条件考虑到



一
，，。
硬件条件，
本文选用ＭＳＧＤ作为模型训练的梯度优化方法。ＭＳＧＤ可以提高训练收敛


速度，
同时模型训练的好坏取决于批次的大小，
即ｂａｔｃｈ设置的大小。
考虑到实际硬件


条件，
本文将ｂａｔｃｈ范围设置为１到１６，
下图４９．
展示了几种ｂａｔｃｈ值表现较好的效果 

。
３００


２５０




＼
２００  

＼
ｔｏ
  ＼



４
〇
￣￣１

 １５〇


＼
ＷＬ  

８
■
１２


—
１６


５０ 

    



０  １ ２ ３ ４ ５ ６


迭代次数（ｌ〇ｋ 

）
图４９．
不同ｂａｔｃｈ值损失曲线下降曲线变化


ｇ４９Ｐｅｒｆｒｍｎｅｎｔ  ｂａｔｃｈ  ｖａｎｃｔｏｎ
Ｆｉ．ｏａ
．ｃｅｏｆ  ｄｉｆｆｅｒｌｕｅｏｆ ｌｏｓｓ  ｆｕｉ

６０


－
－


从图４９．
可知随着ｂａｔｃｈ増大，
损失函数下降速率增大。本文实验没有对比ｂａｔｃｈ 

值
更大的情况，
但是硬件条件允许的话ｂａｔｃｈ值设置更大，
下降效果会更好，
考虑到网络


参数较多，
本文模型训练选择ｂａｔｃｈ为８时进行训练 

。
还有个关系模型训练收敛的重要参数即学习率学习率影响着模型两个重要性



一
，。
能个是收敛速度即训练时间个是损失函数收敛值即算法的准确度偏差 


不
一一
：，
；
，。
同的学习率很大程度上影响着模型性能表现甚至是模型训练能不能收敛，尤其是训练后


期会出现过度震荡问题，合理的学习率会使得模型训练更加优秀。如图４．１０所示，

本文


使用两种方式实验不同学习率初始值以及下降方式对本系统模型的性能影响：（１）使用



离散方法。设定学习率初始值００６．，
每隔５个ｅ
ｐｏｃｈ学习率乘以０８５．，经过几十轮迭代


后学习率会下降到个极小值便于模型训练后期摆脱鞍点减少震荡加快收敛速



一
，，，，
度；
（２）使用定值方法。
模型训练初期使用较大的学习率，观察Ｌｏｓｓ下降曲线，
根据


曲线变化手动修改学习率 

。
３００


２５０  

ｋ
〇１５０ ＼


１００ Ｖ


５〇







０
０ １ ２  ３ ４ ５ ６


迭代次数（１０ｋ 

）
■ ■ ■
０．２ ０．１  
００６ ００
．．１  —
离敗衰减


图４．１０不同学习率在损失函数上的表现


Ｆ４０  Ｐｅｒｆｏｍａｎｃｅｏｆｅｎｅａｒｎｆ  ｏｓｓ  ｆｕｎｃｔｏｎ
ｇｒｄｆｆｅｒｔ  ｎ
ｇ ｒａｔｅｓ ｏ 

ｉ．．１  ｉｌｉｌｉ
从图４．１０可以看出使用离散衰减的方法可以得到更好的效果，
在训练初期，
学习率


处于较大的值损失函数下降明显训练中期学习率变为个较低的水平可以保证



一
，，，
；
损失函数在相对平稳的过程中越过局部最优解训练末期学习率进步变小寻找最



一
；，，
优解 

。
以上所有实验过程为本文系统所有的对比验证实验过程，
本文模型总结为：
ｆ先经


过３Ｄ卷积神经网络提取１４
＊
１４
＊
５１２尺寸的特征图，
然后利用Ｂｉ
－
ＬＳＴＭ学Ｊ各动作片段


上下文关系，
最后利用Ｓｏｆｔ－
Ａｔｔｅｎｔｉｏｎ算法结合序列模型隐含层的输出和各个时刻的输


入特征图得到特征图的显著性区域，
并Ｈ．
通过学４输出序列自身特征分布的Ｓｅｌｆ


－
６ 
－ 

－
１


Ａｔｔｅｎｔｉｏｎ算法将输出层特征序列加权融合使用
，，Ｓｏｆｍａｘ
ｔ
分类器得到各个类别概率值 

，
确定最终结果并统计准确率 

。
经过训练集和交叉验证确定了本方案的模型各个子模块和相应超参数。下面将和几



种主流的处理人体行为识别任务的神经网络模型框架做结果对比，
得到的准确率指标如


表４６
．
和下图４．１１所示 

：
表４．６几种主流模型和本文模型的结果对比（准确率，％ 

）
Ｔａｂｌｅ４．６Ｃｏｍ

ｐａ
ｒｉｓｏｎｏｆ  ｓｅｖｅｒａｌ  ｍａｉｎｓｔｒｅａｍｍｏｄｅｌｓａｎｄｏｕｒｍｏｄｅｌ
（
ａｃｃｕｒａｃ
ｙ
％ 

）
Ｍｅｔｈｏｄ  ＵＣＦ１０１ ＨＭＤＢ５ 


１
ｉＤＴ ８５．９ ５７． 

２
Ｔｗｏ－
ｓｔｒｅａｍ２ＤＣＮＮ（ｆｕｓｉｏｎｗｉｔｈＳＶＭ） ８８．０ ５９． 


４
Ｃ３Ｄ＋）ｉｎｅａｒＳＶＭ ８５．２  

－
２ＤＣＮＮ＋ＬＳＴＭＯｐ（
ｔｉｃａ Ｆｌｌｏｗ＋ ｍａｇｅＦＩｒａｍｅｓ） ８８．６  

－
Ｃ３Ｄ＋Ｂｉ
－
ＬＳＴＭ＋Ａｔｔｅｎｔｉｏｎ  ９０７． ５９． 


０
准确率（％ 

）
 ＝ ＾
 ８８ ８５
；８５９．
．
２



聊 
Ｉ
 ＨＨ ｌ
ｌ
ｌ
｜


Ｈ ＝

 ：
ＶＶ７


图４．１１
几种模型的对比结果


Ｆｉ
ｇ４
．．１１ Ｃｏｍｐａｒｉｓｏｎｏｆ  ｓｅｖｅｒａｌ ｍｏｄｅｌ 

ｓ
由以上数据结果可知，
本文的３ＤＣＮＮ＋Ｂｉ
－
ＬＳＴＭ＋Ａｔｔｅｎｔｉｏｎ系统方案较优于之前几


种主流框架主要改进在于本文利用，Ｂｉ
－
ＬＳＴＭ序列模型学习各个动作子段上下文关系 

，
并加入了注意力机制提取特征图有效区域这些改进进步提高了准确率但是在



一
，。
ＨＭＤＢ５１
这种背景复杂和画面抖动严重的数据集中，
本文方案效果并没有明显提升。 

之
６２
－


－
东北大学硕士学位论文第４章融合注意力机制的人体行为识别



所以没有明显提升主要原因在于，３Ｄ卷积网络图像特征提取部分的网络层数不够深入 


，
如果能够加深网络层学习到更高阶语义信息，该网络会有更好的性能表现力 

。
４４
．
深度学习框架的选择


现在比较流行的模型有Ｔｅｎｓｏｒｆ
ｌｏｗ、Ｐｙｔｏｒｃｈ、Ｃａｆｅ以及ＭＸＮｅＴ，还有在这些ＡＰ 

Ｉ
基础上封装的Ｋｅｒａｓ、ＴｅｎｓｏｒＬａｙｅｒ和ＴＦＬｅａｒｎ等，下面将对这些流行框架做简短介绍和



对比参考，并阐述自己的选择 

：
（１）  ＴｅｎｓｏｒＦｌｏｗ：  ＴｅｎｓｏｒＦｌｏｗ采用数据流图，属于用于数值计算的开源软件库， 

广
泛的应用于机器学习和深度神经网络方面的研宂。该框架具有高度的灵活性，可以由开



发者自由的定义图的结构以及驱动计算的内部循环同时支持。ＣＰＵ和ＧＰＵ的加速运算 


，
具有很高的移植性。并且具有自动求微分的能力，可以加速梯度下降的运算过程。但是



Ｔｅｎｓｏｒ
ｆｌｏｗ文档和接口繁琐，封装混乱，
高层接口不灵活，
而且不能自定义ＧＰＵ的使


用 

。
（２）Ｐｙｔｏｒ
ｃｈ：  Ｐｙｔｏｒｃｈ拥有着比ＴｅｎｓｏｒＦｏｗｌ更好的加速运算，该框架结合了 Ｔｏｒｃｈ


高效灵活的ＧＰＵ加速后端和直观的Ｐｙｔｈｏｎ前段。具有便携方便，代码易读和广泛支持



深度学习诸多模型的特点。在推出后，迅速赢得了许多开发人员和研宂人员的青睐。 

尤
其在ＧＰＵ的自定义使用上要比Ｔｅｎｓｏｒｆ
ｌｏｗ更优秀，而且高层接口封装简洁明了方便阅


读和修改 

。
（３）  Ｃａｆｅ：  Ｃａｆｅ是人工智能领域问世时间最早的深度学习框架，可以说是最早商


业化的主流工业级深度学习工具包。Ｃａｆｅ框架基于Ｃ＋＋编程语言编写，支持Ｍａｔｌａｂ 

、
Ｐｙｔｈｏｎ和Ｃ＋＋接口。目前被广泛的应用于计算机视觉领域，
并且取得了很多的成功应用


以及商业部署。
但是由于其
一
流框架结构中的
一
些问题，Ｃａｆｅ对于ＲＮＮ和ＬＳＴＭ等循


环网络和语言模型的支持比较薄弱 

。
Ｃａｆｅ２  Ｃａｆｅ２则是对Ｃａｆｅ提出的进步完善与Ｃａｆｅｌ相比Ｃａｆｅ２更加


一
（４）：。，
注重模块化在移动端和大规模部署上表现出色同前面两种框架样采用Ｃ＋＋Ｅｇｅｎ

一
，。， 
 ｉ
库，支持ＡＲＭ架构。在延续了  Ｃａｆｅ对卷积神经网络的良好支持的基础上，增加了对


循环伸祌经网络诸如ＲＮＮＬＳＴＭ的支持延续了处理视觉类型问题上的贯优秀表



一
、。
现，增加了对自然语言处理、手写识别和时序预测的支持。

但是，目前Ｃａｆｅ向Ｃａｆｅ２


的迁移还很缓慢，而且Ｐｙｔｏｒｃｈ已经完全兼容Ｃａｆｅ２ 

。
６３
－ 

－


综合以上信息，
兼顾到研宄所配置的服务器环境和代码复现能力，本文最终确定将


Ｐｙｔｏｒ
ｃｈ模型框架作为本文代码的框架选择。Ｐｙｔ
ｏｒｃｈ强大的网络层接口和自定义梯度计


算方法，
以及对ＧＰＵ卡号的随意切换，在本文系统设计中给了很大帮助 

。
４５
．
小结


本章对本文系统的融合注意力机制方面进行显著性特征提取方面的改进做了详细阐



述和相关验证实验。
前两小节主要对注意力机制的本质、应用场景和本文中使用到的注


意力机制方法做了详细说明。后两节对注意力机制模型参数进行了对比实验分别包括， 

：
（１）Ｌｏｃａｌ
－
Ａｔｅｎｔｉｏｎ 各窗口大小对模型结果的影响；
（２）Ｓｏｆ
ｔ－
Ａｔｅｎｔｉｏｎ 和  Ｌｏｃａｌ
－


效果比对；
（３）分别在完整系统模型和３Ｄ卷积神经网络上对输出特征序列融合的两种


方法（平均融合方法和Ｓｅｌｆ－
Ａｔｅｎｔｉｏｎ融合方法）的效果比对；
（４）对本文系统模型训


练的两个超参数，ｂａｔｃｈ值和学习率选择，进行调优；
（５）本文系统方案和几种主流方


案利用准确率评价方案在ＵＣＦ１０１和ＨＭＤＢ５１上进行对比，

分析本文系统方案的特点


和长处。
由实验结果可得，
本文方案在高质量视频中有较好表现，
但是在ＨＭＤＢ５１


数
据集上的提高比较微弱，主要在于ＨＭＤＢ５１数据集的背景复杂以及画面抖动严重，



但
是总体上本文方案在人体行为识别任务上有较好的表现效果 

。
６４
－


－
东北大学硕士学位论文 第５章总结和展望


第５章总结和展望


５．１工作总结


人体行为识别是计算机视觉领域基础性关键技术之在安防视频监控和人机交



一
，、
互等方面有广泛应用。尽管应用深度学习技术在人体行为识别等计算机视觉领域取得了


很大成功，但是在长时行为方面的研究还是很少，现在较为成熟的方法还是依赖于双流



网络。
本文提出的
一
整套从特征提取到上下文和显著性学习的人体行为识别方案， 


在
ＵＣＦ１０１和ＨＭＤＢ５１数据集上取得了不错的效果。虽然对于超大型数据集，

本方案的准


确率还有很大提升空间，
但是在科学发展的道路上这种尝试是必不可少的。
本文基于长


短时记忆神经网络（ＬＳＴＭ），提出了利用３Ｄ卷积提取行为特征作为序列模型输入， 


使
用注意力机制学习图像显著性特征进行人体行为识别。本文主要贡献如下 

：
（１）针对目前常见使用光流图获取时间信息的问题，本文使用３Ｄ卷积神经网络提



取人体行为时间信息，提高时间流信息提取效率，
减少因相机抖动等因素带来的噪声影


响。由于图像帧数越高３Ｄ卷积神经网络参数成倍数增加本文采用先将视频分成多段， 

，
段与段之间参数共享，在输出层进行段融合。
并通过对比实验得到，分段３Ｄ卷积神经


网络相较于２Ｄ卷积神经网络效果更好 


。
本文使用长短时记忆神经网络ＬＳＴＭ当做网络解码层还原每个输入序



一
（２）（），
列。由于各个段视频之间存在序列关系，

使用ＬＳＴＭ学习各段之间的上下文关系，
提高


模型表达能力。考虑到ＬＳＴＭ只能学习到当前时刻的前序信息关系，本文最终将双向


ＬＳＴＭ作为本文的序列模型使得每时刻可以学习到完整视频序列的相关信息并获



一
，，
得了更好的效果。
利用层与层之间的Ｄｒｏｐｏｕｔ方法，
减少循环单元中的状态量的损失的


同时，提高模型泛化能力 

。
（３）本文针对图像信息赘余，以前两章的模型为基础框架，

使用基于输入项的软注


意力机制结合序列模型隐含层的输出和输入序列学习每个特征图像素点权重分布，提取



图像的显著性特征，提高特征图的表达能力和模型效果。在段与段输出层融合方面， 


使
用自注意力机制，将每段视频结果序列获取的权重信息进行加权合并。自注意力机制不


仅嵌入在循环神经网络的输出层后提高网络模型效果，而且可以嵌入在人体行为识别任



务中的分段３Ｄ卷积神经网络的输出层用来提高模型效果 

。
６５
－ 

－
东北大学硕士学位论文 第５章总结和展望


５２
．
问题与展望


包括深度学习在内的机器学习领域现在正是处于风口浪尖的时刻，
作为高等院校的


科研人员在积极投身研究的同时，也要专注于深度网络的数学本质，从网络结构原理进


行改进，不同学术领域的算法模型之间也有很好的借鉴性，也需要关注序列任务中不同


领域的相关方法，并从原理上加以改进和应用 

。
模型训练过程中，
简单的模型配合海量的大数据样本的效果要远远超过数据量很小


的复杂模型。因此数据样本的数量和质量决定了算法能够达到的高度，而算法、

模型 

、
优化只能无限的逼近这个高度。在本文的整套方案和完整的训练过程之中，视频数据无


论从数量上还是质量上都是远远不够的，
数量上，
对于超大型数据库，网络下载限制较


多。质量方面，本文所使用的数据集多来自网络视频、家庭自拍、运动员运动动作和运


动摄影，有很多相机抖动和复杂背景问题。希望以后可以有更多的大机构可以公开自己


的视频数据 

。
由于受到硬件计算能力的限制，３Ｄ卷积神经网络的结构可以继续加深，

以便能更好


的提取视频特征，
有学者已经提出使用残差模块加深３Ｄ卷积网络，可以在防止过拟合


的情况下，加深３Ｄ卷积网络的深度，达到更好的特征提取效果 

。
有学者提出的独立循环神经网络（ｉｎｄＲＮＮ）

［
５７
］
也受到了广泛关注，此网络可以学习


到更深长度的序列并具有很强的鲁棒性本文考虑到视频段数较少且实验条件有限
，。， 

，
没有结合ｉｎｄＲＮＮ网络进行尝试，希望后续能够尝试此网络观察是否有更好的表现 


。
－
６６ 

－
东北大学硕士学位论文 参考文献


参考文献


［
１
］
陈晓峰．
电子商务安全性的理论与技术研究Ｄ［］
．
西安：西安电子科技大学，
２００２ 

．
［
２
］Ｌｉｎｎａｉｎｍａａ Ｓ．Ｔｈｅ  ｒｅｐｒｅｓｅｎｔａｔｉｏｎ  ｏｆ ｔｈｅ  ｃｕｍｕｌａｉｖ  ｒｏｕｎｄｉｎ  ｅｒｒｏｒ  ｏｆ  ａｎ  ａｌｇｒｉｔｈｍ ａｓ  ａ  
ｔｅａ
Ｔｇｏ
ｙｌｏｒ  ｅｘｐａｎｓｉｏ  ｏｆ  ｔｎｈｅ  ｌｏａｌ  ｃｒｏｕｎｄｉｎｇ  ｅｒｒｏｒｓ［Ｊ］．Ｍａｓｔｅｒ＇ｓ Ｔｈｓｉｓ，ｅ１９７０：６－７． 
［
３ａ
Ｔ
］
ｎ
ｇ
 Ｊ，Ｄｅｎｇ
 Ｃ，
Ｈｕａｎ  Ｂ．ＥｘｔｅｅｅａｇＧ  ｒ
ｍ  ｌｒｎｉｎｇ  ｍａｃｈｉｎｅ
 ｏｒ  ｍｕｌｔｉｌａｙｒ  ｐｅ
ｆ
ｅｒｃｅｐｔｒｎ［Ｊ］．ＩＥＥＥ 
ｔ
ｒ
ｏａ
ｎｓａｃｔｉ
ｎ
ｏ
ｓ ｏｎ  ｎｅｕａｌ  ｎｅｔｗｏｒｋｓ  ａｎｄ  ｌｅａｒｎｉｎｇ ｓｙ
ｒｓｔｅｍｓ，２
０１６，２７（４）：８
０９－８２１
．

［４］Ｄｕｂｏｓ
ｓａｒｙ
ｋ
ｓ
Ｅ，Ｆｒｉｅｄｍａｎ  Ｊ  ＨＯｍ
ｅｒ
ｏｄ Ｊ Ｔ．Ｗａｖｅｔ－ｂａｓｅｌ
ｄ ｇｒｄｉｅｎｔ
ａ  ｂｏ
ｏ
ｓｔｉｎｇＪ］．Ｓｔａｔｉｓｔｉｃｓ   ａｎ  Ｃｍｐｕｔｉｎｇ，２０１６
２
，
 ，ｒｅ［ｄｏ
６（１－２）：９３－０５１
． 
［５］Ｃｏ
ｖｅｒ 
Ｔ

Ｍ
，Ｔｈｏ
ｍ
ａｓ Ａ

Ｊ
．
Ｅ
ｌｅｍｅｎｔｓｏ   ｆ
ｉｎｆｏｒｍａｔｉｏｎ ｔｈｅｏｒｙ［Ｍ］．ＮｅｗＹｏｒｋ：Ｊｏｈ  Ｗｉｌｅｙ  ＆   Ｓｏｎｎｓ，２０１．  ［２６］Ｍｏｒａｅｓ  Ｒ，
Ｖａａ
ｉ
ｌ
ｔｉ Ｊ  Ｏ
Ｆ，Ｎｏ
ｔ
ｅ
Ｗ
Ｐ  Ｇ  Ｏ．Ｄｃｅｎｌｅｖｅｌ  ｓｎｍｅｔ ｃｌａｓｓｉｆａｔｉｏｎ：Ａｍｐ－   ｉｒｉｃａｌ  ｃｏｍｐａｒｉｓｏｂｅｔｗｅｅＳＶＭ ａｎ
 Ａ

ｄ
ｏｔ－ｅｎｉｃｎｅｎ ｎ 
  ｕｍｔｉ
ＮＮ［Ｊ］．ＥｘｐｅＳｙｓｔｅｍｓ  ｗｉｔｈ  Ａｐｐｌｉｃａｔｉｏｎｓ，２０
ｒｔ １３，４０（２）：   ６２１－６３３．   ［７］Ａｃｋｌｅｙ  Ｄ  Ｈ，Ｈ
ｉｎｔｏｎ 
Ｇ Ｅ，Ｓｎ
ｊ
ｅ
ｏｗｓ
ｋ
ｉ Ｔ．
Ｊ

Ａ

ｌｅａｒｎｉｎｇ

ａｇｒｉｌ
ｏ
ｔｈｍ ｆｏｒ Ｂｏｌ
ｔｚｍａｎｎ  ｍａｃｈｉｎｅｓ［Ｊ］． Ｃｏｇｎｉｔｖｅ  ｉｓｃｉｅｎｃｅ，９８１５，９（１）：１４７－１９．   ［８］６ｉ
ｒ
Ｋ
ｚｈｅｖｓｋｙ  Ａ，Ｓｕｓｋｅｖｒｔ
ｅ
 Ｉ，Ｈｉｎｔｏｎ
．
Ｉｍａｇｅ
ｎ
ｅｔ ａ
ｌ
ｃ
ｓ
ｓ
ｉｆｉｃ
ａｔｉｏｎ  ｗｉｈｔ  ｄｅｅｐ  ｃｏｎｖｏｌｕｔｉ
ｏｎａｌ  ｎｅｕｒａｌ  ｎｅｔｗｏｋｓ［］
．ＡｄｖａｎｃｅｓｒＣ  ｉｎｎｅｕｒａｌ  ｉｎｆｒｍｔｉｏｏａｎ  ｐｒｏｃｅｉ
ｓ
ｎｇ ｓｙｓｔｅｍｓ．２０１２：１０９７－１１０５．  ［９］Ｃｈｏｗ Ｓ  Ｓ  ＭＨｕｉ  Ｌ  Ｃ  Ｋ，ｉｕ  Ｓ  Ｍ．Ｔｗｏ，Ｙ  ｉｍｐｒｏｅｄ  ｐａｖ
ｒ
ｔｉａｌ 
ｙ
ｌ
ｂ
ｌ
ｉｎｄ  ｓｉｇｎａｔｕｒｅ 
ｓｃｈｅｍｅｓ ｆｒｏ
ｍ  ｂｉｌｉｎｅａｒ  ｐｉｒｉｎｇｓ［Ｃ］．Ａｕ
ａｓｔｒａ
ｌａｓｉａｎ  Ｃｏｆｅｒｅｎｃｅ  ｏｎ  Ｉｎｆｏｒｍａｔｉ
ｎｎ
ｏ
 Ｓｅｃｕｒｉｔ
ｙ ａ
ｎｄ Ｐ
ｒｉｖａｃｙ．２００５：３１－  ３２８．   ［１０］徐勤军吴镇扬．视频序列中的行识别研究进展［Ｊ
６  ，为］．
电子测量与仪器学，２０１报４，  ２８（０４）：４
３
－３５ 
．
１

［１１］Ｂｏｉｃｋｂ

ＡＦ，Ｄａｖｉｓ Ｊ Ｗ．Ｔ
ｈ
ｅ

ｒｅｃｏｇｎｉｔｉｏ
ｎ ｏｆｕ
ｈ

ｍａｎｍｏｖｅｍｅｎｔ
 ｕｓｇ
ｎ
ｉ

ｔｅ
ｍｐｏｒａｌ  ｔｅｍｐｌｔｅｓ  ａ
 ［Ｊ］．ＩＥＥ ＴＥ
ｒａｎｓａｃｔｉｏｎｓ  ｏｎ  ａｔｔｅｒｎ  ａｎａｌｙｓｉｓ  ａｄ  ｍａｃｈｉｎｅ
ｐｎｉｎｔｅｌ
ｌｉｇｅｎｃ
，
ｅ
２
０
０
１，２３（３）：２５７－２６７．   ［１２］
Ｄａｎ
ｉｅｌ Ｗｅｉｎｌａ
ｎｄ，Ｒｅｍｉ Ｒｏｎｆａｄ，Ｅｍｏｎｒｄｄ  Ｂ
ｏ
ｙｅｒ．Ｆｒ
ｅｅ ｖ
ｉｅ
ｗｐ
ｏ
ｉ
ｎ
ｔ ａｃｔ
ｉ
ｏｎ ｃ
ｅ
ｒ
ｏ
ｇｎ
ｉｔｉｏｎ  ｕｓｉｎｇ   ｏｔｉｍ
ｏｎ
ｈｉｓｔｏｒｙ ｖｏｌｅｓ［Ｊ］．Ｃｏｍｐｕｔｕｍ
ｅｒ  Ｖｉｓｉｏ  ａｄＩｍａｇ
ｎｎ  ｅＵｎｄｅｒｓｔａｎｄｉｎｇ，２００６１０
（
４，
２）：４９－ ２５７．
［１］Ｙｉｌｍａｚ，Ｓｈａ
ｈ Ｍ．Ａｃ
ｔｓ  Ｓｋｅｔｃｈ：Ａ  Ｎｏｖｅｌ  ＡｃｔｉｏｎＲｅｒｅｓｅｎａｔｉｏｎ［Ｃ．Ｐｒｏ
ｅ
ｃ
２  ３Ａｉｏｎ  ］
 ｐｔ
ｄｉｎ 
ｓ
ｇ
ｏ
ｆ 
 ｔｈｅ  ＩＥＥＥ  Ｃｏｎｆｅｒｅｎｅ ｏｃｎ  Ｃｏｍｐｕｔｅｒ  Ｖｉｓｉｎ  ａｎｏｄ Ｐａｔｔｅｒｎ  Ｒｅｃｏｇｎｉｔｉｏｎ．２００５：９８４－９８９． ［
１４］Ｍａ
ｉ
ｔ 
ｋａｉｎｅｎ  Ｐ，Ｈｅｂｅｒｔ  Ｍ，Ｓｕｋｔｈａｎｋａｒ  Ｒ．Ｔｒａｊｅｃｔｏｎｓ：Ａｃｔｉｏｎ ｒｅｃｏｇｎｉｔｉｏｎ  ｔｈｒｏｕｇｈ  ｔｈｅ

ｍｏｔｎ
ｏ
ｉ

ａｎ
ａｌｙｓｉｓ  ｏ  ｔｒａｃｅｄ  ｆｅａｔｕｒｓ［Ｃ］．ＩＥＥＥ  Ｉｎｔｒｎａｔｉｏｎａｌ  Ｃｎｆｅｒｎｃｅ  ｏｎ  Ｃｏ
ｆ
ｋｅ
ｅｏｅｍｐｕｔｅｒ  Ｖｉｓｉｏｎ．   ２
０
９：５４－５２１．  ［１  １５］Ｌａｐｔｅｖ，Ｉｖａｎ，Ｌｉｎｄｅｂｅｒｇ，Ｔｎｙ．Ｏｎ  Ｓｐａｃｅ－Ｔｉｍｅ  Ｉｔｅｒｅｓｔ  Ｐｏｉｎｔｓ［Ｊ］．Ｉｎｔｅｒｎａｔｉ
ｏｎｏｎａｌｏ
Ｊ

ｕｒｎａｌ  ｏｆ 
Ｃｏｍｔ
ｕ
ｐ
ｅ
ｒ 
Ｖｉｓｉｏｎ，２００
５，６４（２－）：１０７－１３
２３
．  ［１６］Ｌｉｕ  Ｊ，Ｌｏｕ
 Ｊ，Ｓｈａｈ  Ｍ．Ｒｅｃｏｇｉｚｉｎｇ  ｒａｌｉｓｔｉｃ  ａｔｉｏｎｅｃｎｓ ｍ
ｆｒｏｄ
ｉ
ｖ
ｅｏｓ  ＂ｉｎ ｔｈｅｗ  ｉｌｄ＂［Ｃ］
． Ｐｒｏ
ｃｅｅｄｉ
ｎ
ｇ
ｓ ｏｆ 
ｔ
ｈｅ Ｅ
Ｉ
 Ｋ
Ｅ
 Ｃ
ｏｎｆｅｒｅｎｃ
ｅ  ｏｎ Ｃ
ｏｍｐｕｔｅ  Ｖｉｓｉｏｎａｄ  Ｐａｔｔｒ  ｎｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２００９：９９６－  １２００３． ［１７］
ｌｓｅａ
Ａ

ｒ
，Ｍａｒｓｚａｅｋ  Ｍ，Ｓｈｍｉｄ  Ｃ．Ａ  ｓｐａｔｉｏ－ｔｅｍｐｏｒａｌ  ｄｅｓｃｒｉ
ｌｃｐｔｏｒ  ｂａｓｅｄ  ｏｎ  ３ｄ－ｇｒａｄｉｅｎｔｓ   ［Ｃ］．Ｂｒｉｔｉｈ Ｍａｃｓ
ｎ
ｉ
ｈ
ｅＶｉｏ
ｉ
ｓ
ｎ
 Ａｓｓｏｃｉａｔｉｏｎ．２００８，２７５：１－１０．  ［１  ８］Ｄｌａｌ Ｎ，Ｔｉａｒ
ｇ
ｇｓ
Ｂ．Ｈｉｔｏｇｒａｍ  ｏｆ 
ｓｏｒｉｅｎｔｅｄ ｇｒａ
ｉｅｎｔ  ｆｏｒ
ｈ
 ｓ
ｄ
ｕ
ｍｎ  ｄｅｔｅｃｔｉｏｎ［Ｃ］Ｐｒｏｃ．ｅｅｄｉｎｇｓ
ａ
６７
－


－


ｏｆ  ｔｈｅ  ＩＥＥＥ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｃｏｍｐｕｔｅｒ  Ｖｉｓｉｏｎ  ａｎｄ  Ｐａｔｔｅｒｎ  Ｒｅｃｏｇｎｉｔｉｏｎ．２００５，：８１
８６－８９
３
． ９
１
［
］
Ｌａｐｔｅｖ Ｉ，Ｍａｒｚｓ
ａｌｅｋ  Ｍ，Ｓｃｈｍｉｄ  Ｃ．Ｌａｒｎｎｇ  ｒｅａｌｉｓｔｉｃ  ｅｉｈｕｍａｎ  ａｃｔｉｏｎｓ  ｆｒｏｍ  ｍｏｖｉｅｓ［Ｃ］．   Ｐ
ｒｏ
ｃｅ
ｉ
ｄ
ｅ
ｎｇｓ  ｏｆ  ｈｅ  ＩＥＥ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｃｏｍｐｕｔｅｒ  Ｖｉｓｉｏｎ 
ｔＥａｎｄ  Ｐａｔｔｅｒｎ  Ｒｅｃｏｇｎｉｔｉｏｎ．２００８１－：８．   ［２］Ｄ０
ａ
ｌ 
ｌ
ａ
Ｎ
，Ｔ
ｒｉｇｇｓ  Ｂ，Ｓｃｈｍｉ  Ｃ．Ｈｕｄ
ｍａｎ  ｄｅｔｅｃｔｏｉｎ ｕｓｉｎｇ  ｏｒｉｅｎｔｅｄ  ｈｉｓ
ｔｏｇ
ａｍｓｏｆｆ
ｒｌｏｗ 
ａｎｄ   ａｐｐｅａｒａｎｃｅ［Ｃ
．
］
Ｅｕｒｏｐｅａｎ  ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  ｃｏｍｐｕｔｅｒ  ｖｉｓｉｏｎ．２００６：４２８４－４１．  ［２１］Ｓａｎｉｎ ＡＳａ，
ｎｒ
ｅ
ｄ
ｓ
ｏｎ
 Ｃ，Ｈａｒａｎｄ  Ｍ Ｔ．Ｓｐａｔｉｏ－ｅｍｐｏｒａｌｃｏｖａｉａｎｃｅｄ
ｉｔ
 ｒ 
ｅ
ｓｃｒｉｐｔｏｒｓ  ｆｏｒ
ａｃｔｉｏｎ   ａｎｄ
 ｇｅｓｔｕｒｅ ｒｅｃｏｇｎｉｔ
ｏ
ｉ
ｎ［ＣＰｒｏｃｅｅｄｉｎｇｓ
ｏ
ｔｈｅＥ Ｃｏｎｆｅｒｅｎｃｎ ｏｍｐｕｔｅｒ  Ｖｉｓｉｏｎ．２０１３：   １０３－１１０．   ［２Ｌｕａｓ  
ｅ ｏ
２
］．
ｆＥＣ］ｃＢＫ
，
Ｄ
ＩＥ
ｉ

ｎ
ａｎａｄ
ｅ  Ｔ．Ａ
ｔ
ｅｒ
ａｔｉｖｅ ｉｍａｇｅ  ｒｅｇｉｓｔｒａｔｏｎ  ｔｉｅｃｈｎｉｑｕｅ  ｗｉｔｈ  ａｎ  ａｐｐｌｉｃａｔｉｏｎ  ｔｏ   ｓｅｒｅｏ  ｖｉｓｉｏｎ［Ｃ］．ｔＩｎｔｅｒｎａｔｉｏｎ
ｌ
ａ
Ｊｏｉｎｔ Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ａｒｔｉｆｉｉａｌ  Ｉｎｔｌｌｉｇｅｎｃｅ．１９８１：６７
ｃｅ４－６７９．   ［２３］Ｂｒｅｇｏｎｚ
ｉｏ Ｍ，ｉ Ｊ，ＬＧｏｎｇ  Ｓ
．
Ｄｉｓｉ
ｒ
ｃ
ｍ
ｉｎ
ａｔｉｖｅ  Ｔｏｐｉｃｓ  Ｍｏ
ｄｅｌｌ
ｉｎ
ｇ ｆｏｒ
 Ａｃｔｉｏｎ  Ｆｅａｔｕｒｅ  Ｓｅｌｅ
ｃｉｏｔｎ ａｎｄ  Ｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］．Ｂｒｉｔｉｓｈ  Ｍａｈｉｎ  Ｖ
ｓ
ｉｃｅ
ｉｏｎ  Ｃｏｎｆｅｒｅｎｃｅ．２０１
０
：１－１１．   ［２４］Ｄｏｌｌ á  ｒＰ，Ｒａｂａｕｄ Ｖ，Ｃｏｔｔｒｅｌｌ Ｇ．ｅｈＢ
ａ
ｖｉ 
ｒ
ｏ
ｅｃ
ｇｎｉｏｎ  ｖ  ｓｐａｒｓｅ ｐａｔｉｔｏａｌ ｆｅａｕｒｅｓ   ［Ｃ］．Ｖｉｓｕａｌ  Ｓｕｒｖｅｉｌｌａｎｃｅ ａｎ Ｐｅ
ｒｆｏｒａｎｃｅ  Ｅｖａｌ
ｄ
ｔｉｏ－ｅｍｐｔｍａ
ｕ
ａ
ｒ
ｒｏｉｓ
ｔ
ｉｏｎ  ｏｆ  Ｔｒａｃｋｉｎｇ  ａｎｄ  Ｓｕｒｖｅｉｌｌａｎｃｅ．２００５：６５－   ７２．   ［２５］ＤｅｖａｎｎｅＭ，Ｂｅｒｒｅｔｔｉ  Ｓ ，Ｐａｌａ  ＰＭｏｔｉｏ．ｎ ｓｅｅ
ｍ
ｇ
ｎｔｅ
ｄ

ｏｍｏｓｉｔｉｏｎ  ｏｆＧＢ－Ｄ  ｓｅｕｅｃｅｓ ｆｏｒｈｕｎ  ｂｅｈａｖｉｏｒ  ｕｎｄｅｒｓｔａｎｄｎｇ［Ｊ］Ｐａｔｅｒｎ  Ｒｅｃｏｇｎｉｔｉｏｎ，２
ｔ
Ｒ
ｑ   ｍａｉ．
ｃｐ  ｎ
０１７，６１：２２２－２３３．  ［２６］Ｄａｎ  Ｏ，Ｖｅｒｂ
ｅ
ｅｋ  Ｊ，Ｓｃｈｍｉｄ  Ｃ．Ａｃｔｉｏｎ ａｎ
ｄ Ｅｖｅｎ
ｔ  Ｒｅｃｏｇ
ｎ
ｉｔｉ 
ｎ
ｏ
ｗ
ｉｔ
ｈ  Ｆｉｓｈｅｒ  Ｖｅｃｔｏｒｓ  ｏｎ  ａ  Ｃｏｍｐａｔｃ Ｆｅａｔｕｒｅ Ｓｅｔ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｓ  ｏｆ  ｔｈｅ  ｇＩＥＥＥ Ｃｏｎｆｅｒｅｎｃｅ ｏｎ
Ｃ

ｏｍｐｕｔｅｒ  Ｖｉｓｉｏｎ．２０１４：   １８１７－１８２４．  
［２７］Ｐｅｎｇ  Ｘ，Ｚｏｕ  Ｃ，Ｑｉａｏ  Ｙ．Ａｃｔｉｏｎ  ｒｅｃｏｇｎｉｔｉｏｎ  ｗｔｈ  ｉｓｔｋ
ｃ
ａ
ｅｄ  ｆｉ
ｓｈｅｒｅ
ｖ

ｃ
ｔｏ
ｒｓ［Ｃ］．Ｅｕｒｏｐｅａｎ Ｃ  ｏｎｆｅｒｅｎｃｅ ｏｎ  Ｃｏｍｐｕｔｅｒ  ｉｓｉｏｎ．２０１４：５８１－５９
５．   ［２８］Ｗａｎｇ  Ｈ，Ｋｌｓｅｒ  Ａ，Ｓｃｈ
Ｖｉ
ｍ？
ｄ  Ｃ．Ａｃｔｉｏｎ  ｒｅｃｏｇｎｉｔｉｏｎｂ  ｙ  ｄｅｎｓｅ ｔｒａｊｅｃｔｏ
ｒ
ｉｅｓ］
Ｃ
［
．
Ｐｒｏｃｅｅｄｉ
ｎ
ｇ  ｓ
ｏｆ ｔｈｅ  ＩＥＥＥ Ｃｏｎｆｅｒｅｎｃｅ ｏｎ  Ｃｏｍｐｕｔｅｒ  Ｖｉｓｉｏｎ  ａｎｄ  Ｐａｔｔｅｒｎ  Ｒｅ
ｃｏｇｎｉｔｉｏｎ．２０１１：３１６
９－
１
３
７６．   ［２９］Ｚｈｕ  Ｙ，Ｚｈａｏ  Ｘ，Ｆｕ  Ｙ．Ｓｐ
ａｒｓｅ  ｃｏｄｉｎｇ  ｏｎ  ｌｏｃａｌ  ｓｐａｔｉａｌ－ｔｅｍｐｏｒａｌ ｖｏｌｕｍｅｓ  ｆｏｒ
 ｈｕｍ 
ｎ
ａ
ｃｔｉｏｎ ｒｅｇｎｉｔｉｏＣ］．Ａ０－６７１．   ［３０］Ｗａｒｄ  Ｒ  Ｋ，Ｇｕｈ
ｉａ
ｎ Ｃｏｎｆｅｒｅｃｅ  ｏｎ  Ｃｏｍｐｕｔｅｒ Ｖｉｓｉｎ．２０１０： 
ａ
ｏ
ｎ６６
ｏ［
ｓ
ａｃｎ
Ｔ．Ｌｅ
ａｒｎｉｎｇ Ｓｐａｒｓｅ Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ  ｆｏｒ  Ｈｕｍａｎ  Ａｃｔｉｏｎ  Ｒｃｏｅｇｎｉｔｉｏｎ［Ｊ
］．  Ｅ
Ｉ

Ｅ
Ｅ 
Ｔｒａｎｓａｃｔｏｓ  ｏｎ  ａｔｅｒｎ  Ａｉ
ｎ
Ｐｔｎａｌｙｓｉｓ  ａｎｄ  Ｍａｃｈｉｎｅ  Ｉｎｅｌｌｉｇｅｎｃｅ，２０１２，３４（８）：１５７６．  ｔ  ［３１］Ｓｏｍａｎ
ｕ
ｓ
Ａｃｔｏｎ  ｒｅｃｏｇｎｉｔｉｏｎ  ｕｓｉｎ  ｇｌｂａｌ  ｓ
ｄａｒａ  Ｇ，Ｃｈｅｒｉｍａｎ  Ａ，Ｍｏｒｅｌｌａｓ Ｖ．ｉｇｏ
ｐａ
ｔｉｏ－  
ｔｅ
ｍ
ｐ
ｏ
ｒａｌ  ｆｅｕ
ｔ
ａ
ｒ
ｅｓ

ｅｐｒｅｓｎｔａｔｉ
ｄｅｒｉｖｅｄ ｆｒｏｍ  ｓｐｒｓｅ  ｒａｅ
ｏｎｓ［Ｊ］．Ｃｏｍｐｔｅｒ  Ｖｉｓｉｏｕｎ ａｎｄＩｍｇｅ ｎｄｅａＵｒｓｔａｎｄｉｎ２
，
ｇ
０１４，１２３（７）：１－１３．   ［３２
］Ｃｏｒｓｏ Ｊ  Ｊ．Ａｃｔｉｏｎ  ｂａｎｋ：Ａ  ｈｉｇ－ｌｅｖｅｌ 
ｈｒｅｐｒｅｓｅｎｔａｔｉｏｎ  ｏｆ ａｃｔｉｖｉｔｙ 
ｎ
ｉ
 ｖｉｄｅｏ［Ｃ］．Ｐｒｏｃｅ
ｅｄｉｎｇｓ ｏｆ
ｔｅ ｈ
Ｉ
ＥＥＣ

Ｅ
ｎｆ
ｒｅｎｃｅ ｏｎ Ｃｐｕｒ  Ｖｉｓｉｏａｄ Ｐａｅｒｎ  Ｒｅｃｏｇｎｉｔｉｏｎ．２０１２：１３４－１２４１．   ［３３］Ｌｉ  Ｃ，Ｗｇ  Ｐ，Ｗａｎｇ  Ｓ．Ｓ
ｔ
ｏｍｔｅｎ  ｎｔ２ｎｅ
ｋ
ｏｅａ
ｌｅｔｏｎ－ｂａｓｅｄ  ａｃｔｉｏｎ  ｒｅｃｏｇｎｉｔｉｏ
ｎ ｕｓｉｎｇ  ＬＳＴＭ  ａｎｄ  ＣＮＮ［Ｃ］．   ＩＥＥＥ Ｉｎｔｅｒｎａｔｉｏｎａｌ Ｃｏｎ
ｆｅｒｅｅ
ｃ
ｎ

ｏｎ
 Ｍｕｌｔｉｅｍ
ｄｉａ  ＆  ｘｐｏ ＷｏｒＥ
ｋｓｈｏｐｓ．２０１：５８５－５９０．   ［３４］Ｊｉ  Ｓ，Ｘｕ  Ｗ，Ｙａｎｇ  Ｍ．３Ｄ  Ｃｏｎｖｏｌｕｔｉｏｎａ
７
Ｎ

ｌ
ｕｒａｌ Ｎｅｔｗ
ｏｒｋ  ｆｏＨｕｍａｎ  Ａｃｔｉｏｎ  ｅｃｉｔｉｏｎ   ［Ｊ］．ＩＥＥＥ  Ｔｒａｎｓａｉｏｓｏｎ  Ｐｔｔｅ
ａ
ｅｓｒ  Ｒｏｇｎｃｔｎ  
ｎ
ｒ
Ａ
ｎａ
ｌｙｓｉｓ ａｎ
ｄ  Ｍａｈｉｎｅ  ｎｃ
Ｉ
ｔｅｌｌｉｇｅｎｃｅ，２０１３，３５（１）：２２１－２３１．   ［３５］Ｗａｎｇ  Ｘ，Ｇａｏ  Ｌ，Ｓｏｎｇ  Ｊ．Ｂｅｙｏｎｄ
ｒ
Ｆ
ａ
ｍ
ｅ
－ｌｅｖｅｌ  ＣＮＮ：Ｓａｌｉｎｃｙ－Ａｗａｒｅ ３－Ｄ
 ｅＣＮＮ  Ｗ
ｉｔｈ   ＬＳＴＭ  ｆｏｒ  Ｖｉｄｅｏ Ａｃｔｉ
ｏｎ Ｒｅｃｏ
ｇｎｉｔｉｏ
ｎ［
Ｊ
］
．
ＩＥＥＥ 
Ｓ
ｉｇｎ 
ｌ
ａ
ｒｏ
ｅｓｓｉｎｇ  ｅｔｔｅｒｓ２０１７，２４４）：５１０－５１４．  ６］Ｓｉｍｏｎｙｎ Ｋｉｓｓｍａｎ  Ａ．Ｔｏ－ｓｔｒｅａｎ
ｏ
ｃ
ｗ
［ｒ

ＰｃＬ，
（３ａ，Ｚ
ｅｍ
ｖｏｌｕｔｉｏｎａｌ  ｎｅｔｗｏｒｋ  ｆｓｏｒ  ａｃｔｉｏｎ ｒｅｃｏｇｎｉｔｉｏｎ ｉｎ   ｖｉｄｅｏｓ［Ｃ］．Ａｄｖａｃｅｓ ｉｎ  ｎｎｅ
ｕｒａｌ 
ｉｎｏ
ｆｒ
ｍａｔｉｏｎ
 ｐｒｅ
ｃ
ｏ
ｅｍｓ．２４  ３７］Ｌ，Ｑｉａｏ  Ｙ，Ｔａｎｇ  Ｘ．Ａｃｔｉｏｎ  ｒｅｃｏｇｎｉｔｉｏｎ  ｗｉｔｈ  ｔｒａｊｅｔｏｒｙ－
ｓ
ｓｉｎｇ ｓｙｓｔ０１
：５６８－５７６．  ［
Ｗ
ａｎｇ  ｏ
ｐｃ
ｏｅｄ  ｄｅｅｐ－
ｌｃｏｎｖｏｌｕｔｉｏｎａｌ
６８
－ 

－


ｄｅｓｃｒｉ
ｐｔｏｒｓ［Ｃ
］．
Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ  ｔｈｅ  ＩＥＥＥ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｃｏｍｐｕ
ｔｅ Ｖ
ｒｉｓｉｏ  ａｎｄ Ｐａｔｔｅｒｎ 
ｅ
Ｒｎ
ｃｏｇｎｉｔｉｏｎ．２０１５：４３０５－４３１
４
．  ［］
８
３
Ｗ
ａｎ
ｇ  Ｌ，Ｘｉｏｎｇ  Ｙ，Ｗａｎｇ ．Ｚ
Ｔｅｍｐｏｒａｌ Ｓｅ
ｇ
ｍｅｎ Ｎｅｔｗｏｒｋｓ：Ｔｏｗａｒｄｓ
ｔ  Ｇｏｏｄ Ｐｒａｃｔｉｃｅｓ  ｆｏｒ   Ｄｅｅｐ Ａｃ
ｉ
ｔ
ｏｎ Ｒｃｏｅ
ｇｎｉｔｉｏｎ［Ｊ］．Ａｃ  Ｔｒａｎｍ
ｓ
ａｃｔｉｏｓ ｏｎ  Ｉｎｎｆｏｒｍａｔｉｏｎ  Ｓｙｓｔｅｍｓ，２０１６，２２（１）：２０－３６． 
［３９
］
Ｙａｎ 
Ｘ
，Ｃｎ
ａ
ｈ
ｇ
 Ｈ
，ＳｈａｎＳｏｄｅｌｉｇ 
．Ｍｎ  ｖ
ｉｄｅｏ  ｄｙｎａｍｉｃｓ  ｗｉｔｈ  ｄｅｅｐ  ｄｙｎｅｃｏｄｅｎｒ［Ｃ］．Ｅｕ
ｒｏｐｅａｎ   Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｃｏｍｐ
ｔ
ｕ
ｅｒ  Ｖｉｓｉｏｎ．Ｓｐｒｉｎｇｅｒ．２０１：４２１５－２３０．

［４０］Ｓｒｉｖａｓｔａｖａ  Ｎ
，
Ｍａｎｍ
ｉ
ｓ
ｏ
ｖ
Ｅ，Ｓａ
ｌａｋｈｕｄｉｎｏｖ  Ｒ．Ｕｎｓｕｐｅｒｖｉｓｅｄ  ｌｅａｒｎｉｎｇ  ｏｆ  ｉｄｅｏ   ｒｅｐ
ｖｒｅｓｅｎｔａｔｉｏｎｓ  ｕｓｉｎｇｌｓｔ
ｓ
ｍ 
［Ｃ
］．Ｉｎｔｅｒｎａｉｏｎａｌ  ｃｏｎｆｅｒｅｎｃｅ  ｏｎｍａｅ  ｌａｒｎｉｎｇ．２０１５：８４３－８５２．   ［１］Ｈｂｅｌ  Ｄ  Ｈ
ｃｈｉｎＷｉｅｅ ＴＮ．ｅｃｅ
Ｒ
ｔ  ｅ４ｕ，ｓｌｉ
ｔ
ｐ
ｖ
ｅ 
ｆｉｅｌｄｓｉｏｌ，ｂｎ
ｃｕ
ａｒｉｎｔｅｒｔｉｏｎ ａｃａｎｄ ｕ
ｎｃｉｏｆｔ
ｎａ
ｌ  ａｒｃｈｔｅｉｃｔｕｒｅ   ｉｎ  ｔｈｅ ｃａｔ＇ｓ  ｖｉｓｕａｌ  ｃｏｒｔｅｘ［Ｊ］．Ｊｏｕ
ｎ
ｒ
ａｌ  ｏｆ  Ｐｈｙｓｏｌｏｇｙ，１９６２，１６０（：０６－１５４．   ［４２ＬＥｃｕ，ａｎｎ］ｎＹ

Ｂｏｔｔｏ，Ｌｅｏｎ，ｅｎｇｉｏ，
Ｙｏｓａ
ｕ
ｈ
１）１，ｕ
Ｂ
Ｇｒａｄｉｅｎｔ－ａｓｅｄ ｅａｒｎ
ｉｎｇａｐｐｌｉｄ  ｔｏ  ｄｃｕｍｅｎｔ  ｅｃｏｇｎｔｉｏ［Ｊ］．Ｐｒｃｅｅｄｎｇｓ  ｏｆ  ｈｅ  ＩＥ
ｎ
 ｒｉｏｉｔ
．ｂｌ  ｅｏ
，１９９８，８６（１１）：２２７８２３．４３］Ｓｚｅｇｄｙ Ｃ，Ｌ Ｗ，Ｊｉａ  ．Ｇｏｉｎｄｅｗｉｔｈ ｏｎｖｏ

ｃ
－［ｅｕｐｅ
２４ 
 ｉ
Ｙｇ  ｅｒ
 ｔ
ｕ
ｌ
ｉ
ｏｎ
ｓ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｓ ｏｇ
ｆ 
ｔｈｅＩＥＥＥ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ Ｃｏｍｐｕｔｒ  Ｖｉｓｉｏｎ  ａｅｎｄ Ｐａｔｔｅｒｎ  Ｒｅｃｏｇｎｉｔｉｏｎ．２０
５
１
：１－９．   ［４４］Ｈｅ  Ｋ，Ｚｈａｎｇ Ｘ，Ｒｅｎｓｉｄｕａｌ  ｌｅａｒｎｉｎｇ 
 Ｓ．Ｄｅｅｐ  ｒｅｆｏｒ  ｉｍａｇｅ

ｒｏ
ｃ
ｅ
ｇ
ｎｉ
ｔｉｏｎＣ．Ｐｒｏｃｅｄ［
］
ｅｉｎ
ｇｓ  ｏｆ   ｔｈｅ Ｉ
ＥＥＥ  Ｃｏｎｆｅｒｅｎｃｅ  ｏ
ｎ  Ｃｏｍ
ｐｕｔｅｒ  Ｖｉｓｉｏｎ  ａｎｄ  Ｐａｔｔｅｒｎ  Ｒｅｃｏｇｎｔｉｏｎ．２
１
０ｉ
６：７７０－７７８．   ［４５］ＬｅＣｕｎ  Ｙ，Ｂｅｎｇｉｏ  Ｙ．Ｃｏｎｖｏｌｕｔｉｏｎａｌ ｎｅｔｗｏｒｋｓ ｆｏｒ  ｉｍａｇｅｓ，ｓｐｅｅｃｈ
，
ａｎｄｉ
ｔ

ｍ
ｅ
ｓｅｒｉｅｓ［］Ｔｈｅ   Ｊ
．
ｈａｎｄｂｏｏｋ  ｏｆｂｒ  ａｉｎ ｔｈｅｏｒｙ  ａｎｄ  ｎｅｕｒａｌ  ｎｅｔｗｏｒｋｓ，１９９５，３３６１（１０）：１９９５．

［
４
６］Ｊｉ
，
Ｓ
Ｘｕ Ｗ，Ｙａｎｇ  Ｍ３Ｄ  ｏｎｖｏｌｕｔｉｏｎａｌ  ｎｅｕｒａ．ｃｌ  ｎｅｔｗｏｒｋｓｆｏｒ  ｈ  ｕｍ
ａｎ  ａ
ｃ
ｔｉｏ ｒｅｃｏｎｉ
ｎ
ｇ
ｔ
ｉｏｎ［Ｊ］．   Ｉ
ＥＥ  ａｎｓａｔＥ
Ｔｒｃ
ｉｏｎｓ ｏｎ  Ｐａｔｅｎ  Ａｔｒｎａｌｙｓｉｓ  ａｎｄ  Ｍａｃｈｉｎｅ Ｉｎｔｅｌｌｉｇｅｎｃ，２０１３，３５（ｅ１）：２２１－２
３

．
１
 ［４７］Ｔｒａｎ  Ｄ，  ｏｕｒｄｅｖ  Ｌ，Ｆ
ｅｒｇｕＢｓ Ｒ．Ｌ
ｅａ
ｒｎｉｎｇ ｓｐａｔｉｔｅｍｐｏｒａｏｌ  ｆ
ｅａｔｕｒｅｓ
ｗｉｔｈ 
３ｄ

ｃ
ｏ
ｎｖｏｌｕ
ｔ
ｉｏｎ 
ｌ
ａ
ｎｅｔｗｏｒｋｓ［Ｃ．Ｐｒｏｃｅｅｄｉｎ  ｏｆ ｔｈｅ ＥＥＥ ｉｎｔｅｎｆｅｅｎｃｅ  ｏｎ  ｃｏｍｐｕｔｅｒ  ｖｉｓｉｏｎ２０５： 
ｒｎａｔｉｏａｌ  ｃｏｎｒ．４

ｓ１
Ｉ
 ］ｇ
８９－４４９７．   ［４］Ｓｏｏｍｒｏ  ，Ｚａｍｉｒ  Ａ  Ｒ，Ｓｈａｈ Ｍ．ＵＣＦ
１０１Ａ  ｄｔａｓｅｔ ｏｆ  １０１  ｈｕｍａｎ  ａｃｔｉｏｎ
８Ｋ：ａｓ  ｃｌａｓｅｓｓ  ｆｍ
ｏ
ｒ
 ｖｉｄ
ｅｏｓ  
ｎ
ｉ
ｈｅ  ｗｉｌｄ［Ｊ］．Ｃｍｐｕｔｅｒ Ｓｉｃ
ｎｃｅ，２０１２：２－４．   ［４９］Ｗｉｓｈａｒｔ  Ｄ  Ｓ，Ｔｚｕｒ  Ｄ，Ｋｎｏｘ  Ｃ．ＨＭＤＢ：ｔｈｅ  ｈｕｍａｎ 
ｅ
ｍ
ｔｏｅ
ｔｂｏｌｏｍ ｄａｔａｂａ
ａｅｓｅ［Ｊ］．Ｎｕｃｌｅｉｃ ａｃｉｄｓ  ｒｅｓｅ 
ａｒ
ｃｈ，２００７３，
ｓ
（
５
ｕ
ｐｐ
ｌ＿１）：Ｄ５２１－Ｄ５２６．
 ［５］０
Ｈｏ
ｐｆｉｅｄ  Ｊ．Ｎｌ  Ｊｅｕｒａｌ  ｎｅｔｗｏｒｋｓ  ａｎｄｐｈｙｓｉｃａｌ  ｓｙｓｔｅｍｓ   ｗｉｔｈ  ｅｍｅｒｇｅｎｔ
ｏ
ｃ
ｌｌｅｃｔｉｖｅ

ｃｏｍｐ  ｕｔ
ａｔ
ｉ
ｏｎａｌ  ｂ
ｉ
ｌｉｔｉｅｓ
［
Ｊ］．Ｐｃ
ｏ
ｒ
ｅ
ｅｄ
ｉｎｇｓ  ｏ
ｆ ｔｈｅｎａｉｏｎａｔｌａｃａｄｅｍｙ  ｏｆ  ｓｃｉｅｎｃｅｓ，１９８２，７９（８）：２５５４－ ２５５８．  ［５１］Ｂａｈｄａｎａ

ｕ
Ｄ，Ｃ
ｈｏＫｅｎｇ
 ，Ｂｉｏ Ｙ．Ｎｅｕｒａｌ
ｍ
ａ
ｃ
ｈｉｎｅ ｔｒａｎｌａｔｏｎｂｙ ｊｏｉｎｌｙ  ｓｉ  ｔｌｅａｒｎｉｎｇ ｔｏ  ａｌｉｇｎ   ａｎｄｔｒａｎｓｌ
ａｔｅ［
Ｊ
］．２０１４ 

．
［５２］ｃ
ｏ
Ｈ
ｈ
ｒｅ
ｉｔｅｒ Ｓ，Ｓｃｈｍｉｄｈｕｂｅｒ  ．ＬｏｎｇＪ
 ｓｈｏｔｒ－ｔｅｒｍ  ｍｅｍｏｒｙ［Ｊ］．Ｎｅｕｒａｌ  ｃｏｍｐｕｔａｔ
ｉｎ，９９，  ９８）：１７３５
ｏ１７（－１
７８
．
０
 ［５３］Ｇｒａｖｅｓ  Ａ．Ｓｕｐｅｒｖｉｓ 
ｄ
ｅ
Ｓ
ｅｑ
ｕｅｎｃｅ Ｌａｂｅｌｌｉｎ  ｗｉｔｈ  Ｒｅｃｕｒｒｅｎ  Ｎｅｕ
ｇ

ｒａｌＮｅ
ｔｔ
ｗ
ｏｒｋｓ［Ｍ］．Ｂｅｒｌｉｎ：   Ｓｐｒｉｎｇｅｒ，２
０１：３５１
２１７
－
７８０．［


５４］ｈｄａｎａＤ，Ｃ
ｕ
ａ  
ｏ
ｈ
Ｋ
，Ｂ
ｅｎｇｉｏ Ｙ．ｅＮｕｒａｌ
 Ｍａｃ
ｈｉｎｅＴｒ
ａ
ｎｓｌａｔｉｏｎ ｂｙ  Ｊｏｉｎｔｌｙ  Ｌｅａｒｎｉｎｇ  ｔｏ  Ａｌｉｇｎ  ａｎｄ Ｔｒａｎｓ
ｌａ
ｔｅ［Ｊ］．Ｃｏｕ
ｐ
ｍ
ｔｅｒ
Ｓｅ，０４．   ］Ｌｕ
ｃｉｅ［
５
２５
ｃ
１ｇ
ｎ
ｏ

Ｍ 
Ｔ，Ｐｈａｍ Ｈ，Ｍｎａ
ｎｉ
ｎｇ Ｃ Ｄ．
Ｅｆｆｅｃｔｉｖ ａｐｐｒｏｅａｃｈｅｓ  ｔｏ  ａｔｔｅｎｔｏｎｂａｓｅｄ  ｎｅｒａ   ｍａｃｈｉｅ  ｔｒａｎｓ
ｉ－ｕｌｎｌａ
ｔｉ
ｎ
ｏ
［Ｊ］．２０１５．  ［５６］Ｌｉ  ｎ  Ｚ，Ｆｅｎｇ Ｍ，Ｓａｎｔｏｓ Ｃ 

Ｎ Ｄ．Ｓ

Ａ
ｒｕ
ｔｕｒｅｄ Ｓｅｌｆａｔｔｅｎｔｉｅ  Ｓｅｎｅｎｃｅ  ＥｂｅｄｉｎｇＪ］．２０１７．   ［５７］Ｌｉ  Ｓ，Ｌｉ  ＷＣｏｋ Ｃ．Ｉｎｄｅｐｅｎ
ｏ
ｔｍ［，ｎ
ｅ
ｄ
ｔｃ－ｖ
ｔｌｙ  ｅｃｕｒｒｅｎｔｎｅｒａｌ
ｒ  ｕ

ｎ
ｅ
ｔ
ｗｏｒｋ  ｎ
ｉ
（
ｄ
ｒｎ
ｎ）：Ｂｕｉｌｄｉ
ｎｇ  ａｌｏｎ
ｇｅｒ
６９
－ 

－


ａｎｄ  ｄｅｅｐｅｒ  ＲＮＮ［Ｃ
］．Ｐｒｏｃｅｅｄｉｎｇｓ
ｏｆｔｈｅ  ＩＥＥＥ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｃｏｍｐｕｔｅｒ  Ｖｉｓｉｏ  ａｎｄ Ｐａｔｔｅ
ｎｒｎ
ｅ
Ｒ
ｃｏｇｎｉｔｉｏｎ．２０１８：５４５７－５４６６
７０
？ 

－
东北大学硕士学位论文致谢



致谢


时间匆匆而过，转眼间，
我在东北大学的研宄生学业即将落幕。在两年多的学业生


活中，遇到过困难，面临过迷茫，也时刻激励着自己不断前行。如今，即将离开校园的



我，将要开启人生新的篇章，内心充满着对未来生活的期待。回顾我的研究生生涯， 


科
研路上既有汗水也有欢乐，更离不开老师和同学们的支持帮助 


。
首先，我要感谢我的导师潘峰老师。在这两年多的时间里，
潘老师鼓励我选择我自


己感兴趣的研宄方向，并给予我充分的自由学习机会，锻炼我的自主学习的能力。

在生


活上，
潘老师给予了我很多富有智慧的指点和待人接物的做人态度。我在潘老师身上学


到的不仅有脚踏实地、低调质朴的教学态度和科研精神，更重要的是做人做事的态度与



方法 

。
同时，我要感谢同一
个实验室的王浩然老师，感谢王老师在我的求知路上对我的宽


容和信任。我从王老师身上学到了很多很多，无论是学术研究还是生活方面，王老师都



无私地给了我很大的帮助。王老师带我走进了计算机视觉领域的殿堂，尤其是在本论文



方案的提出和相关实验上，都给了我极大的帮助和建议。王老师在百忙之中还对我的论



文编写提出了宝贵意见，指导我完成论文的编写 

。
感谢同
一
实验的薛定宇老师，
薛老师为人治学严谨、精益求精，具有大师风范。 

希
望有朝我能够像薛老师样成为个品格高尚教学严谨温柔善良的学者和亲人

一一一
日、、 

。
我十分有幸能进入薛老师的大团队中，
大家认真而热情的学习和生活氛围深深感染着我 

。
尤其是，张悦同学、张奔奔同学、李昆仑同学和胡雪同学，因为有了你们的关切，我的


学习生涯才会如此丰富精彩，在你们每个人身上我学到了很多 


。
感谢我的父母我的父母不仅养育了我更是直支持着我的学业鼓舞我跨过

一 

一
，，
，
个个的难关他们给予了我完美和由的成长环境对我的人生有着独无二的影响

一
一
，自， 

。
最后，
感谢百忙之中抽出时间评阅本论文的专家和学者，诚恳地期待各位专家的帮


助和指点 

。


－
７
－

基于Bi-LSTM和注意力... 体行为识别方法的研究与实现 张森

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于Bi-LSTM和注意力... 体行为识别方法的研究与实现 张森

Uploaded by

Copyright:

Available Formats

Ｍ  ｒ ／ ％

学位授 予 日 期 ： ２０ １ ９ 年 １ 月 答辩委 员 会主席 ：

无论 是 商业角 度还是社会角 度上 ， 人体行为识 别 技术在 智 能监控 、 人机交互 、 视频

检索 等领域都有 着 重 要 的 应用 价值 。 在 人体动 作 本 身 具有 高度 复杂 性 、 外界背景干扰 

首先 构建 了 种 将 视频 分成若 干段 每 段使用 Ｄ 卷积神经 网 络 的 特征提取方

习 动 作特征上下文 的方法 针对动 作 时 序信 息 既受到 前文影 响 又受到后文影响这 

可 以 处理上 下 文 的 视频 特征 。 最后在 ＵＣ Ｆ １ ０ １ 数据 集上验证 了 该 模 型 在 人 体 行 为 识 别 任

机制 ， 通过本 身 的 特征序 列 分布 ， 分配各个分段 的 结 果序 列 的 权重 系 数 。 最后本文系 统

率为 ８ ８ ０ ． ％ ， ２ Ｄ Ｃ ＮＮ ＋ Ｌ Ｓ Ｔ Ｍ  网 络准 确 率达到 ８ ８ ． ６％ ， 而本文 的  Ｃ ３ Ｄ＋Ｂ ｉ

，ａ  Ｃ３ Ｄ ＋ Ｂ ｉ－Ｌ Ｍ ＋ Ａ ｔｔ ｎｔ ｄｅ ｌ  ｉ ｎ  ｔ ｈ ｉ ｓ ｈｅ ｓ ｉ ｓ ９０． ７％． Ｔ ｅ ｓ ｕｌ ｓ  ｓ ｈ ｏｗ  ｔ ｈ ａ ｔ  ｔ ｈ ｅ  ｐ ｒ ｏ ｐ

作和 手势 等 ， 可 以 帮助 人们 获得对方 的 情 感或者 意 图 。 在 大数据 时代 中 ， 处理人机交互

１ ９ 世纪 ７０ 年代 ， Ｍ ａｒｅｙ 等学者最早开始 了 人体行为识别 技术 的 研 究Ｗ ，

机器学 习 算法使得人体 行为识 别 的 传统特征融合和 分类效果达 到 了 个高度 也使得学

进入 ２ １ 世纪 ， 国 际顶尖学府 、 微软研 究 院 、 谷歌研 究 院等Ｐ 多 家机构 在 人体动 作识别领

传 统 的 视频监控 使 用 人工 监控 ， 在流量少 的 情 况下 ， 人工 监控 成 为 主 要 的 监 控手段 。 

深度 学 习 算法在 图 像处理 、 文 本处理和 语音识别 方面得 到 了 广泛应用 ， 并取得 了 良

好效果 。 对于深度学习 中 序列模型 问 题 ， 涉 及 到 对 序 列 数据 的 底 层 知 识 信 息 提 取 和 序 列

人体 行 为识别 在 现实生 活 中 应 用 广泛 成为 国 内 外研 宄机构和 高校 的研 宄热 点 之

取有 意 义 的 特征表达变 得 困 难 如 何 能 有 效提取视频行 为特征 直是 国 内 外 学者 的研

照 表示方法 上 分为整 体 表示 方法和 局 部 表示 方 法 

整体 表示 方法 是 指整体分析 个人体动 作 将 人体完整 动作 作 为 个整体

表示运动 图 像如 何移动 表示每个像素 点 的 时 间 历史 的 函 数 等人

等人 使用 时 空体积 的不 同 特性来确定 行为 是 沿 时 间 轴 叠 加 物体轮廓

建立起来 的 。 由 于缺 乏主体的外观和时 间 信 息 ， 整体 方法 的 方 式过于模板 ， 不 能有效捕

中 使 用 局 部 区 域来表 征人体 行 为 信 息 。 局 部特 征 表 征 视频信 息 主 要 步骤 ：

在运动 区 域检测 方面 ， Ｌ ａｐｔｅ ｖ 等人 ［

轨迹提取局 部特征 ， 使用 轨迹速度作 为 局 部特征 。 Ｍｅｓｓ ｉ ｎｇ 等人 使用 ３ Ｄ Ｈ ａｒｒ

测 兴趣点 然后使用 跟踪 器 对运动 区 域兴趣 点 生成轨迹 等人 

处理 才能作为模型 的输入 等人 提出 词袋 中 局 部描述子 分布

作为描述符 最近 种 更好的编码描述方式 ＦＶ（ Ｆ Ｖ ｅｃ 编 码 逐 渐 成 为 更

近年来 深 度 学 习 在 计 算 机 视觉 领域 获得越来越 多 的 关注 些 学 者 也 尝试将 深度

学 习 算法应用 于 行为识 别 。 深度 学 习 方法不 用 手动提 取特征 ， 保 留 了 更 多 视频 原 有 的 信

元 素相 乘 融合三种 融 合方法 等人 提 出 三维卷积 网 络 方法 在

的基础上加 入 了 时 间 维度 ， 不仅可 以 学 习 到 空间信 息 ， 而且可 以 获取 时 间 信 息 。 Ｗ ａｎ ｇ 

提出 了  ３ Ｄ Ｃ ＮＮ 和 ＬＳＴＭ 结合的网络 ， 加 强 了 动作识别 中 时 间序列 的学 习 ， 同 时对

定帧数 图像 不像 ＬＳＴＭ 可 以 动 态 改变输入 具有 定局 限性 但是其效果 比 Ｃ ＮＮ 

ＬＳＴＭ 结 合 的 方法要 好 并且 训 练速度 更快 另外 Ｄ Ｃ ＮＮ 和 ＬＳＴＭ 的结合也是 

融合方 式 为平均 融合 、 最大值融 合或者 ＳＶＭ 进行分类融 合 ，

Ｆ ２Ｔ ｗ ｏ ｓ ｔ ｒ ｅ ａ ｍ ｎ ｅ ｔ ｗ ｏ ｒ ｋｓ ｔ ｒ ｕ ｃ ｕｒｅ

Ｗ ａｎ ｇ 等 人Ｐ 使 用 改进 的 轨迹描 述子代 替 光流提取 时 间 信 息

Ｗ ａｎｇ 等人 加 入 分段和 随机化采样 ，

时 加 入 大数据 集预 训 练 、 数据增 强 、 图 像校准等技术 ，

了 深度 自 动编码器 （ Ｄ ｙｎｅ ｎｃｏｄｅｒ ） 获 取 视频运 动 信 息 ，

差 ， 压缩 了 行 为 识 别 的 存储和 运 行成本 。 为 了 更 好地 学 习 时 间 信 息 ， Ｓ ｒ ｉ ｖａｓ ｔ ａｖ ａ Ｎ 等 人＿ 

提出 了 基于 Ｌ Ｓ ＴＭ 的 自 编码模型 ， 由 编码器 ＬＳ ＴＭ 和 解码器 ＬＳ ＴＭ 组成 。 编码器 ＬＳＴＭ

接 受视频序 列 作 为输 入并 学 习 到 人 体 行 为 特征 的 紧 凑 表 达 解 码器 ， ＬＳＴＭ 将 紧凑序 列作

虽然深度 学 习 目 前 在 人体 行 为识 别 方面有 了 很 好进展 ，

容 易 忽 略 行为识 别 中 时 间 流和 空 间 流 的 倍 息维度 差 异 。 传统 的 桩于深度学 的人体 行为

取 出 有 效特征 。 而 后 改进 的 基于深度 学 习 的 人体 行 为 识 别 方法加 入循环 神 经 网 络 学 习 局

特征结合 ， 共 同 作 为 视频信 息特征序列 ，

行为识别 作 为计算机视觉 的 个基本 问 题 在 机器 学 习 和 人 工 智 能领域具有 很 高 的

是卷积 网 络和循环 网 络 ， 得 到 不 同 段动 作 的 上下 文关系 ，

（ １ ） 分析人体行为识别 的 研 宄现状和 现存 问 题 ， 将 人体行为 识 别 传 统 方法和 深度 学

分析二 维卷积 网 络在双流 网 络上 的 效 果 和 三维卷积在 单流 网 络 的 效果 ，

机抖动 影 响 ， 不适合 行 为分析 的 实时应用 。 三 维 网 络针对 时 间 流信 息对二 维卷积 维度进

（ ３ ） 研 宄深度 学 习 方法 中 常 见 的 序 列 模 型和 循环 网 络 的 几种变种 。 对 比循环 网 络 中

用于 张图像中 的 小 部分 正 如 人 的 视野注 意 力 只 会集 中 在人体动 作 区 域 对背景关

强行 为特征 的表达能力 。 在 各个子段视频结 果 融合方面 ，

本文研 宄为深度学 习 及 人体 行 为识别 ， 全文为五个章节 ， 以 下 为每个 章 节 简 介 

第 ２ 章 主要 讨 论三维卷 积 网 络 用 于 视频 行 为特征提 取 。 本 章 主要 阐 述卷积 网 络算法

人体行为特征编码层 。 最后 总 结 常用 的 人体行为识别 数据集并详细 介绍 ＵＣＦ １ ０ １ 数据集

第 ３ 章 探讨 了 几种 常用 的适用 于人体行 为分析 的 序列模型 。

Ｌ ＳＴＭ 作 为视频段 的 解码层 。 使用 第 ２ 章的 ３ Ｄ 卷积神

基于Bi-LSTM和注意力... 体行为识别方法的研究与实现张森

基于Bi-LSTM和注意力... 体行为识别方法的研究与实现张森

Ｍ  ｒ／％

学位授予日期：２０１９年１月答辩委员会主席：

无论是商业角度还是社会角度上，人体行为识别技术在智能监控、人机交互、视频

检索等领域都有着重要的应用价值。在人体动作本身具有高度复杂性、外界背景干扰 

首先构建了种将视频分成若干段每段使用Ｄ卷积神经网络的特征提取方

习动作特征上下文的方法针对动作时序信息既受到前文影响又受到后文影响这 

可以处理上下文的视频特征。最后在ＵＣＦ１０１数据集上验证了该模型在人体行为识别任

机制，通过本身的特征序列分布，分配各个分段的结果序列的权重系数。最后本文系统

率为 ８８０．％，２ＤＣＮＮ＋ＬＳＴＭ  网络准确率达到 ８８．６％，而本文的  Ｃ３Ｄ＋Ｂｉ

，ａ  Ｃ３Ｄ＋Ｂｉ－ＬＭ＋Ａｔｔｎｔｄｅｌ  ｉｎ  ｔｈｉｓｈｅｓ ｉｓ９０．７％．Ｔｅ ｓｕｌｓ  ｓｈｏｗ  ｔｈａｔ  ｔｈｅ  ｐｒｏｐ

作和手势等，可以帮助人们获得对方的情感或者意图。在大数据时代中，处理人机交互

１９世纪７０年代，Ｍａｒｅｙ等学者最早开始了人体行为识别技术的研究Ｗ，

机器学习算法使得人体行为识别的传统特征融合和分类效果达到了个高度也使得学

进入２１世纪，国际顶尖学府、微软研究院、谷歌研究院等Ｐ多家机构在人体动作识别领

传统的视频监控使用人工监控，在流量少的情况下，人工监控成为主要的监控手段。 

深度学习算法在图像处理、文本处理和语音识别方面得到了广泛应用，并取得了良

好效果。对于深度学习中序列模型问题，涉及到对序列数据的底层知识信息提取和序列

人体行为识别在现实生活中应用广泛成为国内外研宄机构和高校的研宄热点之

取有意义的特征表达变得困难如何能有效提取视频行为特征直是国内外学者的研

照表示方法上分为整体表示方法和局部表示方法 

整体表示方法是指整体分析个人体动作将人体完整动作作为个整体

表示运动图像如何移动表示每个像素点的时间历史的函数等人

等人使用时空体积的不同特性来确定行为是沿时间轴叠加物体轮廓

建立起来的。由于缺乏主体的外观和时间信息，整体方法的方式过于模板，不能有效捕

中使用局部区域来表征人体行为信息。局部特征表征视频信息主要步骤：

在运动区域检测方面，Ｌａｐｔｅｖ等人［

轨迹提取局部特征，使用轨迹速度作为局部特征。Ｍｅｓｓｉｎｇ等人使用３ＤＨａｒｒ

测兴趣点然后使用跟踪器对运动区域兴趣点生成轨迹等人 

处理才能作为模型的输入等人提出词袋中局部描述子分布

作为描述符最近种更好的编码描述方式ＦＶ（ＦＶｅｃ 编码逐渐成为更

近年来深度学习在计算机视觉领域获得越来越多的关注些学者也尝试将深度

学习算法应用于行为识别。深度学习方法不用手动提取特征，保留了更多视频原有的信

元素相乘融合三种融合方法等人提出三维卷积网络方法在

的基础上加入了时间维度，不仅可以学习到空间信息，而且可以获取时间信息。Ｗａｎｇ 

提出了  ３ＤＣＮＮ和ＬＳＴＭ结合的网络，加强了动作识别中时间序列的学习，同时对

定帧数图像不像ＬＳＴＭ可以动态改变输入具有定局限性但是其效果比ＣＮＮ 

ＬＳＴＭ结合的方法要好并且训练速度更快另外ＤＣＮＮ和ＬＳＴＭ的结合也是 

融合方式为平均融合、最大值融合或者ＳＶＭ进行分类融合，

Ｆ２Ｔｗｏ ｓｔｒｅａｍ ｎｅｔｗｏｒｋｓｔｒｕｃｕｒｅ

Ｗａｎｇ等人Ｐ使用改进的轨迹描述子代替光流提取时间信息

Ｗａｎｇ等人加入分段和随机化采样，

时加入大数据集预训练、数据增强、图像校准等技术，

了深度自动编码器（Ｄｙｎｅｎｃｏｄｅｒ）获取视频运动信息，

差，压缩了行为识别的存储和运行成本。为了更好地学习时间信息，ＳｒｉｖａｓｔａｖａＮ等人＿ 

提出了基于ＬＳＴＭ的自编码模型，由编码器ＬＳＴＭ和解码器ＬＳＴＭ组成。编码器ＬＳＴＭ

接受视频序列作为输入并学习到人体行为特征的紧凑表达解码器，ＬＳＴＭ将紧凑序列作

虽然深度学习目前在人体行为识别方面有了很好进展，

容易忽略行为识别中时间流和空间流的倍息维度差异。传统的桩于深度学的人体行为

取出有效特征。而后改进的基于深度学习的人体行为识别方法加入循环神经网络学习局

特征结合，共同作为视频信息特征序列，

行为识别作为计算机视觉的个基本问题在机器学习和人工智能领域具有很高的

是卷积网络和循环网络，得到不同段动作的上下文关系，

（１）分析人体行为识别的研宄现状和现存问题，将人体行为识别传统方法和深度学

分析二维卷积网络在双流网络上的效果和三维卷积在单流网络的效果，

机抖动影响，不适合行为分析的实时应用。三维网络针对时间流信息对二维卷积维度进

（３）研宄深度学习方法中常见的序列模型和循环网络的几种变种。对比循环网络中

用于张图像中的小部分正如人的视野注意力只会集中在人体动作区域对背景关

强行为特征的表达能力。在各个子段视频结果融合方面，

本文研宄为深度学习及人体行为识别，全文为五个章节，以下为每个章节简介 

第２章主要讨论三维卷积网络用于视频行为特征提取。本章主要阐述卷积网络算法

人体行为特征编码层。最后总结常用的人体行为识别数据集并详细介绍ＵＣＦ１０１数据集

第３章探讨了几种常用的适用于人体行为分析的序列模型。

ＬＳＴＭ作为视频段的解码层。使用第２章的３Ｄ卷积神

向量使用平均融合的方式得到整体结果向量，

第４章是在序列模型的基础上融合了注意力机制获取特征图的显著性区域。对于视

频各帧图像局部区域的显著性提取和各视频段的显著性提取，使用基于项的软注意力机

频分段的结果序列。本文最后通过对比实验选择最适合行为识别的任务的注意力机制模

传统的视频帧图像处理主要采用２Ｄ卷积网络进行特征提取，对于目前流行的双流

而且可以获取连续若干帧之间的时间特征。本章将详细阐述卷积神经网络结构和３Ｄ 

卷积神经网络的理论提出是在世纪年代等人的生物学研宄表明

应用使得卷积神经网络得到了更多的关注。随后出现了很多卷积神经网络框架， 

积神经网络在图像识别、文本处理和语音处理都得到了广泛应用 

在卷积功能分析中，卷积是通过函数Ｘ和Ｗ进行相关数学运算，被加权函数Ｗ和

卷积运算的应用相当广泛例如使用个二维卷积核Ｋ对传统的图像做相应的卷

可交换性相比之下许多深度学习框架实现个称为互相关函数的相关函数该函数

的卷积运算的学习算法所学得的核，是对未进行翻转的算法学得的核的翻转。单独的卷

积运算在机器学习中是很少见的，无论卷积运算是否对核进行翻转，卷积经常与其它函

卷积运算通过两个重要思想：稀疏交互和参数共享，