You are on page 1of 81

M  r / %


 N o r t h e a st e r n

?  ,


Un i v e r s i t y

硕 士 学 位 论 文


THE S F

S I O R M A S TER S D E G R E E

论 文 题 目 基 于 B L S TM 和 注 意 力 机 制 的



人体行 为 识 别 方 法 的 研 究 与 实 现 

作 者 张 森

学 号 1 67 1 1 22

学 院 部 ( ) 信 息科学 与 工程 学院

专 业 控制 工程

指 导 教 师 潘 峰 副 教授

二 〇 八 年 十二 月



分类号  密 级 

UD C  

学 位 论 

基于 B i
_

L S TM 和 注 意 力 机制 的


人体行为 识别 方 法 的 研究 与 实现

作 者 姓 名 :
张 森

指 导 教 师 :
潘 峰 副 教授

东 北 大学信 息 科 学 与 工程 学 院

申 请学位级别 :
硕 士 学 科 类 别 :
专业学位

学科专业名 称 :
控制 工程

论文提交 日 期 : 20 1 8 年 1 2 月 论文答辩 日 期 : 20 1 8 年 1 2 

学位授 予 日 期 : 20 1 9 年 1 月 答辩委 员 会主席 :


魏 颖

评 阅 人 :
薛定宇 、 张艳珠

东 北 大 

20 1 8 年 1 2 


A Th es
 isi nC o n t ro l E n g i n e e ri n g

H u m a n Ac t  i o n Rec o gn iti o n M et h o d B a s e d   o n B i -
L S TM

a n d A tt e n t i o n Mech a n is m

B y Z han g
 
S en

S up e r v i s o r :  A s soc i at e  P r o fe s s o r P a n  F e n g


N o rt h e a s t e r n  U n i v e r si ty

Decemb er  20 1 


东 北 大 学 硕 士 学 位 论 文 摘 要

摘 

无论 是 商业角 度还是社会角 度上 , 人体行为识 别 技术在 智 能监控 、 人机交互 、 视频



检索 等领域都有 着 重 要 的 应用 价值 。 在 人体动 作 本 身 具有 高度 复杂 性 、 外界背景干扰 



相 机存 在 扰动 等 条件 下 提高人体行为识 别 任务 的 准确 率 成为 个 富 有挑 战 性 的研 究 内


容 , 因 此人体 行为 识 别 算法 的 研 究 有 着 重 要 的 现 实 意 义 。
本文深入研 究 了 人体行为识 别

的 相 关技 术 后 , 主要工作 如 下 

首先 构建 了 种 将 视频 分成若 干段 每 段使用 D 卷积神经 网 络 的 特征提取方




一 一

, , 3

法 。
考虑 到传统 的 3 D 卷积 神 经 网 络输入连续 帧 图 像是 固 定 的 , 不 能 充 分表 征 整个视频

动 作 特 征 本 文 首 先 将 视频 分 成 若 干 段 然 后 各 分 段 进 行
, , 3 D 卷积神 经 网 络 的 特征 提取 

最后 在 UCF 1 0 1 数据 集上进 行测 试 测 试结 果 表 明 分段 的 , , 3 D 卷积 网 络准 确 率 为 82 7. % 

未加 载预训 练模 型 的 双流 网 络 的 准确 率 为 8 1 . 6% ,
实验表 明 , 本文 的 分段 3 D 卷积 网 络

在 视 频特 征 提 取 上 比 2 D 卷积 网 络 效果更好 

其次 讨论 了 种 基于 长 短 时 记忆神 经 网 络 L o ng  S h o r t  T e r m  M e m o r y L STM 


, ( ,

习 动 作特征上下文 的方法 针对动 作 时 序信 息 既受到 前文影 响 又受到后文影响这 




。 ,

题 ,
本文 使用 两 个 L S TM 网 络并联 的方式 ,
分别 对视频特征从前 向 后 和 从后 向 前 处理 

可 以 处理上 下 文 的 视频 特征 。 最后在 UC F 1 0 1 数据 集上验证 了 该 模 型 在 人 体 行 为 识 别 任



务上 比单 向 的 L S TM 有 着更好 的 表现 

最后 提出 了 种 基 于 注 意 力 机制 的 显 著 性 特 征 提 取 的 方 案 由 于 图 像不 同 区 域具



有不 同 的 重要性 , 本 文 利 用 基 于输入项 的 软注 意 力 机制 对 特 征 图 像各 像 素 点 分 配不 同 的

权重系数 ,
使得 网 络 更 容 易 学 到 权重较 大 的 区 域 。 各 分 段 视频 的 结 果 融合使用 自 注意力

机制 , 通过本 身 的 特征序 列 分布 , 分配各个分段 的 结 果序 列 的 权重 系 数 。 最后本文系 统



在 UCF 1 0 1 测 试集 上 与 几种 主 流 的 人体 行 为 识 别 方 法 比 较 :
使用 S VM 的 双流 网络准确

率为 8 8 0 . % , 2 D C NN + L S T M  网 络准 确 率达到 8 8 . 6% , 而本文 的  C 3 D+B i


L S T M + A t e nt o n

 i

模型 在上 的 准 确率达到 9 0 7%
. ,
结 果表 明 ,
本文提 出 的 系 统方案效 果更佳 。

关键词 :
人体 行 为 识 别 ;
3 D 卷积 神 经 网 络 ; 长短 时记忆神经 网 络 ; 注意 力 机制

I I


东 北 大 学领士 学 位 论 文 A b s t r ac t

A b s tr a c t

N o  m at t e r  fr o m  c o m m erc i al  as
p e c t  o r  s o c i al  p e r s p e ct v e i
, h u m a n  b e h a vi o r  r e c o g n i t i o n 

ec h n o l o g y  p l a ys  a  c r i
t i c a l  r o l e  i n  i n te l l i g e n t m o n i t o r i
ng, uma n - o mp
u te r  i n t e r a c t i
o n, id eo


h v

e tr e v al t c . U d e r  t h e  c o n d i t i o n o f h i g h  c o m p l e x i t y
i ,

n  o
f  h u m an  b o d y  m o t i o n , e x e r n a l 
 b ack t

g ro u n d  i n t e r f e r e nc e ,c a m r a  d is t u r b a n c e, e t c . i t  i e ,

 a c h a l l e n g i n g  r e s e a r c h  c o n t e n t  t o  i m p r o

 t h e  a c c u r a c y  o f  h u m a n  e h a v i o r  r ec g n i t i o n  t as k . T h e r e f b o o r e , t h e r e s e a
r c h  o n  h u m a n   b e h av i o

r e c og n i t i o n  a l g o r i t h m  g a i n s  im p o r t a n t  p r a c t i c a l s ig n i f i c a n c e . A f t e r  t h o r o u g h l y   s tu d y i n g

h e r
elat e
d t e c h n ol o g i e s  o n  h u
m a n  b e h a vio r  r e c o g n i t i o n, f o
l l o w i ng  j
ob s  w e r e  d o
n e :   F i r s t o f l

l , thi s  t h e s i  c o n s t r u c t s  a  f e a t u r e  e x t r ac ti o n  m e t h o d  t h a t  d i v i d e s  t he  v i d e o  i n t o   s e v e r a l  s e


e n t s in  w h
i c h 3 D  c o vo l u t i o n a l  n e u al n et
n r  wo r k  i s  a p p l ie d t o  e xtr a c t  t e m p o r a l  a n d  s p a t i a l  in


m at i o n  f eat u r es  s i m ul ta n e o u s l y . C o n s i d e r i n g  t h a t  he 
t ra t

i t io n a l  3 D  co n vo l u t i o n a l  ne u al n e t wor r 

k  i n p u t  c o n t in u us f r a m e o i ma g e  i s
 f i x e d , an d  i t  c
a n  n t  f u l l y  c h a r ac t e r i z e  t h e   wh o l e
 vi d e o 

m o

t i o n  f e a t u r e , s o  t h e t he s i s  f i r s t d i vid e s  t h
e  v i d e o  i n t o  s e v e r a l  s e g m e n t s , t h en   p e r f o r m s  3 D  c o

o l u ti o n a l  n e u r al  n et w o r k  f e a t u r e  e x t r a ct i on .A n d  f i n a l l y  t e s t s  it w
i th  U
C F
10 1 a s  t he t e st s e I

t t u rn s o ut  t ha  t h e a t c u a cy r  o f t h e  s gm e n t e d  D  o n v


c o lu
ti o nn e t w o r k  is  8 2. 7 % ,  a n d  t h  e  acc u ac r


f  t h e  t w o - s t r ea
m n e tworkw i

h o u t  t he  p re - t r a i n i n g m o d e l  i s

8 1 .6 %.   E x p e r i m e n t s  s h o t

h a t  t h e  se g m ente d  3 D o n v c ol u ti o n al  n e t w o r k  c o m e s  up  n  t h i s  h e s i s i s  b e i t  t t er   t ha n  2 D co n vo
lu t

n a l  n e t w o rki n v i d e o  f e a t u r e e x t a c t i o n . S e c o n d l y , a m e t h r 

b a s ed o n 
L o n g S h o r t T e r m  M e m o r y  ( L S T
M )  t o l e a r n m o t i o n  fe
a t u e   c o n t e x t  i s di s c u
r s

e d .T h e  a c t i o n  t e m p o r l  i n f o r m a t i o n  i a

s  af f e c t ed  b y t h e  o n t e xt . T w o  L S T M   n e t w o r k s
c  a r e u s e d 

 p a r a ll e l  t o  p r o c e s s  t h e  v i d e o  f
ea
t u r e s  f r o m  f r o n t  to b a c k  a d b a c
n k  to   f o rw a r d , so  t ha t  t h

vi d e o f e a t u r e s o f  t h e c o n t ex t c an  b e 
 p r o c e s sed . T h e n  t h e  p r o g r a m  v e r i f i e d   o n the U CF 0 1 
d a as

e 
1 t

t h a t t he m o de l h a s  b e t t er  p e r o r m a n e t a n
f t h e o n e -w a y  L S T
c h

M  in h u m a   b h avn


o r r e c o n it i o
g 

t a s ks .   F ina l
ly , a  s c he me  f 

e tr
x a c
t n g  s i g n if i ca n t  f e a t u r e s  b a e d  o n a tt e nt io n  m e c h an i s m i s  p r o p s ed . B e c a u s e  d

s o i e

rent reg i o n s  of  t e h  i ma g e h a ve
 i ff e r e
d t i m p o r
t a n c e, t h i s th e s i s  u s e s  t h e   a t
t en t i o n  m e chan i s m  to

ss i g n  d i f f e r e n t  w e i g h t  c o e f
f i c i e n ts  t o e a c 
p i x e l  o f t h e  f e a t u r e  i m a g e ,   w h i  m a ke s  i t  e a s i
er
h c h


r t h e n e t w o  r kt o  l e a r t h n e  r e i o n  w it
g h la r g er  w e ig h t.
T h e e r s u l ts o f  e a c h v i  d e o a re  f u s e d  u s n g a

 i

e f - a t te n t i o n  m e c h a n i s m  t o  a si g n  w i g h t  c o e f f i c i e n t s  f r  e a c h  r e s u l t   s e u e n c e t h r o u g h  i t s  o w

e 
n o q

ch
a r ac t e
o n.T h e  s y s t e m  c o m p ar
r i s t i c s e q u e n c e  d i s t r i b u t i e sw i t h

i l l


东 北 大 学 硕 士 学 位 论 文 A bs t r ac t

s e v e r a l  m a i n s t r e a m  hu m a n  b e h av i o r  r e c o
gn i
ti o n m e t ho d s  o n
  t he  UCF 1 0 1  te st  s e t : th e  a cc u r a cy 

f t wo-

t r ea m  n et w o r k  u s i n g S V M  i s  8 8 . % , 0

a n d  t h e  a c cu r a c y o f  2 D C N N + L S T M  n e t w o r k i s 8

,a  C3 D + B i-L M + A tt nt de l  i n  t h i s he s i s 90. 7%. T e s ul s  s h ow  t h a t  t h e  p r o p


.6 i o n m o s

% S  t is  h r e t
n d

ed  s y s t e m  i s  be t t e r .

Key  w o rd s :  H u m a n  ac t i o n  re c o g n i t i o n  3 D  c o nv o l ut i o n a l  n e u ra l  ne t wo rk  L S T M  at t e n t i o n


 ; ;

m e c ha ni s m

I 


东 北 大 学硕士 学位论文


£ 

_

目 

独创 性声 明  

 中文摘 要 #

A b st r ac t # Ⅲ

第 1 章  绪 论 1

  1 .1 选题背 景 及 研 究 

# 1   1 .1.1  背

景  # 1  1. 1. 2 课 题 研 义

与 目 的  # 2 1. 2 内

外 研 究 现状  # 2   1. 3  本课 题 究

内 容 与 章 节 安排 # 6   3

. 1  要 主
研究内容 #6 1 3

2  论 文结构 和 章节 安 排#7  2

章  视 频行为 特 征 的 分 取

 # 9   2.1卷积 神 络

 # 9   2.1.1卷积 运 算 

#  9 2 . 1 . 2  卷 积 神 经 网络 结 构 #13   .

 于 基 3 D卷积 神 经网络 的 视 频 分

段 取 #1 5 
提 
2. 2 . 1 3 D 卷 绍

 16
#  2.2. 2  3 D 卷积 神经 网 络 

# 7 1   2 . 33D 卷积神经网 络 的 与

分  19  
析 # 2.3. 1 常 用 数 据 库 和视

处  1
理 #
92 . 3.

3 卷积D
神 经 网络




















东 北 大 学 硕士 学位论 文


第 3 章 各段行 为特 征 的上 下 文 关 系 学 习 #

  3 .1 循 环 神 经 网络

2 9   3 .1. 1  循环神 经 网络

 # 2 9  3.1 . 2循 环 神 络

结 构  # 3 1 3 . 1 . 3  循环 神 经网

前 向 传 播  #32   3 . 1 . 4 循 环神

络 的 后 向 传 播# 3 3   3.1 . 5  循环

网 中 络
的梯 度 消

 #34  3.2 基 于 B i-

T M 的 上 下文 关 系 学习# 35  3

.  ST M 的
1 L

构  #36  3 . 2.

B i - STL
M的 建 立  #3 9 3 .2 . 3

D opo u

算 法 #40  3 . 3

- STM

效 果 分析

4 2   3 .4  小结  # 47   第 4 章

注 意 力 机 制 的 人体 行 为 识 别  #4

 4 . 1  注 意 力 机制 算 法  #4

 4 . 1 . 1  注 意力 机 制 简 介  # 49

4 1 .
. 2  注 意 力 机 制 的 结 构 原理  # 5 0

.  2 基 于 注意 力 机 制 的 显著 性 特 征 提 取 #5 3 

2 1 基
.  于软 注 意力 机 制的 图 像 显 著性 表 达

4  
4.2 .2  基 于 自注

机 的 制
结果 融 合 # 5 6  4.

实 结 验 果 与 分析

5 7   4. 4  深 度学

架 的 选 择# 6 3 

5  小 结 # 64  第

总 结和 展 望





















V 


东 北大 学 硕 士 学 位 论 文 目 

致 谢  1

V I I


东 北 大学 硕士 学 位 论 文 第 1
章 绪论

第 1
章 绪 论

本章 从宏 观 角 度 介 绍本文研 宄 内 容 的 意 义 与 背 景 , 介绍 国 内 外主 流 的 人体行为识别

技术 方法 , 以 及 时 下 流 行 的 深 度 学 习 技 术 和 针 对 人 体 行 为 识 别 任 务 的 改进 。 在本章 的最

后 , 介 绍 了 本 文 的 主 要研 究 内 容和 章 节 安 排 

1 . 1 选 题 背景及研究意义

1 . 1 . 1 选题背景

年冯 诺依曼和 他 的 现代计算机 问 世 以 来 人们 逐渐 发 现 在 些重 复计 算


自 946

1 , ,

的 事情上 , 计 算 机做 得 比 人好 得 多 。 而 关 于 让计 算 机根据 传 感 器 数据 理 解 人 类动 作 则 伴

随 了 整 个 计 算 机视 觉 的 发 展 史 ,
其 中 基于 计 算机视觉 的 人体行 为 识 别 的 研 宄尤为重要 

因 为 在 人 与 人 交流 的 过程 中 ,
视觉信 息 是第

时 间 接收到 的 。 通过对方 的 姿 态 、 面 部动

作和 手势 等 , 可 以 帮助 人们 获得对方 的 情 感或者 意 图 。 在 大数据 时代 中 , 处理人机交互



或者视频监控情 况 中 , 如 果 试 图 通过 人 工 的 方 式来 鉴 别 ,
完成对全部任务 的遍 历 是 不 可

能的 , 它 需要 消 耗大量 的 人力 物 力 资源 。 因此 , 基于计算机视觉 的 人体 行 为识 别 技术 的

研 宂正 在逐渐 获得更 多 学者 的 关注 

1 9 世纪 70 年代 , M arey 等学者最早开始 了 人体行为识别 技术 的 研 究W ,


但 是 限于计

算机水平低 下 ,
没有 获得 更 多 的 关注 。 上世纪 80 年代开始 , 反向 传播算法 ( 即 B ac k

算法 简称 多 层 感知器 的 出 现 以 及各种


2]
Mu

P ro p ag at o n i , B P ) [
, ( l ti l ay e r P e r ce p t i o n ) 
[ ]


基于传 统 的 机器 学 习 的 模 型 陆 续 问 世 ,
例如 B o o st
i ng 、 最大熵法 % 支 持 向 量机W等 

机器学 习 算法使得人体 行为识 别 的 传统特征融合和 分类效果达 到 了 个高度 也使得学




者 们 开始 更 多 地 关注 人体 行 为 识 别 技术 的 研 宄 。 1 98 5 年 , 多伦多 大学 的 H i nt
on 教授 提

深层神经 网 络 的 思想 而 后 又应 用 了 卷积 神 经 网 络
7]
出了 [

, ( C o nv o l ut i o n  N e ura N etw o rk
l


即 C NN ) 尤其 是 卷积神 经 网 络 的 提 出 ,
使得深度学 习 技术在 自 然语 言 处理 、 计 算机


视 觉 语 音 识 别 与 合 成 等 领域 取 得 了 重 要 进 展 人 体 行 为 识 别 研 究 进 入 了 个新 的 高度

、 , 

进入 2 1 世纪 , 国 际顶尖学府 、 微软研 究 院 、 谷歌研 究 院等P 多 家机构 在 人体动 作识别领



 1

域展 开 了 更 加 深 入 研 宄 在 工 业 方 面 人 体 行 为 识 别 技 术 也 己 经 进 入 了 普遍 应 用 的 阶段 。 , 

尤 其 在 AR 交 互 、 视 频 监控 、 视频检 索 等 领域 。 随 着 人工 智 能 与 人体 行 为识 别 技术越来

- 

1 
东 北 大 学 硕士 学位论文 第 1
章 绪论


越紧密 的 结合 , 人 体 行 为 识 别 技 术 的 研 究 会 成 为计 算 机视觉 领 域 中 更加 热 门 的 研 究方 向




1 . 1 . 2 课 题研 究意 义 与 目 的

人体行 为 识 别 是指 对 人 体行 为进行分 析和 分类 ,
涉及 图 像处理 、 深度 学 习 、
机器学

习 等 多 个学 科领域 , 在工业场景 中 ,
广泛应用 于 AR 交互 、
智 能监控 、 行 为捕获 分析 等

领域 [
】 0】


在 体感交 互 方 面 ,
手势 识 别 不 需 要使 用 键盘或 鼠 标 等 外 部 设 备 就可 以 理解 用 户 的 意

图 ,
实现人与 设备 的 交互 。 VR 游 戏 的 本 质 就 是 人体 行 为 识 别 , 通过视 频 行 为 获 取用 户

动作 , 了 解用 户 意 图 

在 安 全监控方面 , 学校 、 超市 、 广 场 等 大 型 公 共 场 所 需 要 对 人群 进 行 监 控 和 分析 

传 统 的 视频监控 使 用 人工 监控 , 在流量少 的 情 况下 , 人工 监控 成 为 主 要 的 监 控手段 。 



而 , 在人 口 密度高 、 流动 量大 的 地方 ,
效 果 并 没有 机器监控 的 效率 高 , 人工监测 需要 大

量 的 人力 , 人 体 的 注 意 力 会 随 着 时 间 的 推 移 而 减少 。 现在 常 用 的 是手段是利 用 人类 行 为


识别技术 自 动 识 别 视频 中 的 异 常行 为 , 实现智 能监控 

在 行为捕 获和 行为搜索 方 面 ,
例 如 百 度 的 百度识 图 , 视频检索 需要 识 别 人 的 行为 

提 取 要 检 索 的 视 频 的 特 征 计 算 视 频 库 中 的 相 似度 , 匹 配 视 频 库 中 的 视频 , 以 达到 分类 

的 。 行 为 捕 获技 术 在 互 联 网 搜 索 引 擎 中 被 广 泛 使 用 

目 前 人体 行 为 识 别 技术 已 取得 很好进 展 ,
但 也 存 在 着 如 何 提髙 复 杂 和 有 遮挡 动 作 识

别率 、 如 何 降低 视频 编 码 空 间 和 提高 图 像运算 速度 、 如 何 适 应 低 质 量 和 多 噪 声 的 视频 行

为识别 等 系列 问题



深度 学 习 算法在 图 像处理 、 文 本处理和 语音识别 方面得 到 了 广泛应用 , 并取得 了 良



好效果 。 对于深度学习 中 序列模型 问 题 , 涉 及 到 对 序 列 数据 的 底 层 知 识 信 息 提 取 和 序 列



关系 的 学 习 直 以 来 都 是 相 关 领域 的 研 究 重 点 和 难 点 因此 本课题 的 研 究具有重要


, 。 ,

的 理论价值 

1 . 2 国 内 外研究现状




人体 行 为识别 在 现实生 活 中 应 用 广泛 成为 国 内 外研 宄机构和 高校 的研 宄热 点 之


, 

传 统 的 人体 行 为识 别 方法 主 要 使 用 人 工 提取 行为特征 再 利 用 分类 模 型 得 到 最终 的 结 果 

而 使用 深度 学 习 的算法可 以 自 动 学 习 并 获 取有 意 义 的 高层 特征 表达 ,
并对不 同 的 视频特

征进 行 分类 。
对 于 复 杂 动 作 或者 多 人参 与 动 作 的 数据 集 , 视频 中 存在 大量动 作 , 使得 提


2 


东 北 大 学 硕 士 学 位 论 文 第 1
章 绪论

取有 意 义 的 特征表达变 得 困 难 如 何 能 有 效提取视频行 为特征 直是 国 内 外 学者 的研




。 ,

宄重点 

传 统方法主要 是 人工提 取特 征 ,
并建立起特征 分 类 的 模 型 , 进而识 别 人体行 为 。 

照 表示方法 上 分为整 体 表示 方法和 局 部 表示 方 法 



整体 表示 方法 是 指整体分析 个人体动 作 将 人体完整 动作 作 为 个整体


Bob
一 一 I

ck
[ 


, 。 i

提出 了 运动 能量 图 像 ( ME I ) 和 运动 历 史 图 像 ( MH I ) 来 表示视频特征 信 息 , 其中 , ME 

表示运动 图 像如 何移动 表示每个像素 点 的 时 间 历史 的 函 数 等人



MH We D

n an d
[ 

, I 。 i l

通 过 时 空体积 代 表 MH I ,
并使用 三 维 体积 的 扩展 增 加 了 拍 摄角 度变 化 的 鲁棒 性 。 Y i l m az

等人 使用 时 空体积 的不 同 特性来确定 行为 是 沿 时 间 轴 叠 加 物体轮廓





A ST V S TV

t ]

( ) ,

建立起来 的 。 由 于缺 乏主体的外观和时 间 信 息 , 整体 方法 的 方 式过于模板 , 不 能有效捕



捉行为视点 [
1 4



相 比 于 整体表示法 ,
传 统 方 法 中 的 局 部表示法 有 更 好 的 效 果 。 区 域表 示 法是 指 视频

中 使 用 局 部 区 域来表 征人体 行 为 信 息 。 局 部特 征 表 征 视频信 息 主 要 步骤 :


首先检测 出 视

频 中 运动 像素 点 位置 ,
然 后 在 运动 区 域 中 获取 有 效 的 描 述子 

在运动 区 域检测 方面 , L apte v 等人 [


1 5

将 H arr i s 角 点探测 [
1 6 ]

扩展到 3 D 空间 , 3 D H arr
 is

探 测 器 能 够 在 大 空 间 变化 下 和 不 稳 定 运动 下 发 挥 作 用 。 L uJ
i 等 人M 提 出 利 用 兴趣 点 的

 l

统计属 性 裁剪 无 意 义 的 特征 

在局 部描述子提取方面 ,
获取兴趣点 区 域后 ,
需 要 对局 部 区 域形 成描 述符表示 行 为

信息 K 等人
7]
基于 方 向 直方 图 HoG 

提 出 梯度方 向 直方 图 HoG3 D 作为


1 1

as er
[ [ 】

。 l ( ) , ( )

运动 描述符 等人

将局 部 区域 的 光流直方 图 HoF 当做时 空信 息描述符 Da

。 L apt e v [ 】

( ) , l a i

等人 [
2G 】

提 出 运动边 界 直方 图 ( MB H ) 扩 展 了 H o F 的 鲁 棒 性 。 轨 迹 是 随 着 时 间 推移 而 正

确 追踪 的 特征 并逐渐应用 于 行 为识 别 等人 和 等人 首次提 出
4]
Me s s Ma 

ng ka ne n

, 。 i ti i

轨迹提取局 部特征 , 使用 轨迹速度作 为 局 部特征 。 Mess i ng 等人 使用 3 D H arr


is  角 点检

测 兴趣点 然后使用 跟踪 器 对运动 区 域兴趣 点 生成轨迹 等人 



使
22] 4
KL T Ma

ka ne n
[ [ 】

, 。 ti i

用 KLT 跟 踪 器 提 取 轨 迹 特 征 ,
再 将特征 聚 类 ; 计 算 仿射变换矩 阵 是利 用 各 个 聚 类 中 心

点 ,
最 后 计 算得 到 的 仿 射 变换矩 阵 中 元 素 表示轨迹 。 B re go nz o i 等人 同 时使用 SI FT 

述子和 KL T 跟踪 器提取特征轨迹 ,
可 以 抓取 视频 中 细 微动 作 

在局部描述符 的 聚合方面 ,
从视频 中 获取 局 部特征 后 ,
需要 对特征进行 固 定 长度 的

处理 才能作为模型 的输入 等人 提出 词袋 中 局 部描述子 分布




7 9 24 2 5
_

Do Bov
| |

ar P

[ 1

, 。 l l ( )

作为描述符 最近 种 更好的编码描述方式 FV( F V ec 编 码 逐 渐 成 为 更




, , i s her t or )

W2
好 的 选择 。 Z hu Y 等人 [

M吏 用 时 空 词 典 和 稀疏编 码 进行 聚 合 得 到 固 定 大 小 的 描述 符 , 

3



东 北 大 学 硕 士 学 位 论 文 第 1 章 绪论

近年来 深 度 学 习 在 计 算 机 视觉 领域 获得越来越 多 的 关注 些 学 者 也 尝试将 深度




, ,

学 习 算法应用 于 行为识 别 。 深度 学 习 方法不 用 手动提 取特征 , 保 留 了 更 多 视频 原 有 的 信



息 般更优于传统方法

, 

等人 提出时空网络 如 图 U 所示 利用 C NN 提取 空 间 特征 使用 L ST M 


3 3
L C [ 1

i , , ,

循环 网 络提取时 间 信 息 ,
两种 网 络使用 串 联结构 ,
并且提 出 了 最大融合 、 平均 融 合和 逐

元 素相 乘 融合三种 融 合方法 等人 提 出 三维卷积 网 络 方法 在


34
。 J i
[ ]

( 3 D CNN ) , 2DCNN

的基础上加 入 了 时 间 维度 , 不仅可 以 学 习 到 空间信 息 , 而且可 以 获取 时 间 信 息 。 W an g 



人 [
3 5 ]

提出 了  3 D C NN 和 LSTM 结合的网络 , 加 强 了 动作识别 中 时 间序列 的学 习 , 同 时对



视 频 帧 图 像进 行 显 著 性 检测 ,
减 少 网 络参 数 ,
提 高训 练速度 。 3 D C NN 每次只 能获取固

定帧数 图像 不像 LSTM 可 以 动 态 改变输入 具有 定局 限性 但是其效果 比 C NN 




, , ,

LSTM 结 合 的 方法要 好 并且 训 练速度 更快 另外 D C NN 和 LSTM 的结合也是 




, 。 , 3

很好 的 思路 

Act i v i t
yR e c o g n i t i on

l n p ut : Se q u e nce

o fF r a mes

\  c
\  N  N  /

 7
N  N  /

\ '
 / LST M
 

\  /
O ut p ut : La b e 





P a y n gB a s k e t b al

i 

图 1 . 1  CNN +L S T M 结构 图


CN N+L S T Ms t r u c t u red
F i
g .  1 . 1 i a
gram

20 1 4 年 S i m o n y an 等 人_首 次提 出 双流 网 络 ,
如图 1 . 2 所示 ,
空间流网络和 时间流

网 络采用 相 同 的 C NN 网 络结构 ,
采用 并联架构 , 互不 干涉 ,
各 自 提取 各 自 特征 。 最后

融合方 式 为平均 融合 、 最大值融 合或者 SVM 进行分类融 合 ,


使用 SVM 的 融合 分类效

果最好 


- 


东 北 大 学 碩 士 学 位 论 文 第 1 章 绪论


pat
i a l s t r ea 

f u l
6 W
Co  C C
C o nv l n v2 C onv3 o nv 4 onv 5
 2 0 48 A


 * *

* *


* *
3
* *

* *

lj V
7 7 9 6 5 5 2 5 6 3 3 5 1 2 3 5 1 2 3 3 5 12
 d r 〇

〇u t d r 〇

〇u t  So ft m ax

 \\


^ 丨
 P oo l  2

2  Po o l  2

2  P o o l  2


 \\  


| 
//


S i n

l e  f r a m e -
     

 |
\\



V '

 /
s co
ss

r 

翁

f u s o n


//

  \\ T em
pora
l s t ream 

W\ 


W   丨


6 f u l

N Co   C C
 nv l C o nv 2 C o nv 3 o nv 4 onv 5
4Qg g  2〇 48 v


 

  
* * * * * * * * *

 tm ax


7 7 96 5 5 2 56 3 3 5 1 2 3 3 5 1 2 3 3 5 12 so 

d r o

ou t d r o

ou t

 
* * *
Po o !  2 2 Po o l  2 2 P o o l  2 



t c a l  f o w

图 1 . 2 双流网络结构 图

F 2T w o s t r e a m n e t w o r ks t r u c ure





g .  1 . t

W an g 等 人P 使 用 改进 的 轨迹描 述子代 替 光流提取 时 间 信 息



将局部 C o nv N e t 响应

汇 集在轨迹 为 中 心 的 时 空管 , 生成 的 描述 符称 为 TD D ,
使用 F i s he r 向 量将 视频 中 局 部 区

域 TD D 聚合成全局 向 量 ,
使用 SV M 作 为 行 为分类 器 。 在双流 网 络基础上 ,
20 1 7 年 

W ang 等人 加 入 分段和 随机化采样 ,


提出 TSN 网络 。
将视频分 成 多 段 ,
分 别进行时间

流和 空 间 流特 征提取 ,
时 间 流 网 络输 入使 用 掩膜 光流 ,
消 除相 机抖动 带来 的 影 响 。 训练

时 加 入 大数据 集预 训 练 、 数据增 强 、 图 像校准等技术 ,


使得 网 络 效 果 更优 

除 了 时空网络和双流网络 还有 些很 出 色 的 方法 尤 其 是基 于 无监 督 的 人 体 行 为


, ,

分析方法 。 Y an X 等人M 提 出 l

了 深度 自 动编码器 ( D yne ncoder ) 获 取 视频运 动 信 息 ,




Dynencoder 当 做视频 的 时 空 紧凑 信 息 ,
给定 视频 的 Dynenco der 的重构误差 当做 分类误

差 , 压缩 了 行 为 识 别 的 存储和 运 行成本 。 为 了 更 好地 学 习 时 间 信 息 , S r i vas t av a N 等 人_ 



提出 了 基于 L S TM 的 自 编码模型 , 由 编码器 LS TM 和 解码器 LS TM 组成 。 编码器 LSTM



接 受视频序 列 作 为输 入并 学 习 到 人 体 行 为 特征 的 紧 凑 表 达 解 码器 , LSTM 将 紧凑序 列作



为输 入 ,
并 重 建输 入序 列 

虽然深度 学 习 目 前 在 人体 行 为识 别 方面有 了 很 好进展 ,


但 是也存在着

抖问题 :


度 学 习 方法 需 要 大 量 的 数据 作 为 训 练样 本 ,
现在 大部 分 的 数据库 量相 关性较高 ii 偏小 

网 络 底 层 的 输 出 作 为 整体 局 部 特 征 ,
往往容 易忽略 ; 火部分深度 学 习 的 彳 丁 为识别方法 

容 易 忽 略 行为识 别 中 时 间 流和 空 间 流 的 倍 息维度 差 异 。 传统 的 桩于深度学 的人体 行为



识别 方法单 纯 使用 卷 积神 经 N 络 只 能提収 局 邰 动 作 的 特 征 表达 ,
小 能对完整视频 彳 T 为提

5
- 


东 北 大 学 硕 士 学 位 论 文 第 1 章 绪论

取 出 有 效特征 。 而 后 改进 的 基于深度 学 习 的 人体 行 为 识 别 方法加 入循环 神 经 网 络 学 习 局



部特征 的 上 下 文 关系 , 可 以 解 决 局 部 特 征 相 互独 立 的 问 题 , 将 时 间 流特 征和 空 间 流信 息

特征结合 , 共 同 作 为 视频信 息特征序列 ,


并取得 了 很好的 效果 。
所 以 本 文对人体行 为识

别 技术基 于 深度 学 习 相 关 的 方法 进行科研探索 

1 . 3 本 课题 的 研究 内 容 与 章节 安 排

1 . 3 . 1 主要研究 内 容

行为识别 作 为计算机视觉 的 个基本 问 题 在 机器 学 习 和 人 工 智 能领域具有 很 高 的




研 宄 价值 。 在 前期研宄 的基础上 ,
本 文 以 人体行为识别 为核心 ,
利 用 深度 学 习 方法特 别

是卷积 网 络和循环 网 络 , 得 到 不 同 段动 作 的 上下 文关系 ,


随后 利 用 分类融合方法 , 实现

人体行为 分析 。
本文 的 主要研 宄 内 容如 下 

( 1 ) 分析人体行为识别 的 研 宄现状和 现存 问 题 , 将 人体行为 识 别 传 统 方法和 深度 学



习 方法对 比 。
发 现传 统 方 法 的 人工 提取 方 法 鲁棒 性 较 差 , 而 且准确 率偏低 。 因 而选择基

于 卷积 网 络和循环 网 络方法进行人体行为识别 的研 宄 

( 2 ) 研 究 分 析 深 度 学 习 中 二 维 卷 积 网 络 和 三 维 卷积 网 络在 行 为 识 别 中 的 差 异 。 对比

分析二 维卷积 网 络在双流 网 络上 的 效 果 和 三维卷积在 单流 网 络 的 效果 ,


二 维卷积 使用 

流 图 像作 为输入来获取时 间 信 息 ,
其计算时 间 长 , 对视频 画 质 要 求较 高 , 而且极 易 受相

机抖动 影 响 , 不适合 行 为分析 的 实时应用 。 三 维 网 络针对 时 间 流信 息对二 维卷积 维度进



行扩展 ,
自 动 获取时 间 特征 , 而且裁剪无意 义 的 时 间 信 息 , 适合作 为视 频 行 为 识 别 的 特


征提取器 

( 3 ) 研 宄深度 学 习 方法 中 常 见 的 序 列 模 型和 循环 网 络 的 几种变种 。 对 比循环 网 络 中



R NN 、 L S TM 、 双向 L S TM( B i

L S TM ) 三种 主 流方法 ,
针对 R NN 梯度消 失 问 题和 L S TM

只 能选 择前 序 时 间 信 息 问 题 ,
选择 B i

LSTM 作为序列模型 ,
对 于序 列 模 型 学 习 时 间 加

速方面 ,
使用 层 次 D ro p o u t 算法作 为 人体行为 中 序列 上 下 文 学 习 模 型 的 正则 化方法 

设计 种 整合注 意 力 机 制 和 序 列 模 型 的 人 体 行 为 识 别 模 型 由 于人体行为 只 作


( 4 ) 。

用于 张图像中 的 小 部分 正 如 人 的 视野注 意 力 只 会集 中 在人体动 作 区 域 对背景关




一 一

, ,

注的很少 。
在 特征 图 显 著 性提取方面 , 通过注 意 力 机制 将 人体动作 部分显 著 性提 高 ,


强行 为特征 的表达能力 。 在 各个子段视频结 果 融合方面 ,


视频人体行为 的 分类结 果 融合

使用 自 注 意 力 机制 , 将 显 著 得 到 视频特 定重要 的 动 作 段 ,
提 高 分类准 确 率 


6 


东 北 大 学 硕 士 学 位 论 文 第 1
章 绪论

1 . 3 . 2 论 文结构和 章节 安 排


,  「 注 意 力 机制 获 ]  「

i fi 去


视频分段处理
 :
取显 繊特征 :  誌g


 

连 续 帧   ure  J

Fe at
f

 

^
 m ap s
 ^



f
连 续 帧 uf TT  I  匀 :

 3 D C NN + B 1

 1 



/ I  \  t 
 \
 °







/ 、 ;




连续倾
( K  ^

 : n 臟 s 卜 州 


L J

- -
- 1




 


 - - - -
  J

mm ? 各连续 帧 特 征提 取 ? 行 为识别结果分类 ? 准 确 率 统计


—  
? ■ ?

( ( )

图 1 . 3 论文框架


F g i .  1 . 3 Th es i s  fr a m e w ork

本文研 宄为深度学 习 及 人体 行 为识别 , 全文为五个章节 , 以 下 为每个 章 节 简 介 



第 1
章 内 容分为研 究背景及 意 义 ,
国 内 外 研 宄现状 和 主 要 内 容 以 及对 本 文 的 安 排 介

绍 。 本 章 大致 介 绍 了 人 体 行 为 识 别 从传 统方法 到 深 度 学 习 方法 的 发 展 历 史 ,
介绍 了 国 内

外人体行 为识 别 的 研 究进展和 改进 原 因 , 以 及 本 论文 的 大致 结 构 和 研 究 目 标 

第 2 章 主要 讨 论三维卷 积 网 络 用 于 视频 行 为特征提 取 。 本 章 主要 阐 述卷积 网 络算法



的理论 ,
对 比分 析二 维卷 积和三维 卷积 的 优缺 点 和适 用 场 所 , 初步 确 定 以三维卷积作 为

人体行为特征编码层 。 最后 总 结 常用 的 人体行为识别 数据集并详细 介绍 UCF 1 0 1 数据集



和 HMDB5 1 数据 集 ,
并在 UCF 1 0 1
数据 集上 测 试 3 D 卷积 神经 网 络 的 模型 性 能 

第 3 章 探讨 了 几种 常用 的适用 于人体行 为分析 的 序列模型 。


将这 几 种 网 络从 数学上

进 行推导 与 结 构 分析 。 提出以 B i

L STM 作 为视频段 的 解码层 。 使用 第 2 章的 3 D 卷积神



经 网 络作 为视频特征编码 层 ,
将 各 子段动作 特征 向 量作 为 B i

LSTM 网 络 的 输入 ,
输出

向量使用 平均融合 的 方式得到 整体结 果 向量 ,


最后使用 Sof
t m ax 分类器得到 分类结 果 

第 4 章 是在 序 列 模 型 的 基础上 融合 了 注 意 力 机制 获取特 征 图 的 显 著 性 区 域 。 对于视



频 各 帧 图 像 局 部 区 域 的 显 著 性提取 和 各 视频段 的 显 著 性 提取 , 使用 基于项 的软注意力机



制 获得 图 像 各局 部 区 域 的 权重 分 布 和 各视频段 的 权重 分 布 ,
使用 自 注意 力机制 融合 各视

频 分段 的 结 果序 列 。 本 文 最后 通过对 比 实验选择 最适合行 为识 别 的 任务 的 注 意 力 机制 模



型和参数 ,
并且对模型 训 练 中 的批 次大 小 和 学 习 率两 个超参数进 行 调优 。 最后 , 对比了

7 


东 北 大 学 硕 士 学位论 文 第 1
章 绪论


几种 人体 行为 识 别 任 务 中 主 流 的 网 络结 构 , 从 准 确 率 的 性 能 指 标 上 分 析 本 文 设 计 方法 的

优点 

第 章 为 总 结 与 展望 首 先 总 结 了 前 四 章 内 容 分 析 本方 法 设 计 的 些优点和缺点

5 , , 

阐 述训 练神 经 网 络 中 需要 注 意 的 些细节 展 望 本 方 法 需 要 改进 的 地方 以及 已经 出 现


。 ,

的 还 未 在 人体行 为 识 别 领域 应 用 的 新 技术 


8



东 北大 学 硕 士 学 位 论 文 第 2 章 视频 行 为 特征 的 分 段提 取

第 2 章 视频行为 特征 的 分段提 取

传 统 的 视频帧 图像 处理主要采 用 2 D 卷 积 网 络进 行 特 征 提 取 , 对于 目 前流行 的 双流



网 络框架 中 , 2D 卷积 以 光 流信 息 图 作 为 输入 获取 时 间 信 息 特 征 光流 图 计算 较为 耗 时 , 

且 易 受抖 动 干 扰 。
为 了 综合 时 间 信 息和 空 间 信 息 , 3 D 卷积 网 络 应运而生 , 3 D 卷积顾 名

思义 , 就是将 2D 卷积 在 时 间 维度进行 扩 展 即 不 仅可 以 获 得 ,
2D 卷积 网 络 的 空 间 特征 

而且可 以 获取连续若干 帧之 间 的 时 间 特征 。 本 章 将详细 阐 述卷积神 经 网 络结 构和 3 D 



积 网络的作用 , 并利 用 UCF 1 0 1
数据 集分 别 对 2 D 卷积 网 络和 3 D 卷积 网 络进行对 比 实

验 

2 . 1 卷积神 经 网 络

卷积神 经 网 络 的理论提 出 是在 世纪 年代 等人 的生物学研 宄表 明



H ub e

[ ]
20 60 , i 

层局 部 区 域范 围 的 神经元 而后 网络 采用
42 ]
每层 的 神 经元 节 点 只 响 应 前 内 L eN et 




。 ,

若干 卷积层 和 若干全连接 层 组成 ,
中 间 包 含 各 种 非 线 性 操 作 以 及 池 化操 作 。 卷积 层 的 卷

积 核 对 图 像 的 指 定 位置进 行 卷积 运 算 , 可 以 从低 阶 特 征 提 取 到 高 阶 语 义 。 与 其他 网 络相

比 , 卷积 网 络 的 参数 共享 策 略 提 高 了 网 络 的 训 练 效 率 和 可 扩 展 性 。 L eN et -

5 网 络 的 成功

应 用 使 得卷积 神 经 网 络 得到 了 更 多 的 关注 。 随 后 出 现 了 很 多 卷积神 经 网 络框架 , 



^ 由 于 卷 积 运 算 主 要 处 理 类 网 格 结 构 的 数据 因 此对于时 间 序


43] 44
G oog l e Ne t

、 Re sN e t

, ,

列 以 及 图 像数据 的 分析 与 识 别 具有 明 显 优势 。 随 着深 度 学 习 和 相 关 网 络框 架 的 发 展 , 

积神经 网 络在 图像识别 、 文 本 处理和 语音 处理都得到 了 广 泛 应 用 



2 . 1 . 1 卷积运算介绍

在 卷积功 能 分析 中 , 卷积 是通过 函 数 X 和 W 进 行 相 关 数 学 运算 , 被加权函 数 W 和



乘积 函 数 X 围 成 的 曲 边梯 形 的 面积 

对 于 连续 函 数卷积 :
设 X O 和 W 〇〇 是)
R 上 的 可积 函 数 , 作积分 

X x W x

t dt
 2 1


( ) ( ) ( 


对 于 离散 函 数卷积 : 设X (
m) 和W (
n) 是长度 为 N 的 离 散信 号 ,
作积分 


X*W ) [

]

 YX j (


W (


)  (
2 2)




9 


东 北 大 学 硕士学位论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取


卷积运算 的 应 用 相 当 广 泛 例如 使用 个二 维卷积核 K 对传统的 图像 做相应 的 卷




, I

积运算 

K) K 

S j ^YI m n m n
= =

 ̄ -

i i
, j) ^


J 2 3

( )  ( (  , ( ) ( ) ( 

mn

卷积 是可交换 的 , 可 以 等价 写 作 

Y^ K 

S i

j)

K l i
, j )

I i

m J >



m n


2 4)



( ( ) (  { { )

mn

从增 加 m 的 方 面 来看 , 输入 的 指 数在 增 大 ,
但是核 的 指数在 下 降 ,
而核 翻转 是实 现

可交 换性 相 比之下 许多 深度 学 习 框架 实现 个称为 互相 关 函 数 的 相 关 函 数 该函数




。 , ,

几乎和 卷积运算 样 但 是 没 有 翻 转 卷积 核

, 

Y^ I 

S i
, j)



K i
, j )

i + m^ + n
 K m n


2 5




{   ( ) (  ( ) ( )

mn

在 机器学 习 中 学 习 算 法在 卷 积 核 的 适 当 位置 学 习 适 当 的 值 因此 个基 于 核翻转


, ,

的 卷积运算 的 学 习 算法所学得 的 核 , 是对 未进行翻转 的 算法学得 的 核 的翻转 。 单独 的卷



积运算在机器学 习 中 是很少 见 的 , 无 论卷 积 运算 是 否 对 核 进行翻 转 , 卷积 经 常 与 其 它 函



数 起使用 而 且 这 些 函 数 的 组 合 通 常 不 可 交换

, 

卷积 运算通过两 个重 要 思 想 : 稀疏 交互和 参数共享 ,


作 为 区 别 传 统神 经 网 络 的 重 要

特性 , 通过稀 疏交互 和 参数共享这 两种 思 想 , 卷积 神 经 网 络 大大 改进 了 机器 学 习 系 统 



下 面 依 次介 绍 这两种 思 想 

稀疏交互 的 物理意 义是 , 通常 图 像 、 文本 、 语音 等现实世界 中 的 数据 都 具有 局 部 的



特征结构 ,
首 先学 习 局 部特征 ,
然 后 结 合局 部 的 特征 以 形成 更 复杂 和 抽 象 的 特征 。 卷积

核 尺寸远 小 于输入 的 维度 因 此每个输 出 神 经元仅具有与 前 层特定局 部 区 域 内 的神经




元 的 连接权 重 , 称之为稀疏交互 

传统 的 神 经 网 络 中 输入与 输 出 之 间 具有矩 阵乘法关系 , 其中 , 网 络层 之 间 的 输入与



输 出 的 连接 关 系 可 以 由 个权 值 参 数矩 阵来表示 每个 单 独 的 参数值 都 表示 了 前 后 层 某


两个 祌 经节 点 之 间 的 交 互 。 相反 , 卷积 网 络 具 有稀 疏 交互特 征 , 通过 卷积 核 在 指 定 图 像

位置滑动来实 现稀疏 交互 的 特 点 , 由 于稀 疏交互 的 作 用 ,


所 以 卷积核 的尺寸远小 于 图像

本 身 的 尺寸 , 以 减少 训 练参数 ,
提高计算 效率 。
如 果有 m 个输入 和 n 个输 出 , 则 传 统神

经 网 络 的矩 阵乘法需要 个参数 而 且 相 应 算 法 的 时 间 复 杂 度 为 如果将每



个输 出 与 前 层 神 经元 的 连接数 限 制 为 则 连接 系 数 的 方法 只 需 要 个参数 以 及


一 一

k ,

的 运行时 间 。 在 实 际应用 中 , k 远小于 m 就可 以 取 得 可 观 的 效果 。


稀疏交互 的

图 像化解释 如 图 2 . 1 所示 , 上面两层 网 络 , 当 s 是 由 卷积核大 小 为 3 的 卷积产 生 时 , 



1 0 


东 北 大 学 硕 士 学 位 论 文 第 2 章 视频 行 为 特征 的 分 段提 取

有 三个输 出 受到x 的 影 响 ; 下 面两层 网 络 , 当 s 是 由 矩 阵乘法产 生 时 , 连接不 再 是稀疏表



达 , 所 以所有 的输 出 都会受到& 的影响 



图 2 . 1
稀疏表 达和 全连接


F g 2
i . . 1 S
p a r s e  e x p r e s s o  an
n d  fu i l l c onn ect o n


参数共享是指在 同 个模型 的 不 同 模块中 使用 相 同 参数 它 是卷积运算 的 固 有 属 性





在传统神 经 网 络 中 当计算 层 的输 出 时 权重矩 阵每 个参数仅对应 组输入和输 出


一 一





在卷积 网 络 中 , 卷积核 的每

个元素将作用 于每

个输入 的特定位置 。
根据 参数共享 的

思想 我们 只 需要学 习 组参数集合 而不 需要针对每个位置的每个参数都进行优化





, ,

这 是参数共享最 大 的 优点 

图片有 个特性 图 片 的 语 义特征 不 随着 图 片 区 域 的位置 改变而 改变 对于主 要 用





于 提取底 层 特征 的 前 几层 网 络 把 图像每 个局 部 区 域对应 的 卷积 核 进 行权值共享 





可 以进 步减少 网 络 中 参数 的 个数 根据 参数共享 的 思 想 我们 只 需要 学习 组参数集





。 ,

合 , 而 不 需要 针对 每 个位置 的 每个参数都进 行 优化 , 前 向 传播的 运行时 间 是



但是大大 降低 了 模型 的存储 需求 ,
降至 k 个参数 ,
而且 k 远小于 m 。 参数共享 的 物理 意

义 是使得卷积层 具有平移等变性 假如 图 像 中 有 只 猫 那 么 无论它 出 现在 图 像 中 的 任




。 ,

何位置 ,
都应该视为 猫 ,
即 神 经 网 络 的 输 出 对平移 变换来 说应 当 是 等变 的 。
如图 2 2



示 , 上面两 层 网 络 , 深 色箭 头 表示卷积 网 络 中 对卷积 核 的 使用 , 由 于 参 数共 享 , 这个单







1 1
东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取

独 的 卷积 核 参数被 用 于 所有 的 输入 位置 ; 下面两层 网络 , 这 个 单独 的 深 色箭 头 表示 在 卷

积 网 络模型 中 对模型参数 的 中 间 元素 的应用 , 由 于 没有 使用 权值共享 , 所 以参数只 使用






Q QQ G


r> rv rrv n


WW W W 〇



图 2 2 .
参数共 享和 全连接


F g 2 2  P a r a m e t e r  s h a r n g  a n d  fu
i . . i l l c o n n e c t on
i 

由 于 卷 积运 算 主 要 用 于 处 理类似 网 格结 构 的 数 据 ,
尤其 是 卷积 网 络 具 有稀 疏连接 和

参 数共享 的 特 点 , 大大减少 了 图 像处理 中 的计算时 间 复杂度和 空 间 损耗 ,


提高 了 模型 训

练效率 以 及可扩 展性 。 通过卷积运算 的 两种特性 , 卷积 核 可 以 首先在输入 的 指 定位置 学



习 局部特征 ,
然后 结合局 部 特征 , 形成更复杂 和抽 象 的 特 征 ,
与 传统的神经网络相 比 

不仅 提 高 了 训 练 效率 ,
而且提高 了 网 络鲁棒性 

二 维 卷 积 主 要 应 用 于 图 像 处理 领域 卷积通常对应着 个非 常稀疏 的 矩 阵 因 为输


, ,

入图像的大小 般远大于卷积核 的 大小尺寸 任 何 使用 矩 阵乘法但不 依 赖于矩 阵结 构 的




特殊属 性 的 神 经 网 络算法都适用 于 卷积运算 线 性滤波 是 图 像 处理最基本 的 方法 首 先 。 。 



对于 图像的每 个像素 点 计 算 其 邻 域 像 素 和 滤波 器矩 阵 的 对 应元素 的 乘积 然后将乘




, ,

积 相 加 起来共 同 作 为 该 像 素 位置 的 值 ,
从 而 完 成 了 滤 波 过程 。
如图 2 . 3 所示 ,
演示 了 在

二 维 张量上 的 卷积运算 。 对于 图 像而 言 , 通过在 图 像 指 定 位置 与 滤波 器模板进行翻转运



算 , 然 后 在 原 图 像上 移 动 相 应 位置 , 将 元 素乘 以 相 应 位置 并相 加 得 到 最 终 结 果 

1 2 


东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取

I i i
pu 

" " "
" " " " "

1 1   I

  K | | J
e r uc 

a d


u -
 



  —

=z  wx


p | |


 f 9 fi = 

mmmm -

mmmm  =z  =  y  z


 j k l  P  =   == !


w Ou t
p u t




aw  +  bx  +  f
e u  +  ci  +  c  + '

ti ; { ir  +



y  ^  f z  f y  +  g z  g y  h z

eu

+/z +  f w  +  p x  +  g w  hx  -





y  +  j z  j y  +  kz  k y  +  I 

图 2 3 . 二 维卷积运算


F g 2 3T wo d m ens ona c o n vo ut on


i . . i i l l i

计 算机视觉方 向 是深度 学 习 应 用 最广 和 最深 的 领域之 随 着硬件设 备 的 改进和 海




量 数据 的 增 加 ,
深度 学 习 在 图 像 处理领域 中 的研 究 和 应 用 得到 了 飞 速 发 展 ,
而卷积祌经

网 络 的研 宄在 图像处理 中 占据 了 绝对重 要 的 地位 

2 . 1 . 2 卷 积神 经 网 络结构

卷积神经 网 络在 多维 图 像 中 的 应用 十分广泛 。 卷积 网 络框架 众多 ,


但是各个 网络层

结构大致相 同 ,
如图 2 4 .

所示 ,
典型 的 卷积神经 网络 中 , 主 要包含 卷积 层 、 下采样层

和 全连接 层 等 网 络 结 构 。 卷积 层通常 和 下 采样 层 结 合 使用 ,
并 且 在 网 络 的 最 后 几层 中 使

用 全连接 层 网 络 用 于 下 采样 获得 整 体特征 

叩u t 丨
m a
ge 3  F ea t u r e M pa 3 s F ea t u r e M pa s 5 F ea t u r e M pa 5 s
 Fe a t u r e O u t
p u t  L a ye 

M pa
n

 n—


  



- -

, 

 

1   


L —


■ ? 口
 r l
 〇 q

U 




J .




[ _ 

C o n v o ut o n l
i  Poo l


g  C o nv o l
ut o n
i  Po o l


g  F u l l

yC
o n n e ct e d

L a
ye r  La
y e r
 La y e r
 L ay e r
 
N e t wo r k


图 2 4 .
卷积神经 网 络结 构 图


F 4C o n v o ona u ra etwo ks t r u c t u
g 2 ut n e n r re


i . . l i l l


- 


东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特征 的 分 段提取

卷积神经 网 络 中 各层 网 络 层作 用 不 一

。 其中 , 卷 积 层 主要 用 于 提取输 入 图 的 语义 特

征 ; 池化层 本质 是 降采样 , 主要 用 于 减少 计算量和 防止过拟合 ; 而 全连接层 是 为 了 将 各



特 征层 的 分 布 式 特 征 映射 到 样 本标记 空 间 , 以 便于输 出 层 的 分类输 出 。


下 面分 别 是三个

网 络层 的计算过程 

( 1 ) 卷积层输 出 中 有 多 个特征 图 , 每个特征 图 由 多 个神 经元组成 ,


而每个神 经元在

卷积 核 中 通过特 定 位置 和 前 层 特征 图 局 部 连接 卷积 层每 个特征 图 的 输 出 共享 个卷


一 一

积核 ,
将 卷积 核 作 为特 征提 取器 ,
那 么 每组输 出 看作 特征提取后 的 特征 。
每个输 出 特征

图 可 以 组合卷积 多 个特征 图 的 值 

xJ f u
( J 

V
'  (
2 6 .



+ U
u rL x k b 丨 ,

j 

M i e


其中 , u

称为卷积层 L 的第 J 个 通道 的特 征输 出 , 它 是通过对输入 图 像特 定 局 部 区 域部

分 x广 进 行 卷 积 运算 和 偏 置 求 和 得 到 其 中 x 是卷积层 的第 个通道 的激活后 输 出



, L J 


是前 层 的 输 出 特征 图集合 ,
作为第 J 个通道 的卷积 核矩 阵 , 是卷积 核 的 偏 置 

公式 中 作 为卷积层 的 激活 函 数 般的神经 网 络 中 激活 函 数通常 为饱




( 2 . 1 ) , f
( 〇 。 ,

和非线性 函 数 , 如 s i
gm o
i d 函数 、 ta nh 函 数等 。 当 网 络层 不 断加深 时 ,
神经 网 络会 出 现

梯度爆炸 和 梯度 弥散现 象 , 这就使得 不饱和 非线性 函 数在深度神 经 网 络 中 尤为重要 ,




时 还可 以 加 快收敛速度 。 深度卷积神 经 网络常使用 线性整流 函 数 ( R e LU ) 作 为激活 函



数 

/ (

)

 ma x

〇 x ,
)  (
2 7 .



由 公式 和图 可知 Re L U 函 数 的 非饱和性 和稀疏性 在 定程度上缓




( 2 7 . ) 3 . 5 , ,

解 了 梯度爆炸和梯度弥散 的 问 题 , 且 不 需要指 数运算 , 计算复杂度低 ,


适合用 于 后

向传播 

■   
\ 

/ 

?U





图 2 5R e L U
. 函 数曲线


F g 2
i . . 5 R e L U  fu n c t i o n  c u rv e

4 



东 北 大 学 硕士 学 位论文 第 2 章 视 频 行 为 特 征 的 分段提 取


( 2 ) 为 了 解 决 卷 积 层 输 出 神 经 元过 多 引 起过 拟 合 问 题 , 卷积 神 经 网 络 引 入 池 化层 

池 化层 是将 特征 图 局 部 区 域 的 特 征 进 行 统计 分析 得 到 代 表整个 局 部 区 域 的 总 体特 征 , 

式 ( 2 8 . ) 所 示 池 化 层 通过 减 少 神 经 元 的 数 量 来 减 少 网 络 模 型 的 计 算 量 即 下 采 样 过 程
, , 

又可称为 下 采样层 。
 , 



x f u
( ^


u r a j
LD  卜 own
X j


+ u






2 8



其中 称为池化层 L 的第 通道 的 激活后 的 输 出 由前 层输 出 特征 图 下采样




, u J , ;

加权和 偏置相加 得 到 , D o wn ( _

) 表示池化方法 , 通过滑 动 特 征 图 对每个 图 像块 内 的 像 素



求和 、 求均值或者最大值 的方法 ,
作 为 图 像 块 的 整 体 表达 

( 3 ) 卷积神 经 网 络 中 使用 卷积层和 池化层 获取 高 阶局 部特征 , 在 网 络 的 后 几层 ,




式 所示 使 用 全 连 接 层 对 特 征 图 进 行 下 采样 得 到 整 体特 征 转换为 维特征 向 量


( 2 9 . ) , ,

作 为输入 

X ’ W

( )

2 9)



/   / /

I   , 


x

u co 

其中 称为全连接层 的激活后 的输 出 由 输入特 征 图 进 行 权重W 加 权和 偏 置 V 相




, u / , ;

加得到 

卷积 神 经 网 络主 要 分为这三个 网 络层 ,
现在 主 流 的 卷积 神 经 网 络框架 也都 是基 于 这

个基础 层 结 构 根据 具 体 任 务 改进得 到 。 2D 卷 积 网 络 在 处理

幅 图片 时有着很好 的表现

效果 但 是对于 时序类型 的连续多 帧 图 片


, , 2D 卷积 却 无法得到 时 间 维度 上 的特征 信 息 

而 3 D 卷 积 神 经 网 络 专 门 用 于 解 决 视频 流 的 连续 帧 特 征 提取 问 题 , 下面作 详细介绍 

2 2

基于 3 D 卷积 神 经 网 络 的 视频 特征 分段 提 取

3 D 卷积顾名 思 义就是 比 2D 卷积在时 间 维度上 多


维 , 即 在 连续 帧 图 像流上进 行 卷

积运算 。 所以 , 3 D 卷积 神 经 网 络 既可 以 提取 空 间 信 息 又可 以 提取 时 间 信 息 ,
相对于光


流图的时间消耗 , 3 D 卷积运算大大减少 了 运算耗 时 , 而且 效果不低于光流信 息 的 特征


提取方法 本文基 于 。 3 D 卷积 神经 网 络 的特征提取部分 利 用 传统 的 , 3 D 卷积 神 经 网 络 

对 视频 中 的 若干段分别进行特征编 码 , 其 中 各段之 间 的 3 D 卷积 网 络参数共享 。


如图 2 6

 .

所示 本章基于 D 卷积神 经 网 络提取视频特征 部 分 的 步骤主 要 分 为 搭建 个用




, 3 : ( 1 )

于人体 行 为识 别 的 3 D 卷积神 经 网 络 , 包括 3 D 卷积层 、 3 D 池 化层 和 全 连接 层 部 分 , 



连 续 帧 图 片 流 的 每 个 通道进 行 由 前 到 后 的 特 征 提取 ,
最 终 通过 全连接 层 形 成 整体 的 特征

描述 ;
( 2 ) 将 视频流 的 各个动 作 段 的 连续 多 帧 图 片 经过步骤 ( 1 ) 得到 特征 向 量后 , 


- 


东 北 大 学 硕 士 学 位 论 文 第 2 章 视频 行 为 特征 的 分段提取

过特征 特 征 融 合方法 得 到 整个 视 频 的 特征 描 述子 ;
( 3 ) 经过 Sof
tm ax 分类器得到类别 概

率 




 ;续 ^
?
 ̄  ̄  ̄ —

二11 
训 r =

V 
  [

| ( 


\_  ( )
络 训 练7

I C o n v 3 d I
| 




 

   T ■

| 

Cl D


连续 帧
( )
!  1

P o d  3 d   

HJ  y ^ 
I I


v  ̄ ̄

_ _  I  ? 纖 网络


L  ̄


T   

   ^ !

?






_ I —

- 1



    r L

创建均 值 A I I - 




 ̄  ̄  ̄ ̄

连续帧
文件 


I 

I ( (

  L

I ■  —
 一  . 一 .  一  ■ 一  ■ 一  - 一 一 一  一        一      一  

  ▼   

M  ̄ ̄

? 各 连 续 — 征 提取

? 行为识别 结 果 分类

? 准确 率统计


( ( )

图 2 6

基于 3 D 卷积神经 网 络特征提取 框架 图

g 2 6  F e a t u r e  e x t r a c t o n  fr a m e w o r k  b a s e d  o n  3 D  c o n v o
F i . . i l ut i o n a l n e u r a  n e tw o r k
l 

2 2
. . 1 3 D 卷积介绍

3 D 卷积非常适合时 空特征学 习 , 3 D 卷积 具有 更 好 的 时 间 信 息模型 能力 。 3 D 卷积 



如图 所示 在 D 卷积 的 基础上增 加 个维 度 即 连续 多 帧 图 像卷积操作 如 图

2 7 .
, 2 , 。 2 . 8 

将 2D 卷积 应 用 于 单 通道 图 像或 应 用 于 多 通道 图 像将 生 成 幅图像 因此 2D 卷积 网 络


。 ,

无法 获取输 入 信 号 的 时 间 信 息 ; 只有 3 D 卷积 保 留 了 输入信 号 的 时 间 信 息 ,
从而 产 生 了

个 图 像序 列 同 样 的 方法也适用 于 D 池化和 2D 池化

, 3 

t e m p ora 



W 图 2 73
. D 卷积示 意 图

F g 2 73 D c o n v o
i .
. l u t i o nd a i

g am
r 


- 


东 北 大 学 硕 士 学 位 论 文 第 2 章 视频行 为 特征 的 分段提取

 / /
  

| /


  H 

D d



H  ^

^ > k

A -


 o ut p u t   ^ 






W 
2 Dc o n v o l u t i on  3 Dc o n v o l u t i on

图 2 . 8 二 维和 三维卷积运算


F i
g . 2 . 82 D  an d  3 D c o n v o ut l i on

人体行为识 别 输入为连续 多 帧 图 像 , 以往大多 数 网络采用 2D 卷积层 , 损失 了时间



信息 。 而使用 3 D 卷积不仅 获取 了 时 间 信 息而且 保 留 了 空 间 信 息 。 相对于 2D 卷积 网 络



使用 光流 图 获取时 间 信 息 ,
其耗时长 、 易 受干扰 的 缺 点 , 3 D 卷积更适宜于连续帧 的特

征提取 

2 2 2 3
. . D 卷积神 经 网 络 结构

卷积神经 网 络是 等人 在 年第 次提 出 的 用 来解决连续 帧 图像任务




46]

S 20

3 J i 1 3 ,

的 卷积神 经 网 络 后面的 些 改进 的 D 卷积 网 络都是 基于这个 网 络 的 优化 如下图 2 9




。 3 。 _

所示 , 该 网 络含有 1
个 h ar d w i r e d  ( 硬连线 ) 层 、 3 个 3 D 卷积层 、 2 个下 采样层 和 1


全连接层 

* 


.






convo
咖 咖on
 s u bs a _
^ ^

、
h a rdw Dsa

f ed 議  su
convo u on


?


t i

/
1 ?




sT
  & p  ^  \

 ”

f l

 pm  临  \
 『
n u


p t
i :

l %

,^

上 

■ 


  匕 二 2


23 2 § 54 x 34  23 2 ^ 2 7x 1 

图 2 9 .
经典 3 D 卷积 网 络


F i

g .
2 9C
. l as s c  3 i D c onvo l ut i o nn e w o r k

 t

在第

个硬连线层 中 , 上 图 网络应用

个 固 定 的硬连线核来处理原始帧 , 生成多个

信道信息 ,
并分别 处理每 个信道信 息 。 h ar d w i re d 层 相 当 于 提取 视 频信 息 的 特 征 先验 知


- 


东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取

识 ,
包括五种特 征信 息 :
灰度 图 、 x 和 y 方向 的梯度 、 x 和 y 方 向 的 光流信 息 。
随后 的

D 卷积层 对上述五个特 征通道 的 每 个特征通道进行卷积运算 如 同 2D 卷积神 经 网 络




3 ,

样 的 卷积操作 不 同 在于 D 卷积 网 络 是在 连续 图 像上 的 相 同 位置 同 时执行卷积操作

, 3 

D 卷积之 后 的 下 采样 层 同 D 卷积核工 作 原理

致 进 步 得到 空 间 分辨率 和 帧 数 降低


3 3 ,

但是通道数不变 的特征 图 。 最 后 经过全连接层 和 Sof


tm ax 分类器得到分类结 果 

经典 的 3 D 卷积 网 络 依 旧 存在 着诸 多 问 题 ,
其中 ,
网 络输入 需 要 计 算 连 续 帧 的 光流

信息 且 不 能 处理长时 序 的 视频流 针对这些 问 题 种 更 加 简 洁 美丽 的 D 卷积神 经




, 。 , 3

网 络框架 由 此产生 如图 所示 通用 的 卷积 神 经 网 络 卷积层


47
。 2 . 1 0 , 3 D [ ]

使用 8 层 3 D 

5 层池化层和 2 层 全 连接 层 , 提取人体行为特征 。 该 网 络具 有很好 的普适性 , 适用 于 多



个视频动 作 场 景 , 如行为识别 ,
场景识别 , 视频相 似度分析 等 , 此 网 络 以 多 张连续 帧 图

片 作 为 网络 的输入 ,
使用 八层 3 D 卷积层 同 时 学 习 时 间 和 空 间 维度特征 , 不 仅减少 了 时

间和 空 间损耗 ,
而且 效果更好 


C onv l a
^ C o nv 2 a


  £

64 128
2


V .

^  ^  yL  )


r r n

C o n v 3 a C o nv 3 b
写


256  2 5 6 § _ 
 t 

v x  v /L
f  .
 

r
f



^  C o n v 4 a C o n v 4 b
^


连续 巾贞
 5 1 2 5 1 2  °

?L o s s

图 片 l A 
J L ^ J


C o n v S a C o n v 5 b
 ^ 

 5 1 2 5 1 2


v 
/\ 
/ 


FC6 FC7

4 0 9 6 4 0 9 6

S o ft m ax
: ]

图 2 . 〗 0 通用 的 3 D 卷积 网 络


F i

g . 2 . 1 0U n v e rs a 3
i l D c o n v o l ut on a
i l n etw o rk

使用 2D 卷 积 神 经 网 络 来 识 别 单 个 帧 图 片 类别 , 显而 易 见 , 这 种 方 式无 法考 虑 到 连续

帧 图 像 的 运动信 息 针对 这 问 题加入 了 光流场 作 为 时 间 信 息 的 改进 使用 传统光流信




。 ,

息代 替连续帧 图像 的运动信 息 随 即 使用 , 2D 卷积神经 网 络提取光流 图 的 高阶语义 特征 



但是 光流信 息 般 只 获取前 后 两 帧 图 像运动 信 息 且极易 受背景影响 因此 种利用





, 。 ,

8
- 


东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特征 的 分段提 取

卷积神 经 网 络 来捕 获 空 间 和 时 间 维度信 息 特征 的 3D 卷积神 经 网 络应运而生 。 上述 的传



统的 3D 卷 积 神 经 网 络 可 以 在 连续 帧 或 者 多 帧 之 间 生 成 多 个 信 息 通道 ,
并 且 在 每 个 通道

中 分 别 执行卷积 和 下采样 像 卷积 网 络 样 通过组合动 作 特征 图 通道 的 信 息 来获




, 2D ,

得最终 的 特征表示 

本 章 系 统 中 为 了 更好地提取完整行为特 征 首 先将视频 分成 多 段 每 小 段视频处




, ,

理 成连续 多 帧 图 像 ,
并进 行 求均 值 化 、 翻 转等数据 预 处理 , 作为 3 D 卷积 网 络的输入 

然后 ,
根据 训 练标签 指 定 文 件 夹 里 的视频 作 为 网 络 输入 , 经过上述 3 D 卷积 网 络后 ,


最后

层 全连接层 的

维 特征 向 量 的 输 出 做 元 素 加 权 平 均 , 作 为 融合 策 略 。 最后 , 经过

S o ft m a x 分类器得到 类别 的 概率 分 布 

2 33. D 卷积神 经 网 络 的 结 果 与 分析

2 3 . . 1 常 用 数 据 库 和视 频 预 处理

随着人体行为识 别 技术 的 发展 , 相 关 的 数据 库 也在 不 断 改进和 发展 ,
表 2 . 1 列出 

近 几年人体行 为 识 别 领域相 关 的 数据 库 

表 2 . 1 人体行为识 别数据集


T ab l e 2 . 1 A ct i onRe c o gn i t i o n  d at as et

数 据 集 名 称 发 表 时 间 行 为 类 别 总 视 频 片 段

K T H 200 4  6 2 3 9 

We i z m an n  2 00 5 1 0  90

I X MA S 2 0 0 6 1 1  3 63

Ho yw o o d 2 0 0 8 8
l l 2 40

U C F Y o uTu b e  2 0 0 9
 1 1  1 1 00

Ho 2 2 0 0 9 2 3 6 6 9
y wood 

I l 1

U CF5 0 20 1 0 5 0  5 0 00

H MD B 5  2 0 1 1 1  5 1  6849

UCF 1 0 1  20 1 2 1 0 1  1 3320

S p o rt -

1 M 2 0 1 4 4 8 7  1 0 0 

考 虑 到 数据 库 库 质 量 和 普 适 性 ,
本文 中 使用 UCF 1 0 1 数据集 和 HMDB 5 1 数据集



49 ]

作 为本文 的 数据集 , 也是 目 前 人体 行 为 识 别 领域最 为挑 战性 的 两个 数据 集 。 其中




- 


东 北 大 学 碩 士 学 位 论 文 第 2 章 视频行 为 特征 的 分段提取

UCF 1 0 1 数据 集包含 1 0 1
个类别 ,
每个类别 至少 1 00 个样本 ,
共 1 3 3 2 0 个视频 , 总 时长

27 小时 训 练集包含 。 953 7 个视频样 本 测 试集包 含 , 3 783 个视频样本 如 图 。 2 . 1 1 , UC F 1 0 



数据 集主 要 来 自 B B C /E S PN 的 广 播 电 视频道 收集 的 各 类运动 样 本 、 以及互联 网 特别 是视



频网站 Y o uT u b e 上 下载来 的样 本 ,
动 作 分类可分 为 五类 : ( 1 ) 人和 物体相 互作用 ;
( 2 

仅 身 体动 作 ;
( 3 ) 人与 人相 互作用 ; ( 4 ) 演奏乐 器 ;
( 5 ) 运动 。 相 对于 UCF 1 0 1 ,

HMD B 5 

数据 集 具 有 相 对 较 少 的 数据 共有 个类别 每个类别至少有 个视频 段 





, 5 1 , 1 0 1 ,

有 6849 个视频段 。 但是 HMD B 5 1 数据 集 画 质 稍 差 , 且相 机抖动 明 显 ,


对 行为识别 模型

加入 了 更多噪声 , 而且背景环境较为复杂 , 相对于 UCF 1 0 1 数据集 ,


现有 的 网 络 中

HMD B 5 数据 集准确 率并 不 高 如图 H M D B 5 数据库大多来 于 电影 还有




1 。 2 . 1 2 , 1 自 ,

些公开 数据 库 的 整合 以及 Y o uT ube 等视频 网 络 库 动 作 分类主要是五类  般的




, : ( 1 )

面部表情 带有 辅助对 象 的 面 部 动 作 般 的 身体动作 有物体辅助 的




; ( 2 ) ;
( 3 )  ;
( 4 )

人体行 为 ;
( 5 ) 人体 互动 的 身 体 动 作 ,
涵盖 了 日 常 见到 的人体行为 


t 


 SS fS Ti  SES KT IE S C
T  SJC
TSSST

* 230 25 ^* i a
i i


S SC C T t HD S K j
E3C2X o  E s T 3H B3 1  2 5KZn3 5
M ESC I  E 5t 5  X 2 S 3 SE E K  J E S S E E S S S T  i i A J R i T  

 :;

SS戀 ! 盡 在 3E

 I


_ :l ^ — 丄 w r^ iF 

—   —

 BM H m  """"""""Hamm  mmmmmmm mm  mmmmmmmmm 

mmammmmm  m m m m m h m i  ^ 
^  \ i

BP



」 ^ I
? JL .— I L,

m Wi 通m n S S S E B U f
, t ■ E EJ G T l W  E 5 S O 5 ^  M K T u 2 ? 1 M £ i M 5 5 L ^  E 5 2 2 3 5 5 5 5 1

B  
 ! ! r
 i

1 ^9


图 2 . 1 1 UC F 1 0 1 数据集样 例


F i

g 2 . . 1 1 U CF 1 0 1  d at a s e t  s a m p e

 l

20




东 北 大 学 硕 士 学 位 论 文 第 2 章 视频 行 为 特征 的 分段提取

4 m  ^ B  y i I  於’ %
^
、 2_也


 ^  ^  ^




 p u ,

C u s h or t v ^ c .  c

-, 加 b  c . ,

^ t ^ i 4 * i
^  m w m m m

i ii


^ U  _  ?? W  m of
a  ^* *a
^

, * . 

W 改 被 啟 嫩 * ^m 切 I

 g
ba m r un


^ l ^ 7
^B^f



 w

h sr
^ < } H t

WS
 Mm
il
t 
£ f t  ? t * n* > 

? ?




? ?
* ? ? ? ? ? *  ???  ? * ?y*? 

t ur


Hx * l *^  b m* t w ? ?? ?>?



團 鱷
h ei r  k v  bu t
^■



p * t v  Fc
縐 _ _■ m

 ? i

 p u Mu p  p un ch 
 
?**?

bt
f l

图 2 . 1 2 H MD B5 1
数据 集样例


Fig 2 . . 1 2 H MDB5 1 d a t a s e ts a m p e

 l

模 型 训 练之 前 首 先进 行视频 预处理 。 因为 3 D 卷积 网 络 的输入 需要连续帧 图 像 ,




先将 UCF 1 0 1 数据 集 中 的 视频转 化 成 图 片 序 列 作 为 输 入 序 列 。
传统的 3 D 卷积神经 网 络

的 输入 是在 段视频 中 随 机 连续 采 样 张图片 这样 的 方法使得不 太 合理 很 可 能 会造




n , ,

成关键 行为段的损 失 影响模型 效果 另 种 方 法 是 扩 大采样 的 帧 数 尽 可 能 获 取 完 整 的





行为 , 这样 会造成 帧与 帧之 间 信 息 的 冗余 , 而且增 加卷积网 络参数 , 影响 网 络效果和 运



行效率 。 本 文采用 视频分段 的 方 式 , 首 先将视频 分成 多 个子 段 ,


每 个段之 间 随 机采样 若

干张 图 片 , 既包含 了 完整 的动作 ,
又减 少 了 无用 的 信 息输入 。 如图 2 . 1 3 所示 ,
例如将视

频 分 成三段 ,
每段随 机取 两 张 连续 帧 图 片 ,
分别 作 为 3 D 卷积祌经 网 络 的输入 

mL 

HP #  i  H IT  积 神经 网


 t 

Sf

c -
 r 

L Zj

黾 命 


如图 2 . 1 3 视频预处理示意 图


F i
g . 2 . 1 3 V i d eo
 p r e p ro c e s s
i n
gs c h e m a t i 

2 
- 


东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取

2 . 3 . 23 D 卷积神 经 网络模型训练



本 章 的 动 作特征提取部 分 首 先将视频分成 多 段 然后每 段使用 层 D 卷积


8 3 




层 P oo l 和 2 层 全连接 层 的 3 D 神 经 网 络结构 作 为模 型 编码层 ,


并共享各段 的 部 分 网 络参

数权值 最后 D 神经 网 络输 出 层 为每段的结 果 向 量 即 维特征 向 量 并通过结 果段





3 , ,

融合方 式得到 整体结 果序 列 



分 段输 出 层 的 特 征 向 量 融 合方法通 常 采 用 两 种 方法 种 是平 均 法 如图 


: , 2 . 1 4 ,

个子段最后 层 全 连接 层 的 维特 征 向 量 按元 素进行加 权平均 得到最终融合 的 维特





一 一

征向量 再经过 tm ax
f *类器得 到 最终结 果 种 是最 大值法 如图 按元素选



So ;
, 2 . 1 5 ,

择 各子 段最大值 组成 个子段 将该子段的 维特征 向 量作 为最后 的特征 向 量 同样使




一 一

, ,

用 So t m ax
f 分类器得到 最终结 果 。 下 文将对 两 种 融合方式做对 比 , 选择更适合人体 行 为

识 别任务 的 平均 融 合方 式作 为结 果序 列 的 融合方法 

0 3 .

 〇 .
i  0 10 . . 5

0 2 .

 0 2 . 0 . 1 0 . 5  l
 > 0 . 2 0 .
13 0 .
1 0 . 57

0 1 .


 

M 0 . 1
 |
〇 7 .

图 2 .
1 4 平均 法融合示 意 图


F g 2i . . 1 4  M e a n  m e t h o d  fu s i o nd a g r a m

 i

0 3.
0 1 .
0 .
1 0 . 5

0 2 .

 0 2 .
0 . 1 0 .
5 l  > 0 . 3 0 . 2 0 . 1 0 .


0 1 .

 〇 l .

 0 1
. 0 . 7

图 2 . 1 5 最大值融 合示 意 图


F g 2 i . . 1 5 M ax i m u m  fu s o n  d
i i a gram

网 络输入 的 帧 数 和 段数对模 型 本 身 有 着 决 定 性 的 影 响 ,
本 文 通 过对 比 交 叉 实 验 , 

择最佳 的 帧数和 段数 的 组合 。 由 于 硬件 条件 限 制 ,
本文在通用 的 3 D 卷积神 经 网 络基础

上 将卷积层设置为
, 8 层 池化层 数和 全连接层数保持 不变 根据输入序 列 的 帧 数 不 同
, 。 

相 应 改变池化层 的 参数 

在 下 列 实验 中 ,
本文选择 了 几 组 在对 比 试验 中 性 能 效 果 较 好 的 实验 结 果 作 为 参考 

本 次帧数和 段数参数选择 的 对 比 实验 , 是在 相 同 的 Dr
opou t 值 、 相 同 的 正 则 化方 式 、 

使

用 相 同 的 优化方法情况下 , 对 两个超参 数两两交 叉进行对 比 实验 , 实验结果 如表 2 2 .




示 , 对 比 实验 中 分别 使用 两种 融合方式 :
平均 融合和 最大值 融合方式 ,
不仅考虑到段数

2 2
- 


东 北 大 学 碩士 学 位论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取


和 帧数对模 型 影 响 , 而 且 考 虑 了 不 同 的 分 段 数 对两 种 融 合 方 法 的 作 用 效果 ,
并使用 提前

停止 方式得 到 各参 数组合最佳模型 

表 2 2

不 同 超 参组 合 的 模型 结 果对 比 ( 准确率 , %)

T ab l e  2 2  C om p ar
. i s o n  o f m o d e l  re s u l t s  o f d i ffe r e n t  s u p e r p a r a m e t e r  c o m b i n at i o n s ( a c c u r ac y
 

% 

帧 数 段 数 平 均 融 合  最 大 值 融 合

8  6 7 8 3 .  78 5

 .

8  9  8 1 . 4 8 0 6

 .

8  1 2 7 9 8 7 7 3

 . .

1 6 6 8 0 0 .  79 . 

1 6 9 8 0 9 .  79 0

 .

1 6 1 2 7 8 0 7 8 2

 . .

24 6 7 7 5 7 7 5

 . .

2 4 9  7 7 9 7 6 8

. .

2 4 1 2  76 2 7 7 0

 . .

由 上表得 , 当 帧数为 8 ,
段数为 9 时准确率 效果最好 。 而且平均 融合方式 的 效果 在

多 数组合 中 比最 大值 融合方式更好 ,
尤其 是 在 段数较 少 的 情况 下 , 平均 融合法相对 于 最

大值 融合法提升 效果更 大 。 下 面本文为 了 得 到 精确 的 参数值 , 对 段数进行微调 ,


依旧是

在相 同 的 D ro p o ut 值 、 相 同 的 正 则 化方法 、 使 用 相 同 的 优化方 法 情 况 下 , 设定最佳帧 数



为 8 , 对 段 数进 行 微调 ,
其结果如 下表 2 3 .
所示 

表 2 . 3 不 同段数 的模型结果对 比 ( 准确率 , % 



T ab l e  2 3  C o m p ar
. i s ono f  m ode l r e s u l t s  fo r  d i f fe re n t  s e g m e n t s  ( a c c u r ac y % 

段 数 平 均 融 合 最 大 值 融 合

8  80 9 .  80 . 

1 0 8 2 7 8 . 1 . 

1 1  8 0 5 7 8 8
. 
 .

通过 以 上 实验可得 ,
段数越 长 ,
最大值融合 的方法效果 下 降 ; 帧数为 8 情况下 , 

均 融合和 最大值 融合方法都 能得 到 最好 效 果 。 由 此可得 , 结 果 融 合 中 使 用 平均 融 合方 式



更 适 合本文 的 人 体 行 为 识 别 任 务 , 而且 , 帧数为 8 、 段数为 1 0 , 可 以使得 3 D 卷积神经



网 络 获得 最佳 的 特征表示 。
如下表 2 4

所示 ,
最 佳 帧 数 的 值 确 定 了3 D 卷 积 神 经 网 络 的

23 



东 北 大 学 硕士 学 位论文 第 2 章 视 频 行 为 特 征 的 分 段提 取


各个层 结 构 结构 参 数 以 及输入输 出 的 尺寸 其中 各个段 的 网 络模型 结 构 完全 致


、 , , 

并 且各段 网 络 参数共 享 

表 2 4 .
分段 3 D 卷积 网 络结 构 图 参数


T ab l e2 . 4  S e g m e n t e d  3 D  c o nv o l ut i o n  n e t w o r k  s t r u c t u r e  c h a r t p a r a m e t e r s


网 络 层 名 输 入 大 小 滤 波 器 大 小 核 大 小 输 出 大 小

* *
Da t a 8

1 1 2 1 1 2 -  -

8* 1 1 2 1 1 2




C onv l a 8 1 1 2

1 1 2

3  64 3 *3 * 3 8 * 1 1 2

1 1 2

64

Poo l l 8* 1 1 2

1 1 2

64 -

 1



2 8

56

56

64

C o nv 2 a  8 * 5 6 * 5 6 * 6 4  1 2 8  3 * 3 * 3  8 * 5 6 * 5 6 * 1 28


Po o 2 8 l

56

56 1 2 8 -

 2 * 2 * 2 4 * 2 8 * 2 8 * 1 28

C o nv 3 a  4 * 2 8 * 2 8 * 1 2 8 2 5 6 3



3  4* 28 *2 8 *25 6

v3 b  4

Co xi

28

28

2 5 6 2 5 6 3 3

3  4 *2 8 * 2 8 * 2 5 6

Poo l 3  4 * 2 8 * 2 8 * 2 5 6  2 * 2 * 2 2 * -
1 4

1 4

25 6

* * * *
C o n v4 a  2 * 1 4 1 4 2 5 6 5 1 2 3 3

3 2* 1 4 1 4

5 1 

C o nv 4 b  2 * 1 4

1 4

5 1 2 5 1 2  3 * 3 * 3 2 * 1 4

1 4

5 1 

P oo 4 2


l 1 4

1 4 5 1 2 -

 2 * 2 * 2 1





5 1 

* * * *
C on v5 a  1 7



5 1 2 5 1 2  3 * 3 * 3 1 7 7 5 1 

C o nv 5 b  1





5 1 2 5 1 2  3 * 3 * 3 1





5 1 

Poo 5 1
* * *
l 7

7 5 1 2 -

 1 2

2 1





5 1 

F c6 
* *
1 4

4 5 1 2  4 0 9 6  4 0 9 6

 -

F c 7 40 9 6 4 0 9 6 -

 40 9 6

2 3 3
. .
结果分析

下 面 将本 章 的 分段 3 D 卷积神 经 网 络模型 与 双流 2D 卷 积神 经 网 络模 型 和 传 统 的 3 

卷积神 经 网 络做对 比 。 其 中 双流 2D 卷积神 经 网 络 中 的 的 2D 卷积神经 网 络为 5 层 卷积



层 、 3 层池化层和 2 层 全连接层 空 间 流和 时 间 流 网 络 的 网 络结 构相 同 但 是 参数不共享 , 



如下 图 所示 空 间 流 网 络 的 输 入 从视频 流 中 随 机 采 样 张图像 时 间 流 网 络输入 从




2 . 1 6 , ,

视频流 的 光流 图 中 随 机采样 张 连 续 帧 的 光 流信 息 两 个 网 络结 果使用 平均 融 合 合并


, 

得 到双流 网 络 的最终结果 分段 。 3 D 卷积 神 经 网 络 结 构 与 传 统 的 3 D 卷积 网 络结构相 同 



24




东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取

使用 8 层 3 D 卷积层 、 5 层 3 D 池化层 和 2 层 全连接层 。 如图 2 . 1 7 所示 , 传统 的 3 D 卷积



神 经 网 络 输 入 是在 视 频 流 中 连续 采样 1 6 帧 图 像作 为视频 的 时 空信 息 

_




_ wm  


图 2 1 6

空 间 流 网 络输 入 ( 左 ) 和 时 间 流 网 络输入 ( 右 

F 2 6S s tr e a m n e t w o r k n p u t( mn e t w o r k


g p at a e ft a n dt m es t r ea n
pu

gh
i . . 1 i l i l i i t i t
) ( 


I  

|  |

 _


图 2

. 1 73 D 卷积 神经 网 络输 入




F i

g . 2 . 1 73 D c o n v o l ut i
o n a n e u
l ra l n e t w o r k n p i
u 

本文采用 固 定 的 输入 和 输 出 维度 方 式 ,
各 个 模 型 的 激活 函 数 均 使 用 Re L U 函数 。


有模型 都在大致相 近 的 时 间 内 达 到 神 经 网 络 稳 定 收 敛状 态 ,
并且 模 型 训 练 时 采 用 提 前 终

止 的 正 则 化方式 ,
保证模 型 达到 最 佳状 态 。 不 同 的 神经 网 络模 型 采用 了 相 同 的 归

化方

式 所有 模 型使用 相 同 的 梯度 下 降法 和 学 习 率
, ,
并 采 用 相 同 的 正 则 化方法和 正 则 化参 数 

对比结果如 下表 2 . 5 和图 2 . 1 8 所示 

表 2 . 5 分段 3 DCNN 与其他模型对 比


Tab l e2 . 5S e
gm en t e d3 D C N Nc o m p a re d t oo h t e r m ode l 

性 能 指 标 空 间 流 网 络 时 间 流 网 络 双 流 网 络 3 DCN 1 M 分 段 3 D CN N

准确 率 ( %  66 ) . 8 7 1 . 5 8 1 . 6 8 0 . 3 82 .


运行时间 ( h ) 2 1 . 5 32 . 0  22 -

. 1 23 . 

2 5
- 


东 北 大学硕士 学 位 论 文 第 2 章 视频行 为 特征 的 分 段提取

准确率 ( % 

81 6 .

 80 .
3  82 7


空 间 流 网 络  时 间 流 网 络 双 流 网 络  3 D C N N  分 段
i l 


3 DCN N

图 2 . 1 8 不 同 模型 的对 比结果


F g 2
i . . 1 8 C o m p ar i s o nre s u l ts o f d ffe r e n t  m o d e
 i l 

由 以 上数据可 知 ,
分段 3 D 卷积神 经 网 络在人体行为识别任务 上 比 2 D 卷积祌 经 网 络

有更优异 的表现 分段 , 3 D 卷积 网 络 充 分考 虑 了 完 整视频动 作 信 息 ,


并且与传统的 3 D 

积 神 经 网 络 随 机采样 部 分视频 帧 相 比 ,
有 更好 的 准确 率效果 ;
且 各段参数共享可 以 并 行

计算 , 所 以 相 比 于传统的 3 D 卷积 网 络 ,
分段后 的 时 间 复 杂度 并没有 明 显 的 缺 陷 。 以上

结果是在采用相 同 正则 化系数 、 梯度学 习 率和 D ro pou t 规则情况下 , 在相 同 数据集



UC F 上进 行控 制 变量 的 结 果 其 中 双流 网 络与 原文结果稍有不 同 但是大抵是 


1 0 1 , ,

的 至于不 同 的 原 因 是 因 为 为 了 对 比 实验 的 条件 致性 双流 网 络和 本 章 的 分段 


, , , 3

卷积 网 络都没有加入 预训 练模 型 

从结 果 来看 , 在 提 取视频 序 列 特 征 方 面 , 3 D 卷积 网 络 模型 相 对 于 2 D 卷积 网 络有 更

好的结果 。
在 时 间 要 求严格 的 情况下 ,
使用 分段 3 D 卷积 网 络 的 表现超过 了 双流 网 络 的

表现 。
然而 , 正 如 前述实验所 知 , 由于 3 D 卷积祌 经 网 络 只 能输入 固 定 序列 长度 ,
而且

序列 长度越 多 , 训 练参数成倍 数增 加 ,
使得模 型 训 练 时 间 复杂度 大大增 加 ,
甚至损 失 函

数不 收敛 。 因此 ,
使用 3 D 卷积神 经 网 络 处理 人 体 行为识 别 任务在长 时 间 的 视频特征 提

取 中 具有 定局 限性 本文后 续将利 用 循环神 经 网 络 的 结构 特点 解决视频序 列 的 长 时 间




依赖 问 题 

2 4

小结

在本章节 中 ,
本 文 从数 学 角 度剖 析 了 卷积 运算 原理和 作用 ,
阐 述 了 卷积神经 网 络和

传 统 神 经 网 络在 结构 和 信 息 传 递上 的 区 别 。 分 析 了2 D 卷 积 网 络 在 序 列 图 像 中 提 取 时 间

26
- 


东 北 大 学 硕 士 学 位 论 文 第 2 章 视频 行 为 特征 的 分段提取

特征 的 原 因 和 问 题 并且 从结 构上 解释 了

3 D 卷积神 经 网 络与 2 D 卷积 神经 网 络 的 区 别 

以及 3 D 卷积 网 络 的 设计理念 

在传统 的 3 D 卷积 网 络 的 基础 上 ,
本文将视频首 先进行分段 , 其 中 各段之 间 的 3 D 

积 网 络 的 参数共享 , 然后将每

段经过 3 D 卷积 神 经 网络得到 特征 向 量 , 最后 经 过平 均

融合 的 方法得 到 人体行 为 识 别 结 果 。
本 章 通过控制 变量 方法 , 得 到 了 视频 段 数 和 视 频 帧

数 的 最佳参数 ,
并且 与 双 流 网 络算 法进 行 对 比 实验 ,
得 出 了 分段 的 3 D 卷积神 经 网 络在

视频信 息特征提取上 的 优越 性 。 为 后 两 章 网 络模 型 的 搭建奠 定 良 好 基础 



27
- 


东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取

28
- 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上 下 文 关 系 学 

第 3 章 各段行为特征 的上下文 关系学 



本 章 将 通过 数 学 推 导 的 方 式 详细 介 绍 循环 神 经 网 络 的 工作 流程 。 接 下 来将 从 结 构 上

分析循环神经 网 络面临 的 问 题 , 梯度消 失现象产生 的数学原 因 。 随后 介绍 了 循环神经网



络的 种升级结构 长短期记忆 网 络 并 仔细 介 绍 长短 期 记 忆 神 经 网 络 的 门 结 构 最后




在长短 时记忆 网 络 的 基础上利 用 3 D 卷积神 经 网 络提取 的 视频特征作 为输入 , 学习不同



时 间 的 各个动 作 段 的 上 下 文关 系 , 并利 用 UCF 1 0 1 数据集和 H MDB 5 1 数据集进行对 比



实验 ,
分析 该算法 的特点 

3 . 1 循环神经 网络

循环神经 网 络 ( R e c u r r e n t N e ur a N e
 l  t wo rks ,  R NN ) 源 自 于物理学家 J . J . Hopf
ie l d 

授在 年提 单层反馈神经 网 络 人们 后来称这种 反馈 网 络为 霍 普 菲 尔 德


5 Q

出 的
[ ]

1 982 ,

( Hopf
ie l d ) 神经 网络 。 传 统 的 神 经 网 络 无法在 时 间 序 列 上 建模 , 然而 ,
样 本 出 现 的 顺序

对于 自 然语 言 处理 、 语音 识 别 、 人体 行 为识别 等 序列 任 务尤其重要 。 而循环神 经 网 络对





并 生成 出 许 多 变种 等
52

序 列 问 题表现 的 尤为 突 出 如

GRU LSTM

[ 1 [ I

, ,
、 

3 . 1 . 1 循环神经 网络介绍

循环神经 网 络 中 的 每 个 时 间 步 也 是 由 若干神 经元组成 如图 所示 神 经 元接




, 3 . 1 ,

受输 入 X , 通过 权重 w 的连接 ,
并将权重加权后 的信 号 与 神经元的 阈 值进行 比较 , 通过

激活 函 数确 定是否激活 

x ^ .

2 

^ h x
w b ,
( 


3  

+ 1


图 3 . 1 单个神 经元表达


F S n g en e u ro ne x ess o n


g 3
pr
i . . 1 i l i

如 公式 ( 3 . 1 ) 所示 ,
单 个神 经元表达对应 的 表达式 为 


^W

f W / + b) 1
h, .

f,

x )  = ( x )  = ( ,

, 
 (








29 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征的 上下 文 关 系 学 

其中 / 〇 为激活 函 数 ,
提 高 网 络 的 表达 能 力 和 泛 化 能 力 。
循环神经网络常用 的激活 函 数

是 s i
gm o d i
激活 函 数和 t anh 激活 函 数 。 如式 ( 3 . 2 ) 所示 , s i
gm o i d 激活 函 数表达 式为 

/ (
^ )-

^ (
3 - 2)

和式 ( 3 .
3 ) 所示 , t anh 激活 函 数表达式为 

/ (
z )  =  t an h ( z )
= -

l

+ e
^ 



3 . 3


如图 3 . 2 所示 , s i
gm o
i d 激活 函 数和 t anh 激活 函 数都有饱和 区 , 但 是作 用 域不 同 ,


中 , 左图的 s i
gm o d i
激活 函 数 映射到 实数 区 间 为 ( 0 ,
1 ) , 而右 图 的 ta nh 激活 函 数映射 到

实数 区 间 为 (



1 ) 

, ?  t a nt *


0 
 


 :
I S)  ^






° 6
/





y 
 -

4  -


  2 y
4 


1 0



5 5



J

 






 

U 1 


图 3 . 2s i
gm o d i 函数 ( 左 ) 和 t anh 函数 ( 右 

F g
i . 3 . 2S i i t

g m o d  f u n c t o n  ( e )  an d  t a n h  u n c t o n  ( r g h t )
i f l


i i

由 于 s i
gm o d i
激活 函 数和 t an h 激活 函 数 的 作 用 域 的 不 同 ,
使得 两种激活 函 数在 循环

网 络 中 的 作 用 也不尽相 同 。 由 于 si
gm o d i
的 取 值 域符合 门 控 的 定 义 , 常用 于 门 控 的激活

函 数 ;
t a nh 激活 函 数关于 原 点 对称 ,
符合绝大部 分输入特征 的 原 点 对称性 质 ,
并且零附

近 的 函 数梯 度 大 于 s i
gm o
i d 激活 函 数 , 可 以 加 速 收敛速度 ,
常 用 于 循环神 经 网 络 的 隐藏

层输出 的激活功能 

利 用 神 经元组织和 传 统 的 有 向 无环计 算 图 可 以 呈现 出 循环 神 经 网 络 中 的 循 环 机制 

如图 所示 前 时刻 的输 出 用 作后 时 刻 的 输入 所有 的 时 间 步共享相 同 的 参


一 一

3 3 1

. , t t ,

数 

S " _ S


( ) )

I
广 广 l 

图 3 3 .
循环机制示意 图


F 3 3S c h e m at c  d a r a m  o f h e  c y c e  m e c h an s 


g g t
i .
. i i  l i

考虑 到外部输入 X 的驱动系统 ,
没有输 出 的 循环 网 络 , 这种循环 网 络 只 能处理输入

X 的信息 ,
并将其合并到经过 时 间 序 列 的 隐含层 的输 出 中 。 如图 3 . 4 所示 ,
可 以当作当

3 0




东 北 大 学 硕 士 学 位 论 文 第 3 章 各段 行 为 特征 的 上 下 文 关 系 学 习

前状态包含整个序 列 过去 的 所有 状态 其 中 黑 色方块表示单个 时 间 步 的 延迟 每 个时


, ,

间 节 点 与 特 定 的 时 间 和 输入特征相 关联 


un f 〇 d i

  

S /


J
f X f X (

l ) ) ( X (


) f X (
t +l



图 3 . 4 带输入 的循环机制


F g
i . 3 . 4  L o o p  m e c h an i s mw i t h  n p u t

如公式 ( 3 . 4 ) 表述上述 循环 结 构 






f {












)  (
3 . 4)

其中 , 0 表示 网 络参数 ,
/ 〇 表示 t anh 激活 函 数 ,
表示 当 前 隐藏层 的 输 出 , 当 前 隐藏

层 的 输入为 前

隐藏层输 出 和 当 前 层 的 数据 输入 x , 且 当前序列信 息 只 与之前时



刻有关 

循 环 网 络 根据 过 去 时 间 信 息 预测 未 来 序 列 , 通 常要 学会使用 当 前状态 与 前 n 个状态



的相 关性 ,
而 没有 必 要 保 存 所有 输入序 列 的 所有 信 息 , 仅 仅 保 存 能 够表达 当 前 隐 藏层 的

状态 的序列部分信 息 即 可 

3 . 1 . 2 循环神 经 网络结构

与前 章 卷积 网 络 中 卷 积 核 参 数共 享 概念类似 在循环神经 网 络 中 共享不 同 时间




, ,

的 参数 。 而 循 环 网 络 的 特殊 之 处 ,
可 以把参数共享 引 入到时 间序列 中 ,
在整个循环神经

网络中递归计算 , 这 是卷积神 经 网 络和 传 统神 经 网 络 所无法 替 代 的 。 通过在神经 网 络 的



结 构 里 引 入循环 的概念 使得神经网络本身可 以 保持 段时 间 的 信 息 就像神经 网络有




, ,

了 时 间 的 记忆 循环神经网 络 中 非 常重 要 的 概念就是 时刻 每 时刻 都会有 个状态




一 一

。 ,

输 出 值和 输入序 列 ,
其 中 网 络 中 间 状态 , 也 就是状态输 出 值会按 照 时 间 进行 传递 ,
形成

循环 网络 

如图 3 . 5 所示 循环 神经 网 络结 构是指将输入
, x 映射 到 输 出 值 〇 的 对应序列 。 其中 

〇 (

) 为 隐藏层 的输 出 h (


经过线性变换后 的输 出 ,
再经过 S o ft m ax 多 分类器 ,
预测序列

结果 其中 每 个时 刻 的 隐 含层 的 参数是共享 的 并且当 前时刻 只 与之前 的 时刻信 息




。 , ,

有关 , 和 当 前 时 刻 之 后 的 信 息 无关 。 通过 最 小 化损 失 函 数 ,
不断的训练网络 , 使得到 的

循环祌 经 网 络可 以 准确地预测 视频 行 为 所 属 的 类 别 , 达到 分类 的 目 的 。 相 比于 卷积神经



3 
- 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各 段行 为 特征 的 上下 文 关 系 学 习

网 络或者 前 馈 神 经 网 络 。 循环 网 络 能够描述序列 顺序信 息 ,


充 分学 习 上 下 文关 系 并得到

更好 的效果 



^)
 (^
y  Qy  ^y


Q  ^  0 Q Q



) r X (

l )

J  ( X (
t )

J  ^
X (
t +l



图 3 . 5 循环神经 网络结 构


F i

g . 3 . 5 Cyc l i
cn e u ra l n e tw o r k st r uc t u r e

循 环神 经 网 络有 着 很 重 要 的 性 质 首先 每 时 刻都有状态输 出 值 隐藏 单 元之 间


。 , ,

有循环连接 其次 只有 个环路 网 络 当 前 时 刻 的 状态输 出 到 下个 时 刻 的 隐 藏 单元之




; , ,

间 存在环路连接 ; 最后 ,
隐 藏单 元之 间 存 在 循环连接 , 但循环 网 络读取 整 个序列 后 产 生

单 个输 出 。
将 上 述循环 神 经 网 络结 构 转述 为 公 式 ( 3 . 5 ) 

屮 =
W " + W + 


- ?

, JC

2 l    

) ( ) ( 

/z 7 =
t a nh a /
( ) ( ( ) )

〇 {

)

 v

/z


)
+  c  ( 


) ’

仍声 m a x 0 /
( )

 ( ( ) )

其中 ,
参数偏置 向量 b 和 c 、
权重矩 阵 w 、 u 和 v ,
分别 对应于 输入到状态 、 状态 到 状态

和 状态 到 输 出 的 连接 循环 神 经 网 络将 个输入序 列 映射 到 固 定 长度 的 带有上下 文信 息


的输出 序列 

3 . 1 . 3 循环神 经网 络 的前 向传播

循环神 经 网 络变种 结构 较 多 , 虽 然 具 体 隐藏层 的 神 经 元之 间 的 连接方 式 不 尽 相 同 



但 是基本 原 理基本 相 似 。
本文 以经典 的 R NN 结构为例 , 介绍 循环神 经 网 络 的 前 向 传播

和 数学推 导 

3 2 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上下 文 关 系 学 

由 图 3 . 5 和公式 ( 3 . 5 ) 所得 , 其 中 损 失 函 数使用 常见 的 回 归均方误差损 失 函 数 ,




表达 式为 


3 - 6)

将 R NN 内 部神 经元结 构 展开 , 其中 

( 1 ) x ( t ) 表示在序 列 时 刻 时 训 练样 本 的 输入 t 

( 2 ) h ( t ) 表示在 序 列 时 刻 时 的 模 型 隐藏状态输 出 量 t 

( 3 ) 0 (

) 表示序 列 时 刻 t 时 的模型输 出 , 0 ( t) 只 由 当 前 状 态 量 h ( t) 决 定 

( 4 )
y ( t ) 表示序 列 时 刻 t 时模 型训 练样 本 的真 实 标签 

( 5 ) L ( t) 表示 序列 时 刻 t 时 的损失 函 数 

由 此 可 得 循 环 神 经 网 络 的 前 向 传播 算 法 

对于任意序列 时刻 t , 隐 藏层 状 态 值 h (

) 可 由x (

) 和h (
t

1
) 得到 


* *
+ x(t +b
f^w

h h u 7)

t t \ 3 .

{ ) ( 

) 
( ) ^

其中 为 R NN 的 激活 函 数 般为 激活 函 数


( 〇 , ta nh 

参考公式 ( 3 . 6 ) 的 循环 神 经 网 络 的 结 构 表达 式 , 序列 时刻 t 的模型输 出 0 ( 〇 表达 式

求解为 





)

 v /z



+ c
 (
3 .
8)

在序列 时刻 t 时 得 到 的 预测 输 出 为 

y f
{ )

 so
f msx 〇
i .

{ {

)^  (
3 . 9)

3 . 1 . 4 循环神 经 网 络 的 后 向传播

在 R NN 结 构 和 前 向 传 播算法 的 基础上 , 可 以 推 导 出 RNN 反 向 传 播 算 法 的 流 程 。




环神 经 网 络 的 反 向 传播算法 的 思想 与 深度神经 网 络 的 反 向 传播算法思路 致 是通过


一 

轮轮 的梯度 下 降 算法迭代 ,
获 取合 适 的 R NN 模 型 参数值 ,
即 u 、 w 、 v、 b 、 c , 因 为它是

基于 时 间 的反 向 传播 , 所 以 循环 神 经 网 络 的 反 向 传 播 也 称 为 B P TT 。 这里 的 B PTT 和传

统深度神 经 网 络也有很 大不 同 , 这里所有 隐 藏层 的 训 练参 数都 是 时 间 上共享 的 ,


反向传

播 中 我们 更新 的 是相 同 的 参数 

由 上述 公式 ( 3 . 5 ) 和 公式 ( 3 . 6 ) 所得 ,
输出层的 v 和 c 的 梯度计 算较为简 单 

S〇
SL
=

SL {


=  {


=

 /
_


y /
)  (


V 3 1 0)

 Sc  S c 

( ) ( ) 

t

Sc T

33
- 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上下 文 关 系 学 

循环 神 经 网 络 的 隐藏层 需要 实现参数共享 , 梯 度计算相 对 复杂 。 从 R NN 的模型可



以看出 反 向 传播 中 某 序列 时刻 的 梯 度 变 化量 由 当 前 时 刻 的 状态输 出 的 梯 度变化




, ,

量和后 时 刻 的 梯度变化量两部分计算得 到 对 于 隐藏层权重矩 阵 在某 序列时刻



。 

的 梯度变化量和 时刻 之前 的所有 时 刻有 关 需 要反 向 传播 步步计算 因此 定 义序




t , 。 ,

列时刻 t 的 隐 藏状态梯 度为 






) 

斗
卿 



3 - 1 2


利用 D NN 的 反 向 传播和 链式法 则 计算a (


t +1 ) 到a (

) 的 递推公 式 ,
其中d i ag ( 〇 为对角 矩

阵构造 函 数 

 8L
S〇 (

)  5L  S 〇 {



S〇   

^^ (



)  Sh


)  S〇 S (





T 2

V diag { \ + 

〇 = ■ -

+  ■

a + -

h 3 4)
y y w
?   t t  t  \  t 1 . 1
{ { ) ) ( ( ( ) ) ( 

( ) ( )  ) )

对于序列时刻 t

T ,
即 最终 时 刻 , a ( T) 后 没有 序 列 连接 ,
因 此有 


為識 
= ?

3 . 1 5
) ( 

下面依 次计算 w 、 u 、 b 的偏导数 



dw ^ 5 h {

) 
^ d w

 Z^





1

( K t +  !
))

)

 ^
( 0 

 ( K { +  l

Y  (
3 . 1 6)


) 2 r

= '
=
di a g ( l -

h t +  l

< j t

h t + l 3 1 7)



( )) ) ( ( )) ( 

各汾
( )





 ^

^誓 ” 冲

= =
_

3 8


. 1
) ) ( 


 1 

以 上 总 结 了  R NN 的 反 向 传 播 算 法 ,
后 续循环神 经 网 络 改进 结 构 中 与 R NN 结构有所

不同 但 是反 向 传 播 原 理基本 致




3 . 1 . 5 循环神经 网 络 中 的 梯 度消 失

虽然 RNN 理论上可 以 很优雅地解决 序 列 数据 的 训 练 但是它 也有像 DNN 样有梯




, 

度消 失的 问 题 , 当 序列越长 , 问 题越严重 。
循环 神 经 网 络 的 求解采用 B P TT 算法实现 

然而使用 B P TT 算 法 学 习 的 循环 神 经 网 络 并 不 能成 功捕 捉 到长距 离 的 依 赖关 系 由 。 B P TT

的 链式法则 和 公式 可知 序列 时刻 的 隐 藏 层 状态 量 a 对第 时刻 的 隐藏层 状


( 3 5 . ) , t


态量a (

) 的偏导 

M0 坤 坤 

) 〇 

^ n i g

3^


)  da {


) 
da ( t


)  3a




34
- 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各段 行 为 特征 的 上 下 文 关 系 学 

将 ⑷ ? 0 代入上式 可得序列 时刻 的 隐 藏层状态量a 对前




/j

 ta nh ( 3 . 1 9 ) , t


时 刻 的 隐 藏 层 状态 量 a (
t

1
) 的偏导 

载誠 +斗 "
_


4%
= ■

)]


1 1  /  \ 1 I n f  

a

nh  a

w nh w ta

* - -

ta

l /

/ l
( ) ( 

,  ,  ,  (
3 . 2 0)





 



n l  /  \ nn / 1  n \


w anh la w an h a
- * * * -

t /

t / l l

( ) ( 

其中 n 为 隐藏层 单 元 的 个数 , 对 应 的n * n 矩阵 , 称为雅各 比矩 阵 

9a(t

1)

由 于 预 测 的 误 差 是沿着 神 经 网 络 的 每 层反 向 传播 的 因 此 当 雅各 比 矩 阵 的 最 大特


征值 大于 1 时 随 着 距 离 输 出 越来 越 远 每 层 的 梯 度 大 小 会 呈 指 数 增 长 导 致 梯 度 爆 炸
, , , 

反之 , 若雅各 比矩 阵 的 最 大特征值 小 于 1 , 梯度 的 大 小 会呈指 数缩小 , 产生梯度消 失 



对于 般的前馈网络 梯 度 消 失 意 味 着 无 法 通 过 加 深 网 络层 次 来 改 善 神 经 网 络 的 预 测 效


果 , 因 为 无论如 何加 深 网 络 , 只 有 靠近输 出 的若干层才真 正起到 学 习 作用 。 这就使 得循



环 神 经 网 络 模 型 很 难 学 习 到 输入 序 列 中 的 长距 离 依 赖 关 系 

对 于 梯 度 爆 炸 问 题 可 以 通 过 梯 度裁 剪 来 缓 解 , 当 梯 度 的 范 式 表达 大于 给 定 值 时 ,


梯 度 进 行 等 比 收缩 。 对 于梯度消 失 问 题相 对较为 复杂 , 由 于激活 函 数本身 的梯度饱和 问



题 ,
使得 梯 度 消 失 问 题 需 要 从模型 本 身进行 改进 。 对于 前馈 网 络来说 , 可 以 通过残差学

习 的方法缓解梯度消 失现 象 , 从而 使我们 能够学 习 到 更深层 网 络 的特征表达 。 对于 循环



神 经 网 络来说 , 有 很 多 改 进 的 模 型 来 缓 解梯 度 消 失 的 问 题 

3 2
. 基于 B i

L S TM 的上下文关系学 习

长短期记忆神 经 网 络 ( L o n g  S h or t T erm  M em o ry ,
L S TM ) 是循环神 经 网 络 中 最 知 名

的 成功 的扩展 由 于上 节提到 的 循环神 经 网 络 中 出 现 的梯 度消 失和梯度爆炸 的 问 题


。 

学 习 能力 有 限 在 实 际应用 中 的 效果往往 达不 到 预期 效 果 针对 _ 存 在 的 这 些

。 问 题 

L S TM 做 了 针对 性 的 改进 , 并获得很好 的 效 果 。 L S TM 可 以 对有价值 的信 息进行 长 期记



忆 ,
从而有选择 的 学 习 前面序 列 信 息 , 减少循环神 经 网 络 的 学 习 难度 。
如图 3 . 6 所示 

本系 统利 用 第 2 章 3 D 卷积神 经 网 络提取 视频特 征 , 然 后将 各段动 作 特 征 向 量使 用 双 向



3 5




东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上下 文 关 系 学 

L S T M ( B i

L S TM ) 学 习 各段动 作 特征 前 后 文关 系 ,
输 出 层还原特征序 列 ,
最 后 经过平

均 融合方法得 到 行 为特征 

B i L STM 训 练


i a?
( ( )


? 各连续 帧 特征提取

 

? 行 为识 别结 果 分 类

? 准 确 率 统计

图 3 . 6 基于 B i

LS TM 上 下 文关系模型框架 图


F g i .
3 . 6  B as e d  o n  B i

L S T Mc o n t e xt m o d e  l  d a r am

g 

3 . 2 . 1 L S T M 的 结构

由于 _ 存 在 着不 能长 期 记 忆 的 问 题 即 梯 度消 失现象 学者们针对这 问题构




, 。

造 出 长短时记忆神经 网 络 L S TM ,
这种 网 络可 以 学 习 序 列 数据 中 长 期 依赖关系 , 用 来缓

解 R NN 的梯度消 失 问 题 

大多数的 _ 神 经 网 络都是拥有 复 用 的 神经 网 络模块 , 常规 的 R NN 复用 的 模块有



着非常简 单 的结构 如图 所示 个 层激活 函 数 的 神 经单 元


。 3 . 7 , ta nh 

@ Q


t  t  t
^ —

 r _


^ W


j 、 
J   

@ 0 ?


图 3 . 7 标准 RNN 结构 中 复用 的 模块


F i

. 3 . 7 M o d u e s m u l l t i


l e x e d nastan d ar dR
i NN  s t ru ct ure

L S TM 也 是基于 这样 的 基础 ,
但是复用 的模块结构 却 不尽相 同 。 与传统的 _ 中 的

简单 t a nh 激活 函 数 的 神经单 元相 比 。
如图 3 . 8 所示 , LSTM 的 祌 经单 元拥 有 四 个神 经单

元结构 ,
他们 之 间 存在 着 相 互作 用 的 逻辑关系 

36




东 北 大学硕士 学 位 论 文 第 3 章 各段行 为 特征的 上下 文 关 系 学 习

? ? ?


/ 
 ̄  ̄ *

 S
Y t  
 ^

 r \



v 

 i ML / x  
J  

 




 1 1 

0  @ (





图 3 . 8 标准 L S TM 结 构 中 复用 的模块


F g 3 8M u
i . . l t i

p exe
l d  m o d u e s  n  a  s t a n d ar d  L S T
l i Ms tr u c t u re

由上图 3 . 8 所示 , LSTM 的 关键在 于 cel l


单元 , 水平 的 状态传 递 贯 穿 了 整个结 构 的

顶部 通过 单 元 中 间 的 三个 门 结 构 控 制 信 息 的 删 除 和 更 新 每 个 LS TM 包含三个


。 ce l l ,

门 结构 ,
分别 是输入 门 、 遗忘 门和输出 门 。 和传统的循环 网 络相 比 , L STM 仍然 是基于

输入x 和 前 时 刻 隐含层输 出 来计 算 当 前 时 刻 隐含层输 出 心 只 不过是对 内 部的结




/l
t t d ,

构进行 了 更加精 心 的设计 加 入 了 输入 门 遗忘 门 以 及输 出 门 三个 门 和 个 内 部记忆单




, 、

元 输入 门 控制 当 前计算 的 新状 态 以 及更新 到 记忆单 元 中 的程度 ; 遗忘 门 控制 前 一



记忆单 元 中 的 信 息有 多 大程度被遗忘 ; 输 出 门 控制 当 前输 出 有 多 大程度取决于 当 前 的记



忆单元 

L STM 中神经单元的第 步 就 是判 断信 息 流之 中 的 哪 部分信 息 是 需 要 丢 弃 的 而这




过程 则 需要 遗忘 门 来完成 所示 遗忘 门 根据&和 h 的状态 利用


” “ ”

如图 


。 3 . 9 ,

_

; !

函数 把单元状态 中 的每 个数字映射到 和 的区间上 则 代表完全遗




s i
gm o d i , 0 1 , 0

忘 , 1
代表完全保 留 ,
并且当输入较大或者较小 时 ,
输 出 会非常接近 1 或者 0 ,
从而保

证 门 开或者 门 关 

图 3 . 9 遗忘 门 结构


F g 3 9  F o rg o t e n  g a t e  s t r u c t u
i . . r 

当 网 络接受新 的 信息时 遗忘 门 可 以 帮 助 实现对 过去信 息 的 过滤 遗忘 门对应的


“ ”

。 

表达式如 下 , 其中a (
_

) 表示 门 控 函 数 , 即 si
gm o d i
激活 函 数 ,

和…分别 表示遗忘 门 的

权重 矩 阵 和 偏置 

3 . 2 1
( 

3 7




东 北 大 学 硕士 学位论 文 第 3 章 各段行 为 特征 的 上下 文 关 系 学 


下面是决 定让多 少新 的信 息加 入到 单元 中 这 部 分 由 两 个过程 组 成 如 图


ce l l , 。 3 . 1 

所示 首先 激活 函 数 建立 的 输入 门 决 定 要 留 下 哪 些信 息

同时

, ,
利用 si
gm o d i , ,
由 ta nh

激活 函 数 的 神经单 元生成 需要 添加进 ce l l


单 元 的 新 的 单 元状态 值 C t
; 然后 , 将两部分 融

合 , 形成新 的 单 元状态 


h  ̄

i ^


X |
I

图 3 . 1 0 输入 门 结构


F g i . 3 . 1 0 n I
p u t g at e  s t r u c t u r e


输 入 门 对 应 的 表达 式 如 下 其中 和 匕 分 别 表不 输入 门 的 权重矩 阵 和 偏 置 而C
“ ”

, , ,


表示 ce l l
单元的状态值 


fT w
V +


^ ^

,  (

[ 1

] 


C =
ta nh




/2

_




J 
+  Z?

)  (
3 . 22


最后我们 决定输 出 单元 的 哪 些值 首先 同样是利用 激活 函 数建立 输




ce l l s
gmo d
。 , i i

其次 使用 激 活 函 数 非 线 性 表达 单元 的 状态值C 最后 将激活 后 的 状


出 门 , , ta nh cel l t

态值和 输 出 门 融合 得到 隐藏层 的状态输 出 值


“ ”
, 


 _
 辛  1



图 3 . ] ] 输出 门结构


F g 3 i . . 1 1  Ou t

u t  g at e  s t r u c t u r e

在行为 识 别例子 中 ,
输出 门 可 以控制输 出 , 由 于本文 用 到 的神经 网络模型 中 存储 的

是 行 为特征 而最终 的输 出 却 是 个类别 概 率 这就 需要这种 门 的 结构 用 来控 制 输 出




, , ,

层 的输入 。
输 出 门 的 表达式如 下 ,
其中 ,
&表示最后 的 隐藏层 的 输 出 

32 3
( 


t 

 o

t an h
 (
C ;


3 8
- 


东 北 大 学 硕 士 学位论 文 第 3 章 各段行 为 特征 的 上 下 文 关 系 学 习


由 上 述 L S TM 各部分结构可得 在 个训 练好 的 网 络 中 当 输入 中 的 序 列 没有重要


, ,

的 遗忘 门 的 值接近于 输入 门 的 值接近于 此时 过去 的记忆会被




信息时
“ ” “

, L S TM 1 ,  0 ,

保存 , 从 而 实现长期 记忆功 能 ; 当 重 要 信 息 出 现 在 输入 的 序 列 中 时 , L S TM 应 当 把其存



入记忆 中 此 时 输 入 门 的 值接 近 于 当 重要信 息 出 现在输入 的序列 中 且该信 息 意




“ ”
, 1 ;

输入 门 的 值 依 旧 接近于 而 遗忘 门 的 值 接近于 


“ ”

味 着 之 前 的 记忆 不 再 重 要 时
“ ”
, 1 , 0 ,

此 新 的 信 息 保存 下 来 , 旧 的信 息得到裁除 。 经过这样 的 结 构 设计 , 整个神 经 网 络 更容 易



学 习 到 序 列 之 间 的长期 依赖 

3 . 2 2B i

L S T M的 建 立

长短 时 记 忆神 经 网 络 的 建立 有 很 多 方 式 , 并 且 不 同 的 变种 结 构 在 不 同 的 场 景 应 用 都

取得 了 不 错 的 效果 在本系 统 中 D 卷积神经 网 络提取的 维特征 向 量 前 时刻 隐




一 一

。 , 3 、

藏层输 出 和前

时 刻 隐藏层 状态量C 作 为序 列模型 t


L S TM 输入 ,
其中 h 和 c 都使用

零 向 量初始化 

无论是 然 语 言 处理 中 的 机器翻译还 是 人 体 行 为 识 别 任 务 每 时 刻 的 类别 概率都




自 ,

是依 赖于 整体序 列 。 这就意 味着 , 在序列 时 刻 t 时 , 不仅依赖于之前 的 行为状态 , 还依



赖于 之后 的 行为状态 。 然而 ,
传统的 L S TM 在 时序上处理序列 , 往往 忽 略 了 未来 的 上 下

文信 息 种 原 始 的 改进 是加 入 时 间 帧 的 未来信 息 起预测 当 前 时刻输 出 当 值比




一 一

。 n , n

较大 时 , 可 以捕 获未来 的 有 用 信 息 , 但是 n 过大时 , 模 型 效 果将会很差 。 因 为 网 络模型



将 参 数集 中 在输 入信 息 上 ,
导 致对 于 不 同 输入 信 息 的 预测 向 量联 合 的 拟 合 能 力 下 降 。 

以 , 这种 改进 不 适 合深 度 网 络 的 使 用 

采用 双 向 L S T M  ( B i di r e c t i o nal L S T M  , B i

L S TM ) 的 连接结 构 可 以 考虑 到 双 向 信 息

序 列 处理 , 且两个 网 络并 行计 算 ,
相 互不 受影响 。 相 比 于 在 输 入层 加 入 未 来 信 息 的 改 进

方法 , B i

L S TM 有更好 的拟合效果 , 且适用 于长 时序 列 。 B i

L STM 相对于 L S TM 的主

要 不 同 是训 练前 向 和 后 向 两个 L S TM 网络 而 且 两 个 网 络 都 分 别 连接 个输 出 层 这个


, ,

结 构提供给输 出 层 输入序 列 中 每 个时 刻 的 完整 的 过去 和 未来 的 上 下 文 信 息



对 于连续 帧来说 ,

个视频 分段都表示着

个连续 动 作 的 不 同 动 作 片 段 。 因此 

每 个动 作 片 段都有 个 自 己的时 间戳 这就意 味着 每 个动 作 片 段是在 每 个时 间




一 一
一 一

, ,

时 刻 网 络模 型 处 理 的 最 小 单 元 。 由 此可得 , B i

L S TM 网 络 前 后 向 学 习 的 特 征 适 合人 体 行

为识 别 任务 

39
- 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各段 行 为 特征 的 上 下 文 关 系 学 

如图 该结构采用 两个 LSTM 网 络并行方式 前 个 LSTM 由 前 向 后正序处




3 . 1 2 , ,

理 后 个 L S TM 由 后 向 前倒序处理 即 序列 时刻 得到 的结果可 以代表前 向 LS TM 




, , t

后向 LS TM 共同作用 的结果 

〇u tpu t Laye r

 Z Q ( l 

^ ^  
ja

H d d e n  L a y e r  V V;


V J  V5 V5


 \^  \
I n pu t L a ye r


^)

_

图 3 . ] 2B i

LS TM 模型示意 图


F i
g . 3 . 1 2B i

L S T Mm o d e l d i agram

在 特征提 取层 次上 每 小 段 视频代 表 着 不 同 时 刻 的 动 作 部 分 每 个序列模 型 的




一 一

, ,

输入 表示 相 应动 作 部 分 的 特 征 向 量 这些输入 数据 经 过 个前 向 LSTM 的 传 递过程和


一 

个反 向 L STM 的 传递过程 ,
分别 对 文 本进行 由 前 向 后 和 由 后 向 前 的 处理 。
输 出 层 接 受这

两个 相 反方 向 的 训 练 结 果 作 为输 入 进 步 整合 整段 视频动 作 的 特 征拟 合过程 并且把




, ,

最终结 果输 入到 神 经 网 络模 型 的 S of
t m ax 分类器 中 

3 2 3
. .
层级 Drop ou t 算法

是指 在深度学 习 的 训 练 中 具有 定概率 的神经元节 点 的 随机 临 时 丢 弃


“ ”

D ro p o u

t , 

相 当于说 , D ropo u t 对 每份 小 批量 训 练数据 起作 用 , 由 于 随 机丢 弃 部 分 神 经 元 的 机制 



相 当 于每 次迭代都在 个整体模型 中 训 练不 同 的子模 型 相 比于 B agg 方法 D ro p ou


。 i ng , 

被认为是 种 实用 的 大规模深度神经 网 络 的模型集成算法 能够实现指 数级 数量神 经 网




络 的训 练与评测 

具体实现 中 某 个 神 经 元节 点 的 激 活 值 需 要 以 概率 p 被 丢 弃 保留下来的
“ ”
Dropou t , , 

神 经元节 点 值 , 被 同 概 率 放大 ,
如图 3 . 1 3 所示 。 对于包含 N 个神 经元节 点 的 网 络 , 



以 将 其 视 为 Dr
opou 作 用 下 的 2 个模 型 的集成 t 。 这些模型是原始网络的子网络 ,
共享部

分权值 ,
并且具有相 同 的 网络层数 , 重要 的 是 , 模 型 整体 的 参数数 目 不变 , 因 此简化 了

运算 

40




东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上 下 文 关 系 学 

图 3 . 1 3 D ro p o u t 不意 


F i
g . 3 . 1 3 D ro p o u ts c h e m at c

 i

对于 任 意 的 神经 元 每 次训 练都和 组 随 机挑选 的 不 同 的 神 经元集合共 同 进行优 化


, 

可 以 减 弱 全体神 经 元之 间 的 联合适 应性 ,
降低过度拟合风险 , 增 强泛化能 力 。 但是在序

列 任 务领域则 不尽 然 在这 领域 D r o p o ut 算法仍 然是关键 的 正 则 化方法 近年来 




一 一

, 。

比较成功 的 改进 D ro po u t
算法被提 了 出 来 , 包括 自 适应 舍 弃 元和 循环 舍弃 元等等 ,
但是

这些 改进 Dr
o po u t
算法都 不 能很 好 的 应用 于 人 体行为识别 和 自 然语言处理等序列模型领

域 这是 因 为在 时 间 的影响 下 由 于
, , D rop o u t
舍弃 的 单元参与 循环 神经 网 络 的循环链接 

在 R NN 和 LSTM 的 聚合作用 下 ,
序 列 信 息 会随 着循环 步 的进 行 逐渐丢 失 。 由 此产 生 了

种 解 决方法 即 层级 D ropou 算法 该算法的核 心 思想是 D ro p o u 部 分设置在 网 络 的




, t ,

非循环部分 这样 做有两个好 处 第 可 以 有 效避 免序 列 噪 声 随着 时 间 序列 逐 步增 大 的


。 ,

问 题 ,
第二 , 可 以使得 D ro p o ut 造成 的 信 息损 失与 时 间 序 列 长 度无关 , 只 与 网 络层 数有

关 

循环神经 网络 中 常使用 三种 D ro p o u t 方法 :
传统 D ro po u t 方式 、
循环 D ropo u t 方式和

层级 D rop o u t 方式 。 其中 ,
如图 3 . 1 4 所示 ,
传统的 D rop o u t 即在 B i

LS TM 的 输入层 前

和输 出 层后加入 D ro p o u t 操作 ; 如图 3 ,
1 5 所示 ,
循环 D ro p o u t 是指在每个 LS TM 的 隐含

层 的输 出 后加入 D ropou 操作 然后作为下 个 隐含 层 的 输入 如图 所示 层级




t , ; 3 . 1 6 ,

D ro p o u 是指在每 层的 LSTM 输 出层后加入 D rop o u 操作 然后作 为 网络输 出 层 的输




t t ,

入 

Y 〇 4 Y V9






Dr o po u t


L

 


 




^ ???
— '






xo X I  X9

图 3 . 1 4 循环 D ro p o u t 方法


F g 3 i . . 1 4L o o

i n
g
D ropou t m et h od

4 
- 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上 下 文 关 系 学 

n


r u




模型

lStM
 1 |  |

li ^l



C r

I !  :
!  


I i

V IV 

图 3 . 1 5 传统 D ropo u t 方法


F i
g . 3 . 1 5T r a d i t i ona l  D ro p o u t m eth o d

I  层级 Dr op ou t 和 多 层 LS T M 模 型 



i ? ? ? 

? i ? ? ?


識 _ 
? ? ? ?
! 

图 3 . 1 6 层级 Dro p o u t 方法


F 3 6H e r ar c h ca  D r o p o ut  m e t h o d



g . . 1 i i l

3 3
. B i

L S TM 效果分析

人 体 行 为 识 别 任 务属 于 序 列 问 题 ,
当 前时刻 的输 出 结果受到 前 后时刻特征 的影 响 

如图 3 . 1 7 所示 ,
本章 首先将 UCF 1 0 1 的 1 0 1
种类别标签转 化为 0 到 1 00 之 间 的 数字编

码 ,
然后使用 3 D 卷积神 经 网 络在第 五层池化层提取4 * 4 特征 图 后 ,
将特征 图加权融合

得到 维特征 向 量 最后利 用 B L S TM 学 习 序列上下文关系 最 小 化损 失 函 数 进


一 

, i , ,

步提高准确 率 。 之所 以 不 使 用 全连接 层 向 量 , 因 为 高 维 度 的 计 算 问 题 和 全 连接 层 重 复信

息较多 ,
所 以使用 特征 图平均融合的方式 

42




东 北 大学硕士 学 位 论 文 第 3 章 各段 行 为 特征 的 上 下 文 关 系 学 

连 续 帧 图 片 输 入 4*4* 5 1 2 # g T图 输 出 

: 


 I
W
 國







丨 卜 '

门
n ,



i   5 3 M ? *


I 

xr   m
 ̄  ̄  ̄

 厂" !
i i

 □  X    ■ 




?  I
, -

 /
! 

!  !

 ( —  —






 Z |
/  i i Nk

 

 /  _



; ;

r 


! %    m !







 



4 *4 *5 1 2 特 征 图 输 出

 B LS TM W络
- — 

r , i
 

 

 

i i ?i h 特征 图 向 量 I 


平均融合 I  

 0 


Sof t ma x > g
 ̄  ̄

? I



丨 
B|



" !
Fi 

!  
? ?

1  ? '


 i ? ?
 ) ?
t I


  /   
? ?






: ! 丨
, ;


  ? ,

  
  0

00 2 2

! / !
1 .

丨 #




_  




j  i

| 釅 l 」 彳
_ :  

图 3 . 1 7 C3 D+ B i

LSTM 实验路线图

F i
g . 3 . 1 7 C3 D+ B i

L S T Me xp e r m e n a i t l ro a d m ap

本 章 系 统模 型 训 练数据 集使用 UCF 1 0 1 数据集 ,


因 为可 以使用第 2 章 3 D 卷积 网 络

训 练得 到 的 模型参 数 ,
作 为本章 系 统 的编码层部 分 的 参数初始化 ,
提高模型 收敛速度 

本章 系 统模型 中 的 LSTM 部分 的 网 络层对模 型 效 果 有着重 要影响 ,


本文首先需要确

定 LS TM 的 网 络层 数 。 为 了 确 定层数大 小 , 对 比 实验 中 使用 3 DCNN+L S TM 模型作为测



试框架 ,
其中 3 D 卷积神经 网络 D r o p o ut 率为 0 . 5 , L S T M 不使用 D ro po u t 。 对 比 实验使

用 相 同 的 训 练方 式和 参数 LSTM 的第 层隐含层输入为 零初 始化 使用 验证集提前停




, ,

止 的 方式得到最优模 型 ,
学习 率使用 离散下 降 的 方式减少震 荡 ,
在 网络梯度 下 降优化方

4 3
- 


东 北 大学硕士 学 位 论 文 第 3 章 各段 行 为 特征 的 上 下 文 关 系 学 

法和 正 则 化方法 以 及 正 则 化 系 数相 同 的 情 况 下 ,
如表 3 . 1 所示 ,
得到 L S TM 为 各个层 数

的准 确 率结果 

表 3 . 1 不 同 层 数对准 确 率 的 影 响


T ab l e3 . 1  T h e  e ffe c t  o f d ffe r e n t  a y e r s  o n  a c c u r a c
 i l


层 数 1 2  3 4 5 

准确 率 ( % 83 ) . 6 8 1 . 3 85 . 9  8 6 8 1 . 4 79 8

 .

验证集 l o s s 2 1 . 43 27 . 6 1  1 9 70 .  1 9 70. 27 . 60 3 2 . 9 



运行时 间 ( h )  24 . 2 2 5 8 . 27 . 0 29 . 3 33 . 0 3 7 . 



从表 3 . 1 中 可 以看出 ,
深层 次 的 L S TM 对于 人体行 为 识 别 任务没有太 多 的 提升 ,


而会变得 更 差 出 现过拟合现 象 , 交叉验证 的 代价 函 数变得 更大 。 此外 ,


随着 网 络层数 的

加深 ,
算法达 到 收敛 的 时 间 也不 断 增 大 ,
综合 以 上考虑 , 选择 三 层 L S TM 对模型综合 的

效果更好 

神经 网 络 的 层数确定 以 后 ,
如表 3 . 2 所示 ,
首 先验证 B i

L S TM 相对于 LSTM 的 效果

如何 ,
本 文 中 使用 UCF 1 0 1
和 HM D B 5 1 共 同 测 试两种 模 型性 能 。 该 对 比 试 验采 用 相 同

的 输入 特征 维 度 和 输 出 神 经元 维度 , 使用 相 同 的梯度 下 降法和 相 同 的 正 则 化方法 ,


并使

用相同的归 化方式



表 3 . 2 L S T M 和 B i

L S TM 效 果对 比 ( 准确 率 , % 

T ab l e3 . 2  L S T M  an d  B i

L S TMre s u l t com
p ar i s o n ( a c c u ra c y % )

数 据 集 C 3 D 平 均 融 合  C 3 D + L S T M  C 3 D + B  i

L STM

UCF 1 0 1  82 . 7  85 . 9  86 . 

H MD B 5  5 4 1 . 2 55 . 6  5 7 5

 .

以 上结 果 为 使用 当 前 最 流 行 的 两 个数据 集 , 采 用 相 同 参数和 学 习 率情况 下 ,


得到的

两个模型 的 效 果 。
从结果上来看 , 双向 L S TM 在人体行 为识别方面 , 确实 比单 向 L S TM

有 更好 的 效果 而 且 , B i

LSTM 中 每个 LS TM 模 型是 并 行计算 其 训 练耗 时和 单层 , L S TM

相 差无几 。
本 文在 以 下 实验 中 将 以 B i

L S TM 为基础 ,
进 行后 续对 比 验证实验 

由 以 上验证实验 , 本文确 定 了 使 用 B i

L S TM 结 构 作 为 本文系 统序 列 模 型 学 习 视频特

征前后 文关系 后 下 步 就 是选 择 隐 含 层 每 层 网 络 神 经 元 维 度 大 小 由 第 二 章 实验可 知


, 。 

循环 网 络 的 输入 向 量维度 为 5 1 2 , 即 3 D 卷积 神 经 网 络视频特征 向 量维度 。 对 于 隐含层



来说 不 同 的 神 经元维度对模 型 表现有 很 多 影 响 般 是采用 神 经元维度 大于等 于 输入




, ,

维度 的 2 倍 。 本 次对 比 实验 , 如表 3 . 3 所示 ,
在 UCF 1 0 1 数据集 中 ,
不 同 隐含层 神经元

维度对 算 法准 确 率 的 影 响 

44 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征的 上下 文 关 系 学 习

维度 的 2 倍 。 本 次对 比 实验 , 如表 3 . 3 所示 , 在 UC F 1 0 1 数据 集 中 , 不 同 隐含层 神 经 元

维度对算法准确 率 的 影 响 

表 3 . 3 不 同 维度 的 网 络效果


Tab l e3 . 3 N e tw or k  e ffe c t s  i n  d ffe r e n t  d m e n s o n s
i i
 i

神 经 元 维 度 运 行 时 间 ( h )  准确率 ( % 

1 2 8 2 5 0 .  76 . 

2 5 6 2 5 . 0 7 3 . 

5 1 2  26 3 .  82 . 

1 0 2 4 2 7 7 8 4 4

 . .

2048  29 0 .  86 . 

4096  3 2 . 5  85 . 

由 表 3 . 3 可得 , 神 经元维度 在 2 04 8 左右 ,
效果最好 。 因此 ,
本文选择 204 8 作 为神

经元维度 。 3 D 卷积 神 经 网 络+双 向 LS TM 网 络 在 训 练过程 中 , 由 于模型较复 杂会 出 



l oss 曲 线 震 荡 且 不 收敛情 况 。
本文将第 2 章的 3 D 卷积神经 网 络训 练得到 的 参数值作 为

该 系 统 的 初始值 , 极 大提 高 了 收敛速度 

本章系 统 中 加 入两层 的双 向 L S TM 网络 , 加深 了 网络复杂度 , 相 应 的 需 要 合适 的 正



则 化方 式 防 止过拟合 现 象严重 。 选择恰 当 的 D rop o u t 方 式可 以 有 效缓解过拟 合 现 象 , 



D rop o u t 率过小 时 , 网 络结构 几乎没有进 行正 则 化处理 , 此 时 无法 消 除 结 果 的 过拟 合现



率过大 时 相 当 于 网 络模型 中 大部 分神经元 随机丢弃 造成


“ ”

象 ; 当 D ro
pou
t , , l oss 曲线

不 收敛或者欠拟合 。 下 面将根据 3 D 卷 积 神 经 网 络 +B i

L STM 模型 , 从不 同 Dr
o p o ut 

法到 不 同 的 D ro p o u t 率值进 行对 比 实验 , 选择最恰 当 的 D ropo u t 参数 



如表 3 . 4 所不 ,
本文选择传统 Drop ou t 、 循环 D ro p o u t 和层级 D ro p o u 三 种 方 法 进 行

 t

对 比 实验 ,
其中 D rop o u t 率选择均 为 各 方法 中 性 能 表 现 最好 的 值 

表 3 . 4 不同 D ro p o u t 方法对模 型影响


Tab e3 4D ffe r e n tD ro o u t  m e t h o d s  a ffe c t  h e  m o d e t

l . i 

传 统+层 级


模 型 性 能 传 统 D ro p o u t 循 环 D ro po u t 层 级 D r o p o u t

D ro p o u 

准确率 ( % 86 ) . 8  8 3 8 7 . 2 85 . 



运行时 间 ( h ) 27 . 9 2 6 5 2 6 2 2 5 0

 . . .

验证集  l os s  1 8 70 . 2 1 . 1 3  1 8 . 3 0 2 0 0 . 

4 5
- 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征的 上下 文 关 系 学 习

由 表 3 . 4 可知 , 层级 D r o p o ut 方 式 最 适合 人 体行 为 识 别 任 务 ,
不仅准 确 率有所提高 

而且运行时 间进 步缩短 使用 两种 Dr 结合方式 反而 效果 更差 主要是 因为序




。 o po u t , ,

列 模型 中 过多 神 经元被 丢弃 导 致模型难 以 收敛 和 拟 合 层级 相对于其他方




“ ”

, 。 D ro po u t

式 在 模型 训 练过程 中 ,
具有 加 速 收敛 易 于迭代 的 优 点 。 下图 3 . 1 8 所示为三种 Dr
opou t


应 的 损 失 函 数 下 降 曲 线对 比 

—一

层次D r o po u t  ■  ■

传统D r o p o u t

循环 D 
r o po u 

300

250


9
15 0

 \\





 — '




WMWWTWr
〇
T r f r

0  1  2 3 4 5 6

迭代次数 ( 10 K 

图 3 . 1 8 三种 D ro
po
ut 损失函数曲线图


F 8  T h re e  D r o o s s  fu n c t o n  g r a p h s
po u
3 l 

g .
. 1 t i

算法 的 唯 参数是 层 的 神 经 单元有 多 大 几率 需要被 丢





D ro po u D rop o u 率 即每
一 一

t t ,

弃 过大或者过小对模型 效果有重要影响 甚 至会导致模 型 训 练不 收敛 下面





。 D ro p o u t , 。

本文对层 次 D ro
p o ut 的 几种 D ropo u t
率进 行 比 较 ,
得到表 3 . 5 结果 

表 3 . 5 不同 D r o p o ut 对结 果影响


Tab l e3 . 5 D i ffe r e n t  D r o p o u t  e ffe c t s  o n  r e s u l t 

D ro p o u t 率 运 行 时 间 ( h )  准确 率 (
°
/。 

0 . 1  29 . 0  84 . 

0 3 2 8
.  86 4

 .

0 . 5  26 2 .
 8 7 . 

0 7 2
. 5 . 5  8 5 . 

0 9 2 4
.  83 . 

由 以 上所有 实验结 果 分析总 结 以 及 图 3 . 1 9 和图 3 . 20 的 损 失 函 数下 降 曲 线所示 , 



入层次 Dr
o po ut 算法在 识 别准 确 率 和 收敛速度方面都有不错 的 提高 。 本章最终确定 以

D rop o u t
率为 0 5

的层次 D r o po u t
作为 B i

LS T M 的 正 则 化方式最适合本 系 统 的 人体 行 为

4 6
- 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上下 文 关 系 学 习

识别任务 , 其中 B i

LS TM 网 络 层为三层 , 隐 含层 单 元 维度 为 2 04 8 , 以 3 D 卷积神经 网

络最后 层 卷积 层 的 平均 融 合特 征 向 量作 为 序 列 模 型 输 入 完 成 各子 段 动 作 特征 向 量 的


上下文关系学习 , 提 高识 别 准确 率 

b atc hj oss

2 00  '

1 80






60




SC O
 


60 0 

 

^C 0   Y^ I

2 D 0

o co 

e o cc  i

c oo
 a ic oook  s o xo  4 〇  i  oc o k  so o oo k
 eo  oo oi

图 3 . 1 9 不加层次 Dropo u t 的损 失 函 数收敛 曲 线




F i

g . 3 . 1 9T h ec o n v e rg e n c ec u rv e  o f  t h e  o s s  fu n c t o n  w


l i i t h o uth i e rarc h i c a l  D ro p o u 

ba t c h
joss


00
'


90 0


8 0 C

60 0 

\



zo o


V

 

i n n 

〇 〇C    广 :

 .  

C O CO  5 XC k 1
0  O OC k  :

5 0 C〇 k :C 00〇 k : 5 0 00l  B C OO Ci  3 5 C O OI  4 C


 COO L ^5  C OOi 50 0CC t 55 0 0 0 k

图 3 . 20 加 入层 次 D r opout 的损 失函 数收敛 曲 线


F 2 0T h ec o n v e r ht h eh a rc h c a D o p o u t


g e n c e  c u rv e o f h e o s s  fu n c t o nw t e r r
i . .  t l i i i i l

3 . 4 小结

本章节主要介绍 了 循环神 经 网 络 在 人 体 行 为 识 别 中 的 使 用 第 部分介绍 了 通用 的




循环神经网络 的原理 、 结构 以 及存在 的 问 题 ; 第 _

部分介绍 了 改进 的 循环祌经 M络 ,


短 时记忆神 经 网 络 ( LS TM ) 和相应 的 变形结构 , 双向 L S T M ( B i


LSTM ) ; 第三部分对

循环 神经 网 络 的层 数 单双 向 、 LSTM 的选择 、 D ro p o u t 算法的选择和 D ro pou t 率的设定 



进 行 了 大量对 比 实验 由 于 人体 行 为识别 属 于 序 列 任务 中 的 种 所 以 本章运用 循环神




。 ,

经 网 络学 习 人体行为上下 文关系 ,
并获得 了 出 色表现 。 由 于传统循环 网 络存在 梯度 消 失

47
- 


东 北 大 学 硕 士 学 位 论 文 第 3 章 各 段 行 为 特征 的 上 下 文 关 系 学 

问 题 , 使得远距 离 学 习 上 下 文 关 系 变得很 困 难 , 并且考虑 到序 列 时 刻 的 结 果和 前后 序 列



都有 关 系 所 以 本 文 采用 , B i

L S TM 作 为 学 习 人体行为 上下 文关系 模 型 本 章 实验证 明 。 



B i

LSTM 在 人体 行为 识 别 上 的 表现 确 实优 于 单 向 的 L S TM 。 最 后 通过对循 环神 经 网 络 中

的 层数 、 隐含层维度 、 D ro p o u t 率等参数进行控制 变量 的 对 比 实 验 确 定 了 以 三层 网 络 , 

输 出 维度为 2 04 8 、 层次 D r o p o ut 率为 0 5

为组合 的 最佳参数 , 并获得 了 很好 的效果 

48
- 


东 北 大 学 硕 士 学 位 论 文 第 4 章 融合 注 意 力 机制 的 人体行 为 识 别

第 4 章 融合注意 力机制 的 人体行为识别



注 意 力 机制 A M e c h an 是 种 模 拟 人脑 的 机制 研 究发现 人脑在工


( tt e nt i o n i s m ) 。 ,

作时是有 定注意力 的 比如 当 我们欣 赏 幅 艺术作 品 时 可 以 看到 其全貌 而 当 我们




一 一

。 , 。

深 入观察画 作 的细节 时 其实眼睛 只 聚焦在画 幅上很小 部分 而忽 略其他位置 的 图像




, ,

背 景之类无关信 息 这就说 明 大脑在处 理信 号 时 是有 定权重 划 分 的 而注意 力 机制 的




, ,

提 出 正 是模仿 了 大脑这 种 特性 。 本 文将 注 意 力 机 制 用 于 图 像 显 著 性表 达 中 ,
使得 图 像中

关 于人体行 为 区 域在 网 络 中 的 权重 更 大 结合 前 两 章 的 方法 进 步提高行为识 别准 确


, ,

率 。 通过 相 关对 比 实验 ,
分 析该算法 的 性能优点 。 在本章 的最后 ,
将讨论几种常用 的深

度 学 习 框架 ,
并选择适合本 文 的 框架 

4 . 1 注意 力 机制 算 法

4 . 1 . 1 注意力机制 简介

注 意 力 机制 在机器 翻 译 中 得到 广泛应 用 ,
利 用 编码 解码 模 型 -


使用 注 意 力 机制 解决

词 偏置 问 题 近 几年开始应 用 在 图 像方面 每 次解码都 需 要每 个像素 点 的特征 向 量




一 一

。 ,

间 融合 作 为 输入 ,
使得有意 义 的 局 部 区 域特征 无法发挥作 用 。 利用 注意 力 机制 ,
通过前

隐藏层 的输 出 计算对应 的 当 前 图 像 的 每 个像素 的 权重 其中 对应人体行为部分




一 一

, , ,

的 图 像 区 域权重值 偏 大 ,
将像 素特 征 向 量加 权平均 ,
使 得 图 像 人体 行为 局 部 区 域得到 显

著性表达 注意力机制 可 以缓解 图 像信息 赘余 问 题


。 ,
获取真正有效 的 局 部 区域 如 图 。 4 . 1 

划船部 分大约 只 占 图 像 部分 的 二 分之 利 用 注 意 力 机制 将 划船 区 域权重 加 大 使得中




, ,

间 部分重要性提高 ,
而 减小 背 景之 类无用 信 息 的干扰 

图 4 . 1
注 意 力 机制 的应用 示例


F i


. 4 .
1 E x a m l


e s  o f a tt e n
 t i o nm e c h a n i s m 

49
- 


东 北 大学硕士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体 行 为 识 别

4 . 1 . 2 注 意 力 机制 的 结构 原 王 

人类视 网 膜 不 同 部 位对 不 同 信 息 接 受和 处 理 的 敏 锐 度 不 同 ,
为 了 最 大化利 用 有 限 的

视觉信 息处 理 资 源 ,
需 要 选 择视觉 区 域特 定 部 分 ,
集 中 关注它 。 注意 力 机制 主要有 两个

作用 : ( 1 ) 决定 需要关注输入 的 哪些部 分 ;
( 2 ) 合理分配有 限 资源给重要 的 部位 

注 意 力 机 制 可 以 理 解 为 从 大 量 信 息 中 有 选择 的 筛 选 出 固 定 量 信 息 ,
并按重要性进行

权重 分配 如图 所示 特征 图 可当做 系 \^ 1 1^ > 数据构 成 给定循




。 4 2 . , S o ur c e ,

环神经 网络 中 某个时刻 的输 出 序列 Q ue r
y , 通过计算 Q uery 和 各 个 K ey 的 相 关 性 ,
得到

每个 Key 对应 Va l ue 的 权重系 数 , 然后对 Va l ue 进行加 权求和 ,


得到 最终注意力机制 融

合后 特征 。 聚 焦 重 要 信 息 的 过程表 现在 每 个 像 素 的 权重 计 算 上 面 ,
权重 越 大越 聚 焦 在 对

应 的特征 向 量 Va l ue 上 , 也就是说 ,
权重 代 表 了 信 息重要 性 





Ke y l  K e y 2 Ke y 3 K e y4

U
At 〇n

 ff
       

Qu e r y

 !
V a l ue

|  T T V T 

 Va  Va  Va 
|  Va l ue  1 l ue 2 l ue 3 l ue 4 

i   


图 4 2

注 意 力 机制 原 理


F 4 2M e c h a n s m so f att e n t on



i . . i  i

同样来说 注 意 力 机制 可 以 看 做是 种 软寻址 方式 特征 图 看作 是存储 器 内 存储 的





内 容 , 由 待 训 练 的权重 和 像素特征 向 量组成 , 通过循 环 网 络输 出 序 列 和 元素 Key 的 地址



进行 相 关性 计算来寻 址 关于 权重 计 算 方面 每 个 Key 都会取 出 内 容 内 容 的重要性




。 , ,

根据输 出 序 列 Q ue r y 和 Key 的 相 关性大 小来决定 , 之后 对像素特征 向 量加 权求和 ,


得到

最后 的 Va l ue 值 

注 意 力 机制 具 体计算过程如 下 图 所示 可 分 为 三个 阶 段 第 个阶段是根据循


4 3 .
, :

环 网 络输 出 序列 Q u e ry 和 元素 Key 计算权重 系 数 ; 第 二个阶段 是将得到 的权重进行



归 化处理 也可将第 二阶段简化为第 阶段 第 三个 阶段是根据 归 化后 的




一 一

S o ft m a x , ;

权 重 系 数对 特 征 图 的 Va l ue 进行加权求和 

5 0
- 


东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注 意 力 机制 的人体行 为 识 别

r 

K ey 
1  K e y 2 K e y 



3 K e y 4 

 

Q u e r y
 

J , l  j , 阶 段 M

 



s i s 2 s 3 s 4 


  丨

  


 

L  —  —
 — 

   _  _
       I  _  _  —   


  


^ 

 S o ft m a x  归 一

化  P介 隹受 2 

   

   

; 

士  孓 -



!  a l a 2 a 3 a 4 

 
           


^; ,

A tt e nt i on
^
|  


     

i  

i  

 Val u e l V al u e 2 V a l u e 3 V a l u e4
 

i  

i 

     

 

图 4 . 3 注 意 力 机制 计 算过程


F g 4
i . .
3 At t e n t o n  m e c h an
i i s mc a l c u at o n  p r o c e s s
l i 

在第 个阶段 中 由 于应用 场景不 同 可 以 使 用 不 同 的 函 数和 计算机制 根据 循环 网




, ,

络输 出 和每 点像素 的特征 向量 计算两 者 的 相 关性或者是相 似度


。 

( 1 ) 使 用 向 量 点 积 的 方式 衡量 相 关 性 

D s t a n ce
Qu ery Key

Qu ery Key 



, 
)  

4 . 1




i t

( 2 ) 使 用 余 弦 相 似度 的 方 式衡 量 相 似度 

D i s t ance
 { Q u e y Key r
,

)

為  丨 丨

4 2)


( 3 ) 使 用 前馈 网 络训 练权重系 数 

D Qu e ry Key m p Qu e ry Key 

i s ta n ce , 

,  4 3
 ( 
{ )   ( t ) (



式 式 和式 距 离 公 式计 算 出 的 权重 不 在 同 量纲 下 需要进行


( 4 . 1 ) 、 ( 4 2
. ) ( 4 3 . ) ,

归 化操 作 以 便进 行后续权重乘法 第 二 阶段使 用 Sof


t m ax 将 不 同 量纲 的 权重 系 数 归


, 。

化 越重要 的 部分权重越 大

, 

D , s




^ S oft m
^ D ^




D-
 (
4 4



 i

t e


k 

第 三 阶段将 归 化得 到 的 权重 分布 加入到输入序列 中 加权融合得到 最终 的输入




, ,

序列 

Tx

A e nt ion
Q u e ry So u r c e )

^ cc va l u e

It

 (
, 
  j
k t

4 5 .





k   






东 北 大 学 硕 士 学 位 论 文 第 4 章 融 合注 意 力 机制 的人体行 为 识 别

注 意力机制在应用 方面可 以 分为 四 类 : 基于输入 项 的 软 注 意 力 ( it em -

w i s e  so f


at e n t i o n ) 、 基 于 输入 项 的 硬注 意 力 ( ite m w i s e  h ar d  at e nt i on

) 、 基于 位置 的 软注意 力

( l o c at i o n w i s e s o f

t at e n t i o n
   ) 、 基于 位置 的 硬注 意 力 ( l o c at i on w i s e h a rd at e nt i o n

  ) 。 

于 项和 基于 位置 的 注 意 力 主要 区 别 在 于输 入形式不 同 , 基于 项 的 注 意 力输入是包含 明 确

的项 的序列 , 如 向量 、 矩 阵或者特征 图 。 基于 位置 的 注 意 力 是对输入为特征 图 的 情 况下



设定 的 ,
所有 目 标通 过位置 确 定 

基 于 项 的 注 意 力 在 项 的 层 次操作 原 始输入在 经过神经 网 络编码后 形成每 项具




, ,

有 个单独编码 的序 列 基于 项 的 软注意 力每 项 都会 有 个权重 系 数 对所有 的项 的





一 一

。 ,

序 列进行 线 性加 权合并 , 加 权 融 合后 的 编 码 序 列 即 为注 意 力 操 作 后 的 序 列 特征 。 相反的



是 硬注 意 力 机制 不 是 进 行 线 性 加 权 而 是硬性选择 个或者 多 个项编 码作 为最 终 的 特




, ,

征 

基 于 位置 的 注 意 力 机制 是 在 特征 图 上进 行 相 关 操作 。 基 于 位 置 的 软 注 意 力 对 整 个特

征 图进行 个变换 使 得重 点 区 域 能 够 凸 显 出 来 而基 于 位置 的 硬注 意 力 从 特征 图 中 离


, 。

散选取 个子 区 域 其 中 选 取 的 区 域位置 是 由 注 意 力 机制 训 练或 者计算 得 到 作 为最终




, ,

的特征 

每种注 意 力 机制 有 自 己 的 特 定 的 输入 和 应 用 场 合 , 这是 因 为不 同 的注意 力 机制 的 输


入和 结 构 原 理不 同 如 表 。 4 . 1 所 示 基 于 项 的 注 意 力 机 制 关 注 于 输入 序 列 间 的 特 征 分 布
, 

从 而 获 得权 重 分布 ; 基于 位置 的 注 意 力 机制 关注 于 输入特征 图 的 变换矩 阵 , 通过 变换矩



阵将 特 征 图 的 重担 区 域挑选 出 来 

表 4 . 1 注 意 力 机制 的 四 种类 型


T ab l e 4 . 1 F o ur  t
yp
e s  o f at e n t i o n  m e c h a n i s m s
 

注 意 力 类 型 输 入 操 作

基 于 项 的 硬 注 意 力 项 的 序 列 离 散 选 择 些项


基 于 位 置 的 硬 注 意 力 特 征 图 离 散 地 选 择 子 区 域

基 于 项 的 软 注 意 力  项 的 序 列 对 所 有 项 线 性 加 权 合 并

基 于 位 置 的 软 注 意 力 特 征 图 对 输 入 进 行 变 换

在 模型选择方面 注 意 力 机制 通常 由 个原始 神经 网 络之外 的 前馈 网 络组成 注意




, ,

力 机制 网 络可 以 和 原 始模型 起训 练 对 于 软注 意 力 注 意 力 网 络对 输 入 是 可 微 的 


。 , ,

以 可 以 使用 梯度 下 降方法优化 ; 对 于硬注 意 力 , 网 络对输入 不可微 ,


需要使用 蒙特卡洛

采样和 EM 算法确 定特征 子 区 域位置 , 或 者 使 用 强 化 学 习 方 式 学 习 硬 注 意 力 机制 。 在计



52
- 


东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体 行 为 识 别

算 机视觉领域 ,
由 于 图 像 的 结构化 的 数据 特 点 ,
常 使用 基于项 的 注意 力 机制 作 为 图 像 显

著 性 区 域提取 的 改 进方法之



4 2

基于注意 力机制 的 显著性特征提取

在 图 像 特 征 提 取 的 过程 中 ,
会 发现特征 图 像素 点 越 多 ,
做 像素点特征 融合送 入 LS TM

的输入时 ,
模型 的 性能会显 著 下 降 。 而特征 图尺寸过小 ,
则 不能充分表示动作 片段 的信

息特征 。
如 何 既保 留 住 3 D 卷积神 经 网 络 中 深层特征 图 ,
又提取 出 图 像 中 显 著 性动 作 区

域特征 ,
对本文系 统 的 模型 效果有重 要影 响 , 也 是本 章 的 研 究重点 

本文 系 统涉及到 3 D 卷积神 经 网 络 、
循环神经 网 络和注 意 力机制 。 如图 4 4

所示 ,


统框架主要分为 将整 个视频流 分成 多 段 每 段连续 多 帧 图 片进行 图 片预处理


: ( 1 ) , 

每段 的 部 分模型 参数共享 ;
( 2 ) 利用 8 层 3 D 卷积 神 经 网 络提 取 各 个片 段 视频 的 时 空信

息特征 ,
各 段模 型 参 数 共享 , 3 D 卷积 网 络输 出 为 多 通道特征 图 ;
( 3 ) 利用 LSTM 模型

特点 使用 基 于输入项 的 软注意 力 机制 利用 LSTM 的 隐 含层输 出 序 列 和 每 时刻 的输




, ,

入序 列 计算 特征 图 每 个 像 素 点 对应 的 权重分配 ,
将特征 图 所有 像素 点 的特征 向 量加权求

和 ,
得 到特征 图 的 显 著 性特征 ;
( 4 ) 将前 向 LSTM 和后向 LSTM 的 隐 含层输 出 结 合 

作为最后 层 全 连接 层 的 输 入 利用 注意 力 机制 学 习 每 时 刻 的 结 果序 列 的 权重


一 一


( 5 )

分布 , 加 权融 合得 到 最终 的 结 果序 列 ,
使用 Sof
t m ax 分类器得 到 最终 的 分 类结 果 


M m i

Ls i

 r
. _
 ■ …

1   mmj J )


@\   I


ir   

/i j
 |
|^ 


! :



^ rI  X
I 

纖 特征提取 \s^
^





 


 


— L  — - J … … …

L — 



厂  ̄

测 试集

? 各连 猶特征提取 —

行为识别 结果 分 类 ? 准 确 率 统计

? 

 
) !

V 

[   


图 4 4 .
基于 B i

L STM 和注 意 力 机制 的人体行 为识 别框 架 图


F i

g 4 4Th
. .
e  fr a m e w o r ko f ac  t i
o nre c o
gn i t i o nb a s e do nB i LS T M  a n d  a tt e n t i o nm e c han i s 

5 3
- 


东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体行 为 识 

4 . 2 1 .
基于 软 注意 力 机制 的 图 像 显著性 表 达

本文将基于 项 的 软注 意 力机制 加 入 LSTM 输入端 的 前层 利 用 , LSTM 的 隐含层 的 输



出 和 特征 图 各个 像素 点 的特征 向 量提取特征 图 显 著 性 区 域 。 相 比于传统的平均融合方式 



注 意 力 机制 会 使得 模 型 把精 力 放在 权重 系 数 较大 的 像素 点 上 ,
不仅 使得模 型 更 容 易 收敛 

而且可 以 更好 的 学 习 视频 图 像 中 真 正 的 行 为特征 

基于 输入项 的 软注 意 力 机制 是可参数化 的 ,
即 可微 。
并且可 以 嵌入到 LSTM 的输入

层中 ,
实现端对端 的 模 型 训 练 。 梯 度计算可 以通过注 意 力 机制 模块 , 反 向 传播到模型其

他部分 。 考 虑 到这两 种 注 意 力 机制 在 其 它 领域 的 优 异表 现和 系 统 方 案 的 可 行 性 ,
本文用

到 两 种 基于 输 入 项 的 软 注 意 力 模 型 用 于 图 像 显 著 性表达 模型
5 4
: So t
f -

A tte n t i on
[ 1

、 Loc a l


A tte nt i o n 模型^ 

。 下 面 就 这 两 种 计 算 方 法 做 详 细 解 释 

Aten 模 型 是将特征 图 中 每 个 像素 点 x分 配 个权重 系 数 如图 所示


一 一

Sof
t on 4 5

ti , .



将每 个 像素 的 特征 向 量进 行 加 权求 和 , 整体作 为 L S TM 的 输入 。 当 前 时 刻 的 隐含层 的 输

出 又影 响 着 下 时 刻 的 输入特征 图 中 像 素 点 的 权重 系 数



y( t 

个 
h ( t)

’A



A t t en ti o n L a y e r



:  C on t e x tv e c t o r 

|  督
at


 S o f tw e i g h ts  





《J
h ( t )

■ J  > > .

J -






|  |

图 4 . 5  S o ft

A ten t i o n 示意图

F i
g 4
. . 5  S o ft -

A te n t i o ns c h e m at i 

每 个 像 素 的 权 重 分 布 由 像 素 特 征 向 量X和 前 序 列 隐藏层 的 输 出 经过 层前馈




一 一

网 络和 Sof
t m ax 分类器得到 ,
为序 列 长度 。 公 式如 下 , C


即 为当前序列 时刻 经过 i S o ft 

A tt e nt o n

融合后 的特征 向 量 

5 4
- 


东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机 制 的 人体 行 为识 

ex

( % 

ZL ex
p ( ^ -

)  (
4 6)
_


Q ^a a i




其中 权重 函 数a 〇 表示 个前馈网络

, 




K i 


j )

 v

t a nh
 (


 x
j
+w

 h
i \
)  (
4 7)


计算机 资 源是 有 限 的 ,
尤其 是对 图 像 的逐像素处理十分消 耗 资 源 ,
由 上述 可知 ,


使

用 S o ft

A tt enti on 确 实 能够 使得模 型 将注 意 力 和 大部分 参 数计 算放在 行 为 区 域 ,


减少 不

必要的浪费 

S o ft

A tt e nt i on 模 型 虽然解 决 了 权重 问 题 ,
但是 当 像素点众多 , 权重计 算 需 要指 数运

算 计 算成本较高 于是 出现 Ate n A 模型相 当于取 定大小




, 。
/L o c a l

t i on 。 Loca l

tt ent i on

窗 口 内 的 Sof
t -

A tt e nt o n i
模型 

Loca A 相当于 Aten 的折中版 如图 首先找到 个 对齐位置


ent o n Sof
t on 4 6

tt

l i t i 。 . , 

再 以 这 个位置左 右 划 定 个窗 口 按照 距离 中 心 点 的距离 分布得到 窗 口 内 各像素权重


, 

即 高斯 分布 。
最终 结 果 为窗 口 内 像 素特 征 向 量 的 加 权求 和 。 Lo c a l

A tt e nt o n

在机器 翻 译

中 应用 不是很 多 ,
但是在 图像领域有很好 的应用 效果 , 尤其是 图像描述任务 。 Loca l


A t t e n t i o n 的 中 心 点 求取 是该注 意 力 机制 的 重 点

 


y ( t 

个 
h ( t)

A t t en t i o n  L ay er


 -



!  ^ C on t e x t v e ct o r  



A g n e d p o s on

l i i t i

■ 


^



L oc a l w e i g h t s 





 m
( t )

_ #



M tI i i

  

!  T T t  T  T T

图 4 . 6L o c a 丨

At t en t i
o n 示意图


F i

g 4 6
. Loca . l

A t t e n t i o ns c h e m a t i 

5 5
- 


东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体行 为识别

学 习 对齐位置是 Loca l

At e n ti on 的 关 键 对 齐 位 置& 是 由 前 馈 网 络 训 练 得 到 其 中
, , 

S 代表序 列 长度 ,
得到 窗 口 位置后 ,
根据 窗 口 大小 , 以 位置仏 为 中 心 , 左 右各扩展至 窗 

长度 的 半



p t 

 S -

s igm o i d t an h



/j

 ^  (
4 8)


选取完窗 口 大小 和 位置 需 要确 定 窗 , 口 内 各像素 点 的 权重系 数 不 同 于 。 Sof


t -

A t e nt i on

的 前馈 网 络获取 , Lo c a l

At e n t i on 通过距离 中 心 点 的 远近确 定 权重关 系 ,


即 使用 高斯分

布 , 以p 为 中 心t
, 越靠近 中 心 点 权重 系 数越 大 。 其中 , m 为像素 点 坐标 , a 为超参数 ,


要经验设定 

a x =
x -

ex
」 4 9)

 .

( 

( J ) j

以 上 是本文 中 使用 的 两 种 基 于输入项 的 注 意 力 机制 模 型 , 基于输入 项 的 注 意 力 机制



使得 网 络 更专 注 于 和 输 出 内 容有 关 的 输入部 分 ,
本 文使用 这两 种 注 意 力 机制进 行特征 图

显 著 性表达 ,
提 髙 网 络整体效果 , 降低像素特征 计算量 ,
减少 时 间 复杂度 

4 . 2 . 2 基 于 自 注意 力 机 制 的 结 果融 合

般 的 注意 力 机制 指 的 不 是 T ar g e t 和 之 间 的 注 意 力 机制 而是 内 


S o ur c e , S o ur c e

元 素之 间 或者 T ar g e t 内 部元素之 间 的相 关性学 习 。 Self -

At t e nt i o n  ( 自 注 意 力 机制 )

5 6


被称为 I nt r a -

Aten t i o n( 内 部注 意力 ) , 是通过 学 习 特征 S o urc e 分布本 身 ,


获得 的 权 重

分布 , 不依赖 T arg e t 额外信 息 。


本 文在各段结 果序 列 融 合方面 ,
使用 自 注 意力 机制 融合

各 个子段的 结 果序 列 。 相 比 于 以 往 的 平均 融 合方式 或者最大值 融合方式 , 利用 自 注 意力



机制 学 习 各序 列 本 身 的 分布得 到 权重分 布 ,
随 机进 行加 权 融 合 , 可 以更好 的表示结 果分

布 , 最后 使 用 S of
t m ax 分类器得到 分类结 果 

S elf -

At en ti on 机制 会 更容 易 捕捉各个段之 间 长距离 依赖 的 特征 。 对于 LS TM 这种序



列 模型来说 , 对于 长距 离 的 相 互依赖 的 特征 ,
需 要经过若千 时 间 步 骤信 息 累 积才能将两

者联系 起来 , 距离越远 , 有效信 息越少 。


加入 S el f -

A te n ti on 会解决这些 问 题 , 自 注意力

机制 在 计算过程 中 将 各 个子 段视频特征 中 任意 两个特征序 列 通过 个计算步骤联 系起




来 , 所 以 长距离 依 赖特征之 间 的 距离 被 极 大缩 短 ,
可 以 有 效地 学 习 特征分布 并利 用 这些

序 列 特征 

Self -

A t e nt i on 机 制 的 原 理 本质 是 学 习 序 列 本 身 分布 , 得 到 各个序 列 的 权重 系 数 。 

图 4 7

所示 ,
各 自 分段视频 的 结 果序 列 作 为输入 , 通过学 习 自 身 特征分布 ,
得到权重系

数 , 随 即 进行加权 融合 , 整合 的 序 列 作 为 完整视频 的 结 果序 列 

5 6
- 


东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体 行 为 识 别

y ( t 







A t t en t i on  L a y er 


V


LT 
c ( t )

!  

we i
gh t s
 

I I I I1

t    t t 

图4 . 7S e l f

A t t en t i o n不 意图


F i

g .
4 7S e f
. l

A tt en t i
o ns c h e m a t c

 i

Se f

A tt e nt i on 机制 结 构 原 理较 为 简 单 ,
通过

个前 馈 网 络 训 练得到 各 个输入对应 的

权重值 ,
然后 经 过 Sof
t m ax 分类 器 归

化权重分布 。 其中 都 是待训 练 的 参 数 ,


此可 见 ,
自 注意 力 机制 也是可 以参 数 化进行端对端训 练 


A= so
ft m a x anh w x


   ( t
a   ( 0 ) 


C A 







4 . 1 0 )

本文 中 使用 Se l f

A t t e nt o ni
机 制 代 替 平 均 融 合 方 式进 行结 果 融 合操 作 。 Se f l

A tt ent on

 i

机制 可 以 通过前 馈 网 络 学 到 自 适应 权重 ,
对 各 个分段结果显 著 性特征提取 , 有助 于 整体

模型效果的提升 

4 3 .
实验结果 与 分析

本章利用 注意 力机制 在 图 像 中 的应用 ,


结合注意 力机制 和循环神经 网 络提取 出 图像

的 显 著性特征 进 步提高准确率 如下图 所示 本 文 的 完整 系 统 总 结 首先 




, 。 4 . 8 , : ,

类别 标签转 为 数字编码 然后 修 改 第 二 章 的 。 , 3 D 卷积神经 网 络模型 P〇 〇 4


1 层 的池化核 

如 下表 4 2 .
所示 ,
得到 C onv5 b 层 的 14 * 1 4 尺寸 的特征 图 ,
其 中 通道 数 为 5 1 2 ,
展开得到

% 个特征维度 为 的 维向量 利 用 软注意 力 机制 和 前 时刻隐含层 的输 出 对



1 5 1 2 , 1 96

个特征 像素 点 进行 权重 分配 ,
将每

时 刻 加权融合后 的 特征 向 量作 为 当 前序 列 时 刻 的输

入 最后 循环神经 网络每 时 刻 隐 含层 的 输 出 通过 层线 性输 出 层 再利用


一 一

。 ,
, Se l f



- 


东 北 大学硕士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体行 为 识 别

At e n 机制 学 习 各个时刻特征 分布 得到 的 维 向 量作 为 Sof
tmax 分类器的输入 


t i on , ,

过最小化交叉熵损 失 函 数 , 获得 最 终 的 分类 结 果 

表 4 23 . D 卷积 网 络 中 Po o l 4 层参数 修改


Ta b l e4 2 . M od i f c at o n o f P o o 4
i i  l l a
ye r
p
aram ete r s i n3 Dc o n v o l u t o nn e t w o rk
i 

网络层名 输入大小 滤波器大小 核大小 输 出 大小





 

* *
P 〇 〇 4 2 1 1 4 1 4

5 1 2   -





1  1

1 4

1 4

5 1 

连续帧 图 片输入 ^   1 4* 1 4*5 1 2 特征 图输 出



I   /f :


l 



_
 

!  ! 
 a I





Y?
1 4 _ *5 m寺 l


t t en t i 0



 I 


 特 征 图 显 著








、 !

 
注撤






i  ^

|  [
S o f t m ax
^^ 

    n






動叫


r



? r \ 标签 i
概率 

 A C
h ?
 m  


i \

e "
  i

〇 〇 . 〇3 

k 一



 ?
 / 1 


I 丨






: 


 i

 i m
 ;
1 00 ° - 22
 

W  L 」
丨 


 

图 4 8

本文系 统实验路线 图

8T h e s
ys em m
F g 4 at ce x a ro ad m ap
pe en
t r t


i . .
i i l

5 8
- 


东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注 意 力 机制 的 人体行 为 识 别

Sof
t -

At e n ti on 机制 是对所有 像素 点 求 权 重 分布 , 而利用 L o c al -

A ten ti on 需要先确定

最佳 的 窗 口 大 小 使用 前两 章 确 定 的 超参 数和 相 同 的 优化 方法 在相 同 的 , , D ropo u t 方法 

相同的 D rop o u t 率 、
相 同 的 正 则 化方 式和 正 则 化系 数 、 相 同 的学 习 率情况下 , 对比不同

的 窗 口 大小对结果 的影响 , 结果 如表 4 3

所示 

表 4 3L o c a
. l

A t e nt i on 与 S of
t -

A te n ti on 对结果 的不 同影响


T ab l e  4 3  T h e  d ffe r e n t  e ffe c t s  o f
. i  Loca l

At t e nt i o nan d S o t A
f -

tt e n t o n  o n  t h e  re s u
i l t 

窗 口 大 小 运 行 时 间 ( h ) 验证 l oss 准确 率 ( % 



20  36 7 .  23 . 60  82 . 

40  3 7 0 .  20 0 .  85 . 

8 0  3 7 0 .  1 7 9 .  88 2

 .

1 20  3 7 5 .  1 7 9 8 8 4
.
 .

1 60  3 8 0 .  1 7 5 3
.  89 . 

S of
t A te n t on 3 8 0 7 42  89 


i . 1 . .

由 表 4 . 3 和第 3 章 实验 结 果 可得 , 不嵌入注 意 力 机 制 的 网 络模 型 准确 率 为 87 2. % 

使用 Sof
t -

Aten t i on 机制 +循 环 网 络 提 取 图 像 显 著 性特征 有 更 好 的 效 果 且 时 间 损 耗 相 当 , 

其中 每 时 刻之前 的 隐含层输 出 由 个前馈 网 络训 练得到 所有 子段视频共 享 参数




一 一

, , ,

权重 。 有此可见 , 对于尺寸 为 14 * 1 4 的 特征 图 作 为 循环 神 经 网 络 的 输入 , 给每

个像素

点 分别 分配 个权重 系 数 的 注 意 力 机制 的 方式准确 率 效 果 最好



本文 最 终 系 统使 用 Se f l

A tt e nt i o n 学 习 输 出 序列 相 互 间 关 系 并获得相 应权重 分配 , 

使

用 加权融合 的 方式 ,
得到最终 的整体输 出 序列 ,
表 4 4 .
展 示 了S e l f

A tt ent i on 与 平均 融合

法对 模 型 效 果 的 影 响 

表 4 4S e f
. l

At t e nt o ni 与平均 融合对结果 的 不 同 影响 ( 准确率 , % 



y%)
Tab l e  4 4  T h e  d i ffe r e n t  e ffe c t s  o f

 Se f l

At t e nt i o n  an d  a v e r a g e  fu s o n  o n  t h e  r e s u i l t s

ac c u r a c 

数 据 集 S e l f

A ten t i on  平均融合

UCF 1 0 1  9 0 7 . 8 9 6

 .

HMDB5  1 5 9 0
, 5 8 . 

由 上表 4 4 .
可知 , Se f l

A tt e nt o n

机制 对本 系 统 的 结 果有提 升作 用 。
由 于 Se f l

Aten t i on

本质 是依 据 输 入序 列 分 布 获得权 重 系 数 ,
那 么 对 于 其他 分段提取特征 再进行 结果融合 的

模型 , Se f l

A tt e nti on 能够依 旧 有 效 , 尤 其 是 对于 卷积 神 经 网 络 的 各段模 型 结 果融 合 其效



5 9




东 北 大 学硕士 学 位 论 文 第 4 章 融合注 意 力 机制 的 人体行 为 识 别

果 是否 有提升 。 如表 4 5 .
所示 ,
本文将 第 二 章 的 3 D 卷积 神 经 网 络 分 别 使用 平均 融合和

S e l f

A t t e nt i on 方 法作 为 验证 

表 4 53 . D 卷积 网 络 中 的 Se f l

A te n t i on 与 平均融合对 比 结 果 ( 准确 率 , % 

Tab l e4 . 5T h ed i ffe r e n t  e ffe c t s  o f  Se fl


A tt e n t o na n da v e
i r a
g e  fu s o n  o n  t h e  c o n v o u t o n
i 
 l i

net wo r k ( a c c u r ac
y % 

数 据 集 S e l f

A te n t i on  平均 融合

UCF 1 0 1  86 4 .  82 . 

HMDB5  1 5 5 . 5  54 . 

以 上结果验证 ,
本文 的 Se l f

A tt e nt on

机制 作 为 结 果融 合方式不仅作 用 于循环 神 经 网

络 在卷积神经 网 络 也有 定效果 最终 本文系统确定 以 D 卷积神 经 网 络 为特征 图




, 。 , 3

提取器 ,
使用 循环 卷积 网 络 LSTM 和 S o ft -

A t t e nt i o n 机制 提取特征 图 显 著性特征 作 为序

列模型输入 ,
最后使用 Se l f

A t t ent i on 机制 将 每 个 分段视频 的 特 征 输 出 向 量加 权融 合 ,


以 S o ft m a x 函 数作 为模型 分类器 , 通过最小化交叉熵损 失 函 数 ,


得到 最终 分类结 果 

最后对模 型 训 练时两个超参数进行调 优 :
训 练批次大小和 学 习 率设定 。
本文考虑 到

两种 梯 度 优 化方法 种 是 随机梯度 下 降法 SGD 种 是 小 批量梯 度 下 降法 M SGD


一 一

, ( ) , ( ) 

其中 GD 算法每 次更新 只 考虑 个样本点 下 次 更新选择 另 个样本点 所以 SG 




一 一 一

, S , ,

训 练引 入的 噪声较多 ,
使得 l oss 下 降 曲 线震荡过大 , 且更新时 间 较长 。 而 MSGD 是指

将 训 练集 分 成若干个批 次 每次按顺序 更新其 中 个批次 直 至达 到 收敛 条 件 考虑到




, , 。

硬件条件 ,
本文选用 M SGD 作 为模 型 训 练 的 梯度优化方法 。 MSGD 可 以 提高训 练收敛

速度 ,
同 时模型训 练 的 好坏 取 决于批 次 的 大小 ,
即 b at c h 设置 的 大 小 。
考虑 到实 际硬件

条件 ,
本文将 b at c h 范 围 设置为 1 到 1 6 ,
下图 4 9 .
展示 了 几种 b at c h 值表现较好 的 效果 

3 00

2 5 0



2 00  

to
  \



〇
 ̄  ̄ 1


 1 5〇



W L  

■
12


1 6


5 0 


    


0  1 2 3 4 5 6

迭代次数 ( l 〇k 

图 4 9 .
不同 b at c h 值损失 曲 线 下 降 曲 线变化


g 4 9P e rf r m n e n t  b at c h  v a nct on
F i . o a
. c eo f  d i ffe r l u eo f l o s s  fu i

60




东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体行 为 识 别

从图 4 9 .
可知 随着 b at c h 増大 ,
损 失 函 数下 降速率增大 。 本文实验没有对 比 b atc h 

更大 的情况 ,
但是硬件条件 允许 的话 b at c h 值 设置更 大 ,
下 降 效 果 会 更好 ,
考虑到 网 络

参数较多 ,
本文 模 型 训 练选 择 b at c h 为 8 时 进行 训 练 

还有 个关系 模型训 练收敛 的重要参数 即学习率 学 习 率影 响 着模 型 两个重要 性




, 。

能 个 是收敛速度 即 训 练时间 个 是 损 失 函 数 收敛值 即 算法 的 准确 度偏 差 




一 一

: ,

, 。

同 的 学 习 率 很 大程度 上 影 响 着 模 型 性 能 表 现 甚 至 是 模 型 训 练 能 不 能 收敛 , 尤其是训 练后

期 会 出 现过度震 荡 问 题 , 合理 的 学 习 率会使得模 型 训 练更加 优秀 。 如图 4 . 1 0 所示 ,


本文

使用 两种 方式 实验 不 同 学 习 率 初始值 以 及 下 降方式对 本 系统模 型 的 性 能影响 : ( 1 ) 使用



离 散方法 。 设定 学 习 率初始值 0 06 . ,
每隔 5 个 e
poch 学习 率乘 以 0 85. , 经过几十轮迭代

后 学习 率会下 降到 个极小值 便于模 型 训 练后 期摆脱鞍 点 减少震荡 加 快收敛速




, , , ,

度 ;
( 2 ) 使用 定值方法 。
模型训 练初期使用 较大的 学 习 率 , 观察 Lo ss 下降曲线 ,
根据

曲 线 变化 手 动 修 改 学 习 率 

3 00

250  

〇1 5 0 \

100 V

5 〇






0 1 2  3 4 5 6

迭 代次 数 ( 1 0k 

■ ■ ■

0 . 2 0 . 1  

0 0 6 0 0
. . 1  —

离敗衰减

图 4 . 1 0 不 同 学 习 率 在损 失 函 数上 的 表现


F 4 0  P e r fo m a n c eo f e n earn f  o s s  fu n c t on
g r d ffe r t  n
g r at e s o 

i . . 1  i l i l i

从图 4 . 1 0 可 以 看 出 使 用 离 散衰减 的 方法 可 以 得到 更 好 的 效 果 ,
在训 练初期 ,
学习率

处于较大 的值 损失 函 数下 降 明 显 训练中期 学习 率变为 个较低 的 水 平 可 以保证




, , ,

损 失 函 数 在 相 对 平稳 的 过程 中 越过局 部 最优解 训 练末期 学 习 率进 步变小 寻找最




; , ,

优解 

以 上 所有 实验过程 为 本 文 系 统 所 有 的 对 比 验 证 实 验 过 程 ,
本文模型总结为 :
f先经

过 3 D 卷积神经 网 络提取 1 4

1 4

5 1 2 尺寸的特征 图 ,
然后利用 B i

LSTM 学 J 各动 作 片段

上 下 文关 系 ,
最后利 用 S o ft -

A tt en t i on 算法 结 合序 列 模 型 隐 含层 的 输 出 和 各 个 时 刻 的 输


入特征 图 得到特征 图 的 显 著 性 区 域 ,
并 H .
通过学4 输 出 序列 自 身特征 分布 的 Se l f


6 
- 


东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注 意 力 机制 的 人体行 为 识 别

A tt e nt i o n 算法 将输 出 层特征序 列 加 权融合 使用
, , S o f m ax

分类器得到 各个类 别 概率 值 

确 定 最 终 结 果 并统计准 确 率 

经 过训 练集和 交叉验证确 定 了 本方案 的 模 型 各个子模块和 相 应超 参 数 。 下面将 和 几



种 主 流 的 处 理 人 体行 为识 别 任 务 的 神 经 网 络模 型 框架做 结 果对 比 ,
得到 的准确率指标如

表 4 6

和下图 4 . 1 1 所示 

表 4 . 6 几种 主流模 型 和 本 文 模型 的 结 果 对 比 ( 准确率 , % 

Tab l e4 . 6C o m


pa
r i s o no f  s eve r a l  ma i n s t re a mm o d e l sa n do u rm o d e l

ac c u rac

% 

Me t hod  UCF 1 0 1 HM DB 5 



i D T 85 . 9 57 . 

Two -

s t re a m2 D C N N ( fu s i o nw i t hS V M ) 8 8 . 0 59 . 



C3 D+ ) i n e ar S V M 85 . 2  

2 D CN N + L S T M O p (
t i c a F l l o w+ m ag eF I r am es ) 88 . 6  

C3D+B i

LS T M+A tten t i on  90 7 . 59 . 



准确 率 ( % 

 = ^
 8 8 8 5
; 85 9 .



聊 

 HH l





H =

 :

V V7


图 4 . 1 1
几种 模 型 的 对 比 结果


F i

g 4
. . 1 1 C o m p ar i s o no f  se ve ra l m ode l 

由 以 上数据 结 果可知 ,
本文的 3 D C NN + B i

L S T M +A tte n t i on 系 统方案较优于 之 前 几

种 主 流框 架 主 要 改进 在 于 本 文 利 用 , B i

LSTM 序 列 模 型 学 习 各 个动 作子段上 下 文关系 

并加 入 了 注意 力机制提取特征 图有效 区域 这些 改进进 步提高了 准确率 但是在




, 。

HMD B5 1
这种 背 景复杂 和 画 面抖动 严重 的 数据集 中 ,
本 文方 案效果 并 没有 明 显 提升 。 

62




东 北 大 学硕士学位论 文 第 4 章 融合注意 力 机制 的 人体行 为 识 别


所 以 没有 明 显提升 主 要 原 因 在 于 , 3 D 卷积 网 络 图 像特 征提取部 分 的 网 络层 数不 够深入 



如 果 能 够 加 深 网 络层 学 习 到 更 高 阶语 义 信 息 , 该 网 络 会有 更好 的 性 能 表现力 

4 4

深度 学 习 框架 的 选择

现在 比较流行 的 模型 有 T e n s o rf
l ow 、 P yt o r c h 、 C a fe 以 及 MX N e T , 还 有 在 这 些 AP 

基础 上 封 装 的 K e ras 、 T e n s o r L ay e r 和 T F L e ar n 等 , 下 面将对这 些流 行框架 做 简 短 介 绍 和



对 比参考 , 并阐述 自 己 的 选择 

( 1 )  T e n s o rF l o w :  T en s o r F l ow 采用 数据流 图 , 属 于 用 于 数值 计 算 的 开 源 软 件 库 , 

广

泛 的 应 用 于 机器学 习 和 深度神 经 网 络方面 的 研 宂 。 该框架具有高度 的 灵活性 , 可以 由开



发者 自 由 的 定 义 图 的 结构 以 及驱动计算 的 内 部循环 同 时支持 。 C PU 和 GP U 的 加 速 运 算 



具有 很 高 的 移植性 。 并且具有 自 动求微分的 能力 , 可 以 加速梯度 下 降 的 运算过程 。 但是



T e ns o r
fl ow 文档 和接 口 繁琐 , 封装混乱 ,
高层 接 口 不 灵 活 ,
而且 不 能 自 定义 GPU 的 使

用 

( 2 ) P yto r
ch :  P yto rc h 拥有着 比 T e n s o rF o w l 更好 的 加 速运算 , 该 框 架 结 合 了 To rc h

高效灵 活 的 GPU 加速后 端 和 直观 的 P yt ho n 前段 。 具有 便携方便 , 代码 易 读和 广泛支持



深度学 习 诸多模型 的 特点 。 在推 出 后 , 迅速 赢得 了 许 多 开 发 人 员 和 研 宂 人 员 的 青 睐 。 

其在 GPU 的 自 定 义使用 上要 比 T e ns o rf
l ow 更优秀 , 而且高层接 口 封装简 洁 明 了 方便 阅

读和修改 

( 3 )  C a fe :  C a fe 是 人 工 智 能 领域 问 世 时 间 最 早 的 深 度 学 习 框 架 , 可 以 说是最早 商

业 化 的 主 流工 业 级 深 度 学 习 工 具 包 。 C a fe 框 架基于 C ++编 程 语 言编 写 , 支持 Ma tl ab 

P yth o n 和 C ++ 接 口 。 目 前 被 广 泛 的 应 用 于 计 算 机 视 觉 领域 ,
并且取得 了 很 多 的 成功应用

以 及商 业部署 。
但是 由 于其

流框 架结 构 中 的

些问题 , C a fe 对于 R NN 和 L S TM 等循

环 网 络和语 言 模 型 的 支持 比较薄弱 

C a fe 2  C a fe 2 则 是对 C a fe 提 出 的进 步完善 与 C a fe l 相比 C a fe 2 更加


( 4 ) : 。 ,

注重模块化 在 移动 端和 大规模部署上表现 出 色 同 前面两种框架 样 采用 C ++ E g e n


, 。 , 
 i

库 , 支持 ARM 架构 。 在 延 续 了  C a fe 对 卷 积 神 经 网 络 的 良 好 支 持 的 基 础 上 , 增加 了 对

循环 伸 祌 经 网 络诸 如 RNN LSTM 的支持 延续 了 处理视觉类 型 问 题上 的 贯优秀表




、 。

现 , 增加 了对 自 然语 言 处理 、 手写 识别和 时 序预测 的支持 。


但是 , 目 前 C a fe 向 C a fe 2

的 迁 移 还 很 缓慢 , 而且 P yt o rc h 已 经 完 全 兼 容 C a fe 2 

63
- 


东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体行 为 识 别

综合 以 上信 息 ,
兼 顾 到 研 宄 所配 置 的 服 务 器环 境和 代 码 复 现 能 力 , 本文 最终确 定将


P yto r
ch 模 型 框架作 为本 文 代码 的框架选择 。 P yt
orch 强大 的 网 络层接 口 和 自 定 义梯 度计

算 方法 ,
以 及 对 GPU 卡号 的 随意切换 , 在 本文系 统 设计 中 给 了 很 大帮助 

4 5

小结

本 章 对本文 系 统 的 融 合注 意 力 机制 方面进行 显 著 性特征 提取方面 的 改进做 了 详 细 阐



述和 相 关验证实验 。
前两 小 节主要对注意 力 机制 的 本质 、 应 用 场 景和 本文 中 使 用 到 的 注

意 力 机制 方法做 了 详细 说 明 。 后 两节 对 注 意 力 机制 模型 参数进行 了 对 比 实验 分 别 包括 , 

( 1 ) L o ca l

A t e nt i on 各 窗 口 大 小对模型 结 果 的 影 响 ;
( 2 ) Sof
t -

At e nt i o n 和  L oca l

A t e nt i on

效果 比对 ;
( 3 ) 分 别 在 完 整 系 统模 型 和 3 D 卷积 神 经 网 络上 对输 出 特 征 序 列 融合 的 两种

方法 ( 平均 融 合方法和 S el f-

A t en ti on 融合方法 ) 的 效果 比对 ;
( 4 ) 对本文系 统模型 训

练 的 两个超参数 , b at c h 值 和 学 习 率 选择 , 进行调 优 ;
( 5 ) 本 文 系 统 方 案 和 几种 主 流 方

案利 用 准确 率评价方案在 UCF 1 0 1 和 H MD B 5 1 上进行对 比 ,


分 析 本 文 系 统方 案 的 特 点

和长处 。
由 实验结果 可得 ,
本 文 方案 在 高质 量视频 中 有 较好表现 ,
但是在 HMD B 5 1


据集上 的 提高 比较微 弱 , 主 要 在 于 HMD B 5 1 数据 集 的 背 景 复 杂 以 及 画 面 抖 动 严 重 ,




是 总 体 上 本 文 方 案 在 人 体 行 为识 别 任 务 上 有 较好 的 表现效 果 

64




东 北 大 学 硕 士 学 位 论 文 第 5 章 总 结和展望

第 5 章 总 结和 展 望

5 . 1 工作 总 结

人体行为识 别 是计算机视觉领域基础性 关键技术之 在安 防 视频 监控 和 人 机 交




, 、

互 等 方面有 广 泛应用 。 尽 管 应 用 深 度 学 习 技 术 在 人 体 行 为 识 别 等 计 算 机视 觉 领域 取 得 了

很大成功 , 但是在长时 行为方面 的 研 究还是很 少 , 现在 较为 成 熟 的 方 法还 是 依 赖 于 双流



网络 。
本文提 出 的

整套从特征提取 到上下 文和显著 性学 习 的 人体行为识别 方案 , 



U CF 1 0 1 和 HMD B 5 1 数据集上取得 了 不错 的 效果 。 虽然对 于超大型 数据集 ,


本方案 的 准

确 率还有 很 大提升 空 间 ,
但是 在科学 发展 的 道路上这种 尝试是 必 不可少 的 。
本文 基于长

短 时 记忆神 经 网 络 ( L S TM ) , 提出 了 利用 3 D 卷积 提取行 为特征 作 为 序 列 模 型输入 , 



使

用 注 意 力 机 制 学 习 图 像 显 著 性 特征 进 行 人 体 行 为 识 别 。 本文主 要贡献如 下 

( 1 ) 针对 目 前 常见使用 光流 图 获取时 间 信 息 的 问 题 , 本文使用 3 D 卷积神 经 网 络提



取人体行为时 间 信 息 , 提高 时 间 流信 息提取 效率 ,
减 少 因 相 机抖动 等 因 素 带来 的 噪 声 影

响 。 由 于 图 像帧 数越高 3 D 卷 积 神 经 网 络 参 数 成倍 数 增 加 本 文 采 用 先 将 视 频 分 成 多 段 , 

段 与 段 之 间 参 数共 享 , 在 输 出 层进 行 段 融合 。
并通过对 比 实 验 得 到 , 分段 3 D 卷积神经

网 络相较于 2D 卷积神 经 网 络 效 果更好 



本 文 使用 长短 时 记忆神 经 网 络 L S TM 当 做 网 络解码层 还原每 个输入序




( 2 ) ( ) ,

列 。 由 于 各个段 视频之 间 存在序 列 关系 ,


使用 L S TM 学 习 各段之 间 的 上下 文 关 系 ,
提高

模型表达能力 。 考虑 到 L S TM 只 能学 习 到 当 前 时刻 的 前序信 息 关 系 , 本 文最 终将 双 向

L STM 作 为本文 的 序 列 模 型 使得每 时刻可 以 学 习 到 完 整视频序 列 的 相 关信 息 并获




, ,

得 了 更好 的 效果 。
利用 层与层之间 的 D r o p ou t 方法 ,
减 少 循环 单元 中 的状态量 的 损 失 的

同时 , 提高模型泛化能力 

( 3 ) 本文针对 图 像信 息赘余 , 以 前两 章 的模型 为基础框架 ,


使 用 基 于 输入项 的 软 注

意 力 机制 结 合序 列 模 型 隐 含层 的输 出 和 输入序列 学 习 每个特征 图 像素 点权重 分布 , 提取



图 像 的 显 著性特征 , 提高特征 图 的表达能力 和模型 效 果 。 在 段与 段输 出 层 融合 方 面 , 



使

用 自 注 意 力 机制 , 将每段视频 结 果序 列 获取 的权重信 息进 行加 权合 并 。 自 注 意 力 机制 不

仅 嵌入在循环神 经 网 络 的 输 出 层 后 提高 网 络模 型 效 果 , 而且可 以 嵌入在 人体行 为识别 任



务 中 的 分段 3 D 卷积神经 网 络 的输 出 层用 来提高模型 效果 

65
- 


东 北 大 学 硕 士 学 位 论 文 第 5 章 总 结和展望

5 2

问题与 展望

包括深 度 学 习 在 内 的 机器 学 习 领域现在 正 是 处于 风 口 浪 尖 的 时 刻 ,
作 为 高等 院校 的

科研 人 员 在积 极 投 身 研 究 的 同 时 , 也要专注 于深 度 网 络 的 数学本质 , 从 网 络 结 构 原 理进

行 改进 , 不 同 学 术领域 的 算法模型之 间 也有 很好 的 借鉴 性 , 也 需 要 关注 序 列 任 务 中 不 同

领域 的 相 关 方 法 , 并 从 原 理 上 加 以 改 进和 应 用 

模型 训 练过程 中 ,
简 单 的 模 型 配 合海 量 的 大 数 据 样 本 的 效 果 要 远 远 超 过 数 据 量 很 小

的 复杂模型 。 因 此数据样 本 的 数量和 质 量 决 定 了 算法 能够达到 的 高度 , 而算法 、


模型 

优化 只 能无 限 的 逼近这个高度 。 在 本 文 的 整 套方 案 和 完 整 的 训 练 过 程 之 中 , 视频数据无


论从数量上还是质 量上都是远远不 够 的 ,
数量上 ,
对 于 超大 型 数据 库 , 网 络下载 限制 较

多 。 质 量方面 , 本 文 所 使 用 的 数 据 集 多 来 自 网 络 视频 、 家庭 自 拍 、 运 动 员 运动 动 作 和 运

动 摄影 , 有 很 多 相 机 抖动 和 复杂 背 景 问 题 。 希望 以 后 可 以 有更多 的 大 机构 可 以 公开 自 己

的 视频数据 

由 于 受到硬件计算 能力 的 限制 , 3D 卷积神 经 网 络 的 结构可 以 继续加深 ,


以 便能更好

的 提取视频 特征 ,
有 学 者 已 经提 出 使用 残差 模块加 深 3 D 卷积 网 络 , 可 以 在 防 止 过拟 合

的情况下 , 加深 3 D 卷积 网 络 的 深 度 , 达 到 更好 的 特 征 提 取 效 果 

有 学者提 出 的 独立循环神 经 网 络 ( i ndR N N )



5 7

也受到 了 广 泛 关注 , 此 网 络可 以 学 习

到 更 深 长 度 的 序 列 并 具 有 很 强 的 鲁 棒 性 本 文 考 虑 到 视 频 段 数较 少 且 实 验 条 件有 限
, 。 , 

没有结合 i n dR N N 网 络进行尝试 , 希 望 后 续 能 够 尝试此 网 络 观 察 是 否 有 更 好 的 表 现 




66 


东 北 大 学 硕 士 学 位 论 文 参考文献

参考文献





陈晓峰 .
电子商务安 全性 的理论与 技术研 究 D [ ]

西安 : 西 安 电子科技大学 ,
20 02 



] Li n na i n ma a S . T h e  r e p r e s e n t a t io n  of t h e  c u m u l a iv  r o u n di n  e r r o r  o f  a n  a l g r i t h m a s  a  
t e a
T g o

yl o r  e x p a n si o  o f  t n h e  lo a l  c r ou n di n g  e r r or s [ J ] . M a s t e r' s T h si s , e 1 9 7 0: 6-7 . 

3 a



 J ,D e n g
 C ,
H u a n  B . Ex t e e e a g G  r
m  l rn i n g  m a chi n e
 o r  m u l t i la y r  p e

e r c e p t r n [ J ] . I E EE 
t

o a
n sa cti

s o n  n e u a l  n e t w o r k s  a n d  l e a r n i n g s y
r s t ems , 2
01 6 , 27 ( 4 ) : 8
09 - 8 2 1
.

[4 ] Du bo s

sa r y

E , F r ie d m a n  J  H O m
er
o d J T . Wa v e t- b a s e l
d g r d ie n t
a  bo

s t i n g J ] .S t a t i s t i c s   a n  C m p u t ing , 2 0 1 6


 , r e [ d o

6( 1- 2 ) : 9 3 - 0 5 1
. 
[ 5 ] C o
ver 



, Th o

a s A



l em en ts o   f
i n fo r m a tion t h e o r y [ M].Ne wY o rk : J o h  W i l e y  &   S o n n s , 2 0 1 .  [ 2 6 ] M o ra e s  R ,
Va a

t i J  O
F , N o


P  G  O . D c en le v e l  s n me t c l as s i f a t i on : A m p -   i r i c a l  c o m p a ri s o b etw ee SV M an
 A

o t - e n i c n e n n 
  u m t i

N N[ J ].Ex pe S y s t e m s  w i t h  A p p l i c a t i on s , 2 0
r t 1 3 , 4 0 ( 2) :   6 2 1 - 6 3 3 .   [ 7]A c k l ey  D  H , H
in t o n 
G E,S n

ow s

i T .



l ea rn i ng

a g ri l

t hm for B o l
t zm a n n  m a c h i n e s [ J] . C o g nit v e  i s c i e n ce , 9 8 1 5 , 9( 1): 1 4 7 - 1 9 .   [ 8 ] 6 i

z h ev s ky  A,S u s k e v r t

 I,H i nt o n

I ma g e

e t a



i f ic
a ti o n  w i h t  d e ep  c o n v olu t i
o n al  n e ur a l  n e t wo ks [ ]
. A dv a n c e s r C  i nn e u ral  in f rm t io o a n  p r oc e i

n g s y s t e m s . 2 0 1 2 : 1 09 7 - 1 1 0 5 .  [9 ] C ho w S  S  M H u i  L  C  K , i u  S  M . T w o, Y  im p r o ed  p a v

t i al 



i n d  s ignatur e 
sc h e me s f r o
m  bili n e ar  p i r i n g s [ C ] . A u
a s t r a
las i a n  C o f e r e n c e  o n  I n f o r ma t i
n n

 S e c u r it
y a
n d P
riva c y . 2 0 05 :3 1 -  3 2 8 .   [1 0 ] 徐 勤 军 吴 镇 扬 . 视 频序 列 中 的 行 识 别 研 究 进 展 [ J
6  , 为 ] .
电 子 测量 与 仪 器 学 , 20 1 报 4 ,  28 ( 04 ) : 4

- 35 


[ 11 ]B o ick b

AF , D a v i s J W . T



recog niti o
n o f u

m a nmo v em en t

 u s g


t e
m po r a l  te m pl te s  a
 [J]. I EE T E
rans a ct i o n s  o n  a t t er n  a n a l y s i s  a d  m a c h i n e
p n i nt el
l i ge nc




1 ,2 3 ( 3) : 2 57 - 2 6 7 .   [12 ]
D an
ie l W e in l a
nd , Rem i Ro n f a d ,E m o n r d d  B

yer. F r
ee v
i e
wp



t a c t

on c


g n
i t i on  u s i ng   ot i m
o n
hi s t o r y v o l e s [ J ] . C o m p u t u m
e r  V i sio  a d I mag
n n  eU n d e r s t a nd i ng , 200 6 1 0

4 ,

2 ) : 4 9- 257.
[ 1 ]Y i lma z ,S h a
h M . A c
t s  S k e t c h : A  N o v e l  A c t io n R e r e s e n a t i o n [ C . P r o

2  3 A i o n  ]
 p t

din 


f 
 th e  I EE E  C o n f er e n e o c n  C o mpu t e r  V i s i n  ano d Pa t t e r n  R e c o g n i t io n . 2 0 0 5 : 9 84 -9 89 . [
1 4]M a

t 

k a i n e n  P , H e b er t  M , S u k t h a n k a r  R . T r a j e c t o ns : A c ti o n r e c o g n i t i o n  t h ro ugh  th e

mot n


a n
a ly s i s  o  t r a c e d  f e a t u r s [ C ] . I E E E  I n t r n a ti o n a l  C n f e r n ce  o n  C o

k e
e o e m pu t e r  V i s i o n.   2

9 : 5 4 - 5 21 .  [ 1  1 5] La p te v , I v a n ,L i n d e b e r g , T n y . O n  S p a c e - T i m e  I t e r e st  P o i n t s [ J ] . I n t e r n a t i
o n o n al o

urna l  o f 

C o m t


r 
V i s io n ,2 0 0
5 , 64 ( 2 - ) : 1 0 7 -1 3
2 3
.  [ 1 6 ] Liu  J, L o u

 J , S h a h  M . R e c o g i z i n g  r a l i s t ic  a t i o n e c n s m
f ro d

eo s  " i n th e w  i l d "[ C ]
. P r o
ceed i



s o f 

h e E

 K


 C
o nf e ren c
e  on C
o m pu t e  V i s i o n a d  P a t t r  n e r nR ecog n i t i o n .2 0 0 9 : 9 9 6 -  1 2 003 . [ 1 7 ]
l se a


, M a r s z a e k  M , S h m i d  C . A  s p a ti o - t e m p o r a l  d e s c r i
l c p t o r  b a s ed  o n  3 d - g r a d i e n t s   [ C] . B r i t i h M a c s


eVi o


 As so c ia t io n . 2 00 8, 27 5 : 1- 1 0 .  [ 1  8]D la l N , T i a r

g s
B . Hi t o g r a m  o f 
s or i e n t ed g r a
i en t  f o r

 s


m n  de t e c t io n [ C ] P r o c . e e d i ngs

67




东 北 大 学硕士 学 位 论 文 参 考 文 献

of  t h e  I E E E  C o n fe r e n c e  o n  C o m p u t e r  V i s i o n  an d  P a tt e r n  R e c o g n i t i o n . 2 0 0 5 , :8 1
8 6- 8 9

. 9


L a p t e v I, Mar z s
a le k  M , S ch m i d  C . L a r n n g  re a l i s t i c  e i h u man  a c t i on s  f r o m  m o vi e s [ C ] .   P
r o
c e


n g s  o f  h e  I E E  C o n f e r e n c e  on  C o m p u t e r  V i s i o n 
t E a n d  P a t t er n  R ec o g n i t i o n . 20 0 8 1 - : 8 .   [ 2 ]D 0

l 


,T
r ig g s  B , S c h mi  C .Hu d
m a n  de t e c t o i n u s i n g  or i e n t ed  h is
tog
a m so ff
r l ow 
a n d   a p p e ar a n c e[ C

E u r o p e an  c o n f e r e n c e  o n  c o m p u te r  v i s i o n . 2 0 0 6 : 4 2 8 4 - 4 1.  [ 21 ]Sa n i n A Sa ,

n r


o n
 C , Ha r a n d  M T . S p a t i o - e m po ra l c o v a i a n ce d
i t
 r 

s c r i p t o r s  f o r
a ct i o n   a n d
 g e s t u r e r e c o g n i t

n[ C P r o ce e d i n g s
o
t he E C on f e re n c n o m p u t e r  V i s i on . 2 0 1 3 :   1 0 3 - 1 1 0 .   [ 2 Lu as  
e o

].
f E C ] c B K

I E


a na d

e  T . A

er
a t i v e ima ge  r e gi s t r a t o n  t i e c h n iq u e  w i t h  a n  a p p l i c at i o n  t o   s e r e o  v i s i o n [ C ] . t I n t er n a t i o n

J o in t C o n f e ren c e  on  A r t i f i i a l  I n t l l i g e n ce . 1 9 8 1 : 6 7
c e 4 -6 79 .   [ 2 3 ] B re g o n z
i o M , i J , L G o ng  S

Dis i


in
a t i v e  T op i c s  M o
d el l
i n
g fo r
 A c t i o n  F e a t ur e  S e le
c io t n an d  R e c o gn i t io n[ C ] . B r i t is h  M a h i n  V

i c e

io n  C o n f e r e n c e . 2 0 1

: 1 - 11 .   [2 4 ]D o l l á  r P , R a b a u d V, C o t t r e l l G . eh B

v i 

ec
gn i on  v  s p ar se pa t i t o a l fea u r e s   [ C] . V i s u a l  S u r v ei l l a nc e a n P e
r for a nc e  E v a l

t i o- e m p t m a


r o i s


io n  o f  Tra ck in g  a n d  S u r v e i l l a n c e. 2 0 0 5 : 6 5 -   7 2 .   [ 2 5 ] D e va n n e M , B e r r e t t i  S , P a la  P M o t i o . n s e e

nt e

om o s i t i on  o f G B -D  se ue ce s f o r hu n  b e h av i o r  u n d e r s t a n d n g [ J ] P a t e r n  R e c o g n i t io n,2


q   ma i .
c p  n

0 1 7 , 6 1 : 2 2 2 - 2 3 3 .  [ 2 6 ] D an  O , V e r b

e k  J, S c hm i d  C . Ac t io n a n
d E v e n
t  R ec o g

iti 


it
h  F is h e r  Ve c t o r s  o n  a  C o m p a t c F e a t u r e S e t [ C ] . P r o c e edi n s  o f  th e  g I E EE C on f e r e n ce o n

o m p u t e r  V i sio n . 2 0 1 4 :   1 8 17 -1 8 2 4 .  
[ 2 7 ] P e n g  X , Z o u  C , Q ia o  Y . A c t i o n  r e c o g n i t i o n  w th  i s t k

e d  f i

s h er e


to
r s[ C ] .Eu r op e an C  o n fer enc e o n  C o m p u te r  i s i o n . 2 0 1 4: 5 8 1 - 5 9
5 .   [ 2 8 ] W a n g  H , K l s e r  A , S ch
V i
m ?

d  C .A c t i o n  r e c o g n i t i o n b  y  d en s e t r a j ec t o

i es ]


P r o c ee d i

g  s
o f th e  I E E E C o nfe r e nc e o n  C o m p u t e r  V i s i o n  a n d  P a t te r n  R e
c o gni t i o n.20 11: 3 1 6
9-

76 .   [ 2 9 ] Z h u  Y , Zh a o  X , F u  Y . S p
a rs e  c o d in g  o n  l o c a l  s p a t i a l - tem p o r a l v o l u m es  fo r

 h um 

c t io n re gn itio C ]. A 0 - 6 7 1 .   [3 0 ] W a r d  R  K , G u h
ia
n C o n f e r e c e  o n  C o m p u t e r V i si n. 2 0 1 0: 

n 66
o [

a c n

T. Le
ar n i n g S p a r s e R e p r e s e n ta t i o n s  f o r  H u m a n  A c t i o n  R co e g n i t i on[ J

].  E


E 
T r an s a c t o s  o n  a t e r n  A i

P t n a l y s i s  a n d  M a c h i n e  I n e l l i ge n c e ,2 0 1 2 , 3 4 ( 8 ) : 1 5 7 6 .  t  [3 1 ]S o ma n

Ac t o n  r e co g n i t i o n  u s i n  g l b a l  s
d ar a  G , C h e r i m a n  A , M o r e lla s V . i g o
p a
ti o -  
t e



r al  f e u


e s

e pr e s n t a t i
d e r i v e d f r o m  s p r s e  r a e
o n s[ J ] . C o m p t er  V i s i o u n a n dIm ge n d e a U r s t a nd i n 2

0 1 4 , 1 2 3 ( 7 ): 1 - 1 3 .   [ 3 2
] C o r s o J  J . A c t i o n  b a n k : A  h ig - l e v e l 
h r ep r ese nta ti o n  o f a c t i v i t y 

 vi deo [ C] . P r o c e
ed i n g s o f
t e h

E E C

nf
r e n ce o n C p u r  V i sio a d Pa e r n  R ec o gn i t i o n. 2 0 1 2 : 1 3 4 - 1 2 4 1 .   [ 3 3 ] L i  C , W g  P, W a n g  S. S

o m te n  n t 2 n e

o e a

le t o n - b a s e d  a c t io n  r e c o g n i t i o
n u s i n g  LS T M  an d  C NN [ C ].   I E E E I nt er n at i o n a l Co n

f er e e


o n
 Mu l ti e m
di a  &  x po W o r E
k s h o p s . 2 0 1 : 5 8 5 - 5 9 0 .   [ 3 4 ] J i  S , X u  W , Y a n g  M . 3 D  C o n v o l ut i o n a



u r a l Ne t w
o rk  f o H u m an  A c t i o n  e c i t i o n   [ J ] . I E EE  T r a n s a io s on  P t te

e s r  R o gn c t n  


na
l ys i s a n
d  M a h in e  n c

t el l i g e nc e , 2 0 1 3 , 3 5 ( 1 ) : 2 2 1 - 2 3 1 .   [ 3 5 ]W a n g  X , G a o  L , S o n g  J . B e y on d




- le v e l  CN N: S a l i n c y - A w a r e 3 - D
 e C NN  W
it h   LS T M  fo r  V ide o A c t i
on Re c o
gn i t i o
n[



I EE E 

ig n 

r o
e ss i n g  e t t e r s 2 0 1 7 ,2 4 4 ) : 5 1 0 - 5 1 4 .  6] S im ony n K i ss ma n  A . T o - s tr e a n



[ r


P c L ,
( 3 a , Z
e m

v o l u t io n a l  n e two r k  f s o r  a c ti o n r ec o g n i ti on i n   v i d e o s [ C ] . A d v a c e s i n  n n e
ur a l 
in o
f r
m at i o n

 p r e

e ms . 2 4  37 ] L , Q i a o  Y , T a n g  X . A c t i o n  r e c og n i t i o n  w i t h  t r a j e t o r y -

s i ng s y s t 0 1
: 5 6 8 -5 76 .  [

a ng  o
p c

o ed  dee p -
l c o n v o lu t i o na l

68
- 


东 北 大 学 硕 士 学 位 论 文 参考文献

d e s c ri
pt o r s[ C
] .
P ro c e edi n g s  o f  t h e  I E E E  C o n f e re n c e  o n  C o m p u
te V
r i s i o  a n d P a t te r n 

R n

c o g n it i on .2 0 15 : 4 3 0 5- 4 31

.  [ ]


a n
g  L, X i o n g  Y , W a ng . Z
Te m p o r a l S e

m e n N e t w o rks: T o w a rds
t  G oo d P r a c t i c e s  f o r   D e e p A c

o n R c o e
gn i t i o n [ J ]. A c  T r a n m

a c t i o s on  I n n fo r m a t i o n  S ys t e m s , 2 0 1 6 , 2 2 ( 1 ) : 20 - 3 6 . 
[3 9

Y an 

, C n


 H
, S ha n S o d e l i g 
. M n  v
i d eo  d y n a mic s  w i t h  d e e p  dy n e c o d e n r [ C] . E u
r o p ea n   C o n f e r e n c e  o n  C o mp

e r  Vi s i o n . S p r i n g e r . 2 0 1 : 4 2 1 5 -2 3 0.

[ 40] S r iv a s t a va  N

Ma n m


v
E ,S a
l akh u d i n ov  R . Un s u p e rvi s ed  l e ar n i n g  o f  i d e o   r ep
v r ese n t a ti o n s  u s i n g l s t

m 

[C
] . I n t er n a i o n a l  c o n f e r e n c e  o n ma e  l a r n i n g . 2 01 5 : 8 4 3 - 8 5 2 .   [ 1 ] H b e l  D  H
ch i n W ie e T N. ec e

t  e 4 u , s l i


e 
f ie ld s i o l , b n
c u
a ri n t e r t i o n a c an d u
nc io f t
n a
l  a r c h te i ct u r e   i n  t h e c a t 's  v i s u a l  c or t ex [ J ] .J o u

a l  o f  P h ys o l o g y , 19 6 2 , 16 0 ( : 0 6- 1 54.   [ 4 2 L Ecu , a nn] n Y


Bo t t o ,L e o n , e ng io ,

Y o s a

1) 1 , u

G r a d i e n t- a se d e a r n
in g a p p l i d  t o  d c um e n t  ec o g n t io [ J] . P r c e ed n g s  o f  h e  I E

 r i o i t
. b l  e o

, 1 9 9 8 , 8 6 ( 1 1 ) : 22 7 8 2 3 . 4 3] S z e g d y C, L W,J i a  .G o i n de wi th on vo


- [ e u p e
2 4 
 i
Y g  e r
 t


on
s [C ] . P r o cee d i n s o g
f 
th eI E E E  C o n f e r e n c e  o n C o m p u t r  V i s i o n  a e n d Pa t t e r n  R eco g n i tion . 2 0

: 1 - 9.   [ 4 4 ] H e  K , Z h a n g X , R en s i du a l  l e a r n i n g 
 S . De e p  re f or  i m a g e

r o


ni
t i o n C . P r oc e d [

e i n
gs  o f   t he I
EE E  C on f er e nce  o
n  Co m
pu t er  V i s i o n  a nd  Pa t t e r n  Re c og n t i on. 2

0 i

6 : 7 7 0 - 7 7 8 .   [4 5 ] L e C u n  Y , B e n g i o  Y . C o n v o l ut i o n al n et w o r k s f o r  im a ge s , s p ee ch

and i


e
s e r i e s[ ] T h e   J

h and b o o k  o f br  a in t h e o r y  a n d  ne u r a l  n e t w or k s , 19 9 5 ,3 3 6 1 ( 1 0): 1 9 9 5.



6 ] Ji

X u W , Y a n g  M 3 D  o n v o l u t i o na l  n e u r a . c l  n e tw o r k s f o r  h  u m
an  a

t i o r e c o n i


i o n[J ] .   I
E E  an s a t E
T r c
i on s o n  P a te n  A t r n a l y sis  a n d  M a c h i n e I n t el l i g e n c , 2 0 1 3 , 3 5 ( e 1 ) : 2 21- 2



 [ 4 7 ] T r an  D ,  o u r d e v  L ,F
e r gu B s R . L
ea
r n i ng s p at i t emp o ra o l  f
eatur e s
w i t h 
3 d



n vo l u

io n 

n e t w or ks [ C . P r o c e e d i n  o f t he E E E in t e n f e e nc e  o n  c o m p u t e r  v i s i o n 2 0 5 : 
r n a t io a l  c o n r . 4

s 1

 ] g

8 9 -4 4 9 7 .   [ 4 ] S o o m r o  , Z a m i r  A  R ,S h a h M . U C F
1 01 A  d t a s e t o f  1 0 1  h u m a n  a c t i o n
8 K : a s  c l a se s s  f m

 v i d

eo s  

h e  w i l d [J ] . C m p ut e r S i c
n c e ,2 0 1 2 : 2-4 .   [ 4 9 ] W is ha r t  D  S , T z u r  D , K n o x  C . H M D B : t h e  h u ma n 


t o e

t b o l om dat aba
a e s e [J] . N u c l eic a c ids  re s e 
a r
ch , 2 0 0 7 3 ,




pp
l _1 ) : D 52 1 - D 5 2 6 .
 [5 ] 0
H o
pfi e d  J . N l  J e ur a l  n e t w o r k s  an d p h y s i ca l  s y s t e m s   w i th  e m erge n t

ll e c tive

comp  u t
a t

o nal  b

l i tie s

J] .P c


e d
i ng s  o
f t h ena io n a t la ca d e m y  o f  sc i en c e s , 19 8 2,7 9 ( 8 ) :25 5 4 - 2 5 58 .  [5 1 ] B ahda na

D,C
ho K e n g
 , B i o Y . N e u r al
m


h i n e t r a n l a t o n by jo in l y  s i  t l e ar ni n g t o  a li g n   a n dt r a n s l
ate [

] .2 0 1 4 

[5 2 ] c


r e
i t e r S ,S c h m i d hu b er  . L on g J
 sho t r - t erm  m e m o ry [ J ] .Neu r a l  c o mpu t a t
i n , 9 9 ,  9 8 ) : 1 7 3 5
o 1 7 ( - 1
78

 [ 5 3 ] Gr a v es  A . S u p er v i s 


e q
u e n c e L a b e l l i n  w i th  R e c u r r e n  N e u


ral N e
t t

ork s [ M ] . B er l i n :   S p ri n g er, 2
01 : 35 1
2 1 7

7 80. [

54] hd a n a D,C

a  


, B
e ng io Y . e N u ra l
 M ac
h i n eT r

n s l a t i o n b y  J o int l y  L e a r nin g  t o  A l i g n  a n d T r an s
l a
t e[ J ] . C o u

ter
S e, 0 4.   ]Lu
ci e [

2 5

1 g


M 
T , P ha m H , M n a
n i
n g C D .
E ffe c tiv a p p r o e a c h es  t o  a t t en t on b a s e d  n e r a   m a chi e  t r a n s
i - u l n l a
ti

[J ] . 20 1 5 .  [ 5 6 ] L i  n  Z , F e ng M,S a n t os C 


N D . S

r u
t u r e d S e lf a t t e n t i e  S en e n c e  E be di n g J ] . 2 0 1 7 .   [ 5 7 ] L i  S ,L i  W C o k C . Ind e p e n

t m [ , n


t c - v

t l y  e c u r r en t ne r a l
r  u




wo r k  n


r n
n ): B ui l d i
n g  al o n
g er

69
- 


东 北 大 学 硕 士 学 位 论 文 参考文献

an d  d e e p e r  R NN [ C
]. P r oce e d i n gs
oft he  I E E E  C o n fe re n c e  o n  C o m p u ter  V i si o  a n d P a t te
n r n

c o g n iti o n .2 0 1 8: 5 4 5 7- 54 6 6

70
? 


东 北 大 学 硕 士 学 位论 文 致谢


致谢

时 间 匆 匆 而过 , 转眼间 ,
我在 东 北大 学 的 研 宄生 学业 即 将落 幕 。 在两 年 多 的 学业生

活中 , 遇到过困难 , 面 临 过迷茫 , 也 时刻激励着 自 己不断前行 。 如今 , 即 将离 开校 园 的



我 , 将 要开 启 人生新 的 篇 章 , 内 心 充满 着对未来 生活 的 期 待 。 回 顾我 的研 究生生涯 , 



研路上 既有汗水也有欢乐 , 更离不开老 师和 同 学 们 的 支持 帮助 



首先 , 我要 感谢我 的 导 师潘 峰老 师 。 在这两年 多 的 时 间 里 ,
潘 老 师鼓励 我选择我 自

己感兴趣 的 研宄方 向 , 并给予我充 分的 自 由 学习 机会 , 锻炼我 的 自 主学习 的 能力 。


在生

活上 ,
潘老 师 给 予 了 我很 多 富 有 智 慧 的 指 点 和 待 人接 物 的 做 人态 度 。 我在 潘 老 师 身 上 学

到 的 不仅有脚踏实地 、 低调 质 朴 的 教学 态度和 科研精 神 , 更重要 的 是做 人 做 事 的 态 度 与



方法 

同时 , 我要 感谢 同 一

个 实验室 的王 浩然老 师 , 感 谢王 老 师 在 我 的 求 知 路上 对 我 的 宽

容和信任 。 我从王 老 师 身 上 学到 了 很 多 很 多 , 无论是 学 术研 究还 是生 活方面 , 王老师都



无私地给 了 我很大 的 帮助 。 王 老 师 带 我 走 进 了 计 算 机 视 觉 领域 的 殿 堂 , 尤其 是 在本论文



方案 的提 出 和 相 关实验上 , 都给 了 我极大 的 帮 助 和 建议 。 王老师在 百 忙之 中 还对我 的 论



文编 写提 出 了 宝贵意见 , 指导我完成论文 的 编 写 

感谢 同

实验的薛定宇 老 师 ,
薛老师为 人治 学 严谨 、 精益求精 , 具有 大师风范 。 

望有朝 我能够 像薛老 师 样成为 个 品 格高 尚 教学严谨 温柔善 良 的 学者和 亲人


一 一 一

日 、 、 

我十 分有 幸 能进入 薛 老 师 的 大 团 队 中 ,
大家认 真而 热情 的 学 习 和 生 活氛 围 深深感染着 我 

尤其是 , 张悦 同 学 、 张奔奔 同学 、 李 昆仑 同 学和 胡 雪 同 学 , 因 为有 了 你们 的 关切 , 我的

学 习 生涯才会如此丰 富 精彩 , 在你们每个人 身 上我学 到 了 很 多 



感谢我 的 父母 我 的 父母不仅养育 了 我 更是 直支持着我 的 学业 鼓 舞 我跨过


一 

, ,

个 个 的 难 关 他们 给 予 了 我完 美和 由 的 成长环境 对 我 的 人生有 着 独 无二 的影响



, 自 , 

最后 ,
感谢 百 忙之 中 抽 出 时 间 评 阅 本论文 的 专 家和 学者 , 诚 恳地期 待 各位 专 家 的 帮

助和指点 




You might also like