Professional Documents
Culture Documents
0
N o r t h e a st e r n
'
? ,
]
Un i v e r s i t y
硕 士 学 位 论 文
THE S F
'
S I O R M A S TER S D E G R E E
论 文 题 目 基 于 B L S TM 和 注 意 力 机 制 的
i
-
人体行 为 识 别 方 法 的 研 究 与 实 现
作 者 张 森
学 号 1 67 1 1 22
学 院 部 ( ) 信 息科学 与 工程 学院
专 业 控制 工程
指 导 教 师 潘 峰 副 教授
二 〇 八 年 十二 月
一
分类号 密 级
UD C
学 位 论
文
基于 B i
_
L S TM 和 注 意 力 机制 的
人体行为 识别 方 法 的 研究 与 实现
作 者 姓 名 :
张 森
指 导 教 师 :
潘 峰 副 教授
东 北 大学信 息 科 学 与 工程 学 院
申 请学位级别 :
硕 士 学 科 类 别 :
专业学位
学科专业名 称 :
控制 工程
论文提交 日 期 : 20 1 8 年 1 2 月 论文答辩 日 期 : 20 1 8 年 1 2
月
评 阅 人 :
薛定宇 、 张艳珠
东 北 大
学
20 1 8 年 1 2
月
A Th es
isi nC o n t ro l E n g i n e e ri n g
H u m a n Ac t i o n Rec o gn iti o n M et h o d B a s e d o n B i -
L S TM
a n d A tt e n t i o n Mech a n is m
B y Z han g
S en
S up e r v i s o r : A s soc i at e P r o fe s s o r P a n F e n g
N o rt h e a s t e r n U n i v e r si ty
Decemb er 20 1
8
东 北 大 学 硕 士 学 位 论 文 摘 要
摘
要
相 机存 在 扰动 等 条件 下 提高人体行为识 别 任务 的 准确 率 成为 个 富 有挑 战 性 的研 究 内
一
容 , 因 此人体 行为 识 别 算法 的 研 究 有 着 重 要 的 现 实 意 义 。
本文深入研 究 了 人体行为识 别
的 相 关技 术 后 , 主要工作 如 下
:
, , 3
法 。
考虑 到传统 的 3 D 卷积 神 经 网 络输入连续 帧 图 像是 固 定 的 , 不 能 充 分表 征 整个视频
动 作 特 征 本 文 首 先 将 视频 分 成 若 干 段 然 后 各 分 段 进 行
, , 3 D 卷积神 经 网 络 的 特征 提取
。
最后 在 UCF 1 0 1 数据 集上进 行测 试 测 试结 果 表 明 分段 的 , , 3 D 卷积 网 络准 确 率 为 82 7. %
,
未加 载预训 练模 型 的 双流 网 络 的 准确 率 为 8 1 . 6% ,
实验表 明 , 本文 的 分段 3 D 卷积 网 络
在 视 频特 征 提 取 上 比 2 D 卷积 网 络 效果更好
。
其次 讨论 了 种 基于 长 短 时 记忆神 经 网 络 L o ng S h o r t T e r m M e m o r y L STM
学
一
, ( ,
)
。 ,
题 ,
本文 使用 两 个 L S TM 网 络并联 的方式 ,
分别 对视频特征从前 向 后 和 从后 向 前 处理
,
务上 比单 向 的 L S TM 有 着更好 的 表现
。
最后 提出 了 种 基 于 注 意 力 机制 的 显 著 性 特 征 提 取 的 方 案 由 于 图 像不 同 区 域具
一
,
。
有不 同 的 重要性 , 本 文 利 用 基 于输入项 的 软注 意 力 机制 对 特 征 图 像各 像 素 点 分 配不 同 的
权重系数 ,
使得 网 络 更 容 易 学 到 权重较 大 的 区 域 。 各 分 段 视频 的 结 果 融合使用 自 注意力
在 UCF 1 0 1 测 试集 上 与 几种 主 流 的 人体 行 为 识 别 方 法 比 较 :
使用 S VM 的 双流 网络准确
L S T M + A t e nt o n
i
模型 在上 的 准 确率达到 9 0 7%
. ,
结 果表 明 ,
本文提 出 的 系 统方案效 果更佳 。
关键词 :
人体 行 为 识 别 ;
3 D 卷积 神 经 网 络 ; 长短 时记忆神经 网 络 ; 注意 力 机制
I I
东 北 大 学领士 学 位 论 文 A b s t r ac t
A b s tr a c t
N o m at t e r fr o m c o m m erc i al as
p e c t o r s o c i al p e r s p e ct v e i
, h u m a n b e h a vi o r r e c o g n i t i o n
t
ec h n o l o g y p l a ys a c r i
t i c a l r o l e i n i n te l l i g e n t m o n i t o r i
ng, uma n - o mp
u te r i n t e r a c t i
o n, id eo
r
c
h v
e tr e v al t c . U d e r t h e c o n d i t i o n o f h i g h c o m p l e x i t y
i ,
e
n o
f h u m an b o d y m o t i o n , e x e r n a l
b ack t
g ro u n d i n t e r f e r e nc e ,c a m r a d is t u r b a n c e, e t c . i t i e ,
s
a c h a l l e n g i n g r e s e a r c h c o n t e n t t o i m p r o
e
v
t h e a c c u r a c y o f h u m a n e h a v i o r r ec g n i t i o n t as k . T h e r e f b o o r e , t h e r e s e a
r c h o n h u m a n b e h av i o
r
r e c og n i t i o n a l g o r i t h m g a i n s im p o r t a n t p r a c t i c a l s ig n i f i c a n c e . A f t e r t h o r o u g h l y s tu d y i n g
t
h e r
elat e
d t e c h n ol o g i e s o n h u
m a n b e h a vio r r e c o g n i t i o n, f o
l l o w i ng j
ob s w e r e d o
n e : F i r s t o f l
a
l , thi s t h e s i c o n s t r u c t s a f e a t u r e e x t r ac ti o n m e t h o d t h a t d i v i d e s t he v i d e o i n t o s e v e r a l s e
s
m
g
e n t s in w h
i c h 3 D c o vo l u t i o n a l n e u al n et
n r wo r k i s a p p l ie d t o e xtr a c t t e m p o r a l a n d s p a t i a l in
o
f
r
m at i o n f eat u r es s i m ul ta n e o u s l y . C o n s i d e r i n g t h a t he
t ra t
d
i t io n a l 3 D co n vo l u t i o n a l ne u al n e t wor r
k i n p u t c o n t in u us f r a m e o i ma g e i s
f i x e d , an d i t c
a n n t f u l l y c h a r ac t e r i z e t h e wh o l e
vi d e o
o
m o
t i o n f e a t u r e , s o t h e t he s i s f i r s t d i vid e s t h
e v i d e o i n t o s e v e r a l s e g m e n t s , t h en p e r f o r m s 3 D c o
v
n
o l u ti o n a l n e u r al n et w o r k f e a t u r e e x t r a ct i on .A n d f i n a l l y t e s t s it w
i th U
C F
10 1 a s t he t e st s e I
.
t
t t u rn s o ut t ha t h e a t c u a cy r o f t h e s gm e n t e d D o n v
e
3
c o lu
ti o nn e t w o r k is 8 2. 7 % , a n d t h e acc u ac r
o
y
f t h e t w o - s t r ea
m n e tworkw i
t
h o u t t he p re - t r a i n i n g m o d e l i s
8 1 .6 %. E x p e r i m e n t s s h o t
w
h a t t h e se g m ente d 3 D o n v c ol u ti o n al n e t w o r k c o m e s up n t h i s h e s i s i s b e i t t t er t ha n 2 D co n vo
lu t
o
i
n a l n e t w o rki n v i d e o f e a t u r e e x t a c t i o n . S e c o n d l y , a m e t h r
d
o
b a s ed o n
L o n g S h o r t T e r m M e m o r y ( L S T
M ) t o l e a r n m o t i o n fe
a t u e c o n t e x t i s di s c u
r s
e d .T h e a c t i o n t e m p o r l i n f o r m a t i o n i a
s af f e c t ed b y t h e o n t e xt . T w o L S T M n e t w o r k s
c a r e u s e d
n
i
p a r a ll e l t o p r o c e s s t h e v i d e o f
ea
t u r e s f r o m f r o n t to b a c k a d b a c
n k to f o rw a r d , so t ha t t h
e
vi d e o f e a t u r e s o f t h e c o n t ex t c an b e
p r o c e s sed . T h e n t h e p r o g r a m v e r i f i e d o n the U CF 0 1
d a as
t
e
1 t
t h a t t he m o de l h a s b e t t er p e r o r m a n e t a n
f t h e o n e -w a y L S T
c h
M in h u m a b h avn
e
i
o r r e c o n it i o
g
n
t a s ks . F ina l
ly , a s c he me f
r
o
e tr
x a c
t n g s i g n if i ca n t f e a t u r e s b a e d o n a tt e nt io n m e c h an i s m i s p r o p s ed . B e c a u s e d
i
s o i e
f
rent reg i o n s of t e h i ma g e h a ve
i ff e r e
d t i m p o r
t a n c e, t h i s th e s i s u s e s t h e a t
t en t i o n m e chan i s m to
a
ss i g n d i f f e r e n t w e i g h t c o e f
f i c i e n ts t o e a c
p i x e l o f t h e f e a t u r e i m a g e , w h i m a ke s i t e a s i
er
h c h
o
f
r t h e n e t w o r kt o l e a r t h n e r e i o n w it
g h la r g er w e ig h t.
T h e e r s u l ts o f e a c h v i d e o a re f u s e d u s n g a
s
i
e f - a t te n t i o n m e c h a n i s m t o a si g n w i g h t c o e f f i c i e n t s f r e a c h r e s u l t s e u e n c e t h r o u g h i t s o w
l
s
e
n o q
ch
a r ac t e
o n.T h e s y s t e m c o m p ar
r i s t i c s e q u e n c e d i s t r i b u t i e sw i t h
i l l
东 北 大 学 硕 士 学 位 论 文 A bs t r ac t
s e v e r a l m a i n s t r e a m hu m a n b e h av i o r r e c o
gn i
ti o n m e t ho d s o n
t he UCF 1 0 1 te st s e t : th e a cc u r a cy
o
f t wo-
s
t r ea m n et w o r k u s i n g S V M i s 8 8 . % , 0
a n d t h e a c cu r a c y o f 2 D C N N + L S T M n e t w o r k i s 8
.6 i o n m o s
o
T
% S t is h r e t
n d
ed s y s t e m i s be t t e r .
Key w o rd s : H u m a n ac t i o n re c o g n i t i o n 3 D c o nv o l ut i o n a l n e u ra l ne t wo rk L S T M at t e n t i o n
;
; ;
m e c ha ni s m
I
V
东 北 大 学硕士 学位论文
0
£
_
目
录
独创 性声 明
Ⅰ
#
中文摘 要 #
Ⅱ
A b st r ac t # Ⅲ
第 1 章 绪 论 1
#
1 .1 选题背 景 及 研 究
义
意
# 1 1 .1.1 背
题
选
景 # 1 1. 1. 2 课 题 研 义
意
究
与 目 的 # 2 1. 2 内
国
外 研 究 现状 # 2 1. 3 本课 题 究
研
的
内 容 与 章 节 安排 # 6 3
.
1
. 1 要 主
研究内容 #6 1 3
.
2 论 文结构 和 章节 安 排#7 2
第
章 视 频行为 特 征 的 分 取
提
段
# 9 2.1卷积 神 络
网
经
# 9 2.1.1卷积 运 算
绍
介
# 9 2 . 1 . 2 卷 积 神 经 网络 结 构 #13 .
2
于 基 3 D卷积 神 经网络 的 视 频 分
征
特
段 取 #1 5
提
2. 2 . 1 3 D 卷 绍
介
积
16
# 2.2. 2 3 D 卷积 神经 网 络
构
结
# 7 1 2 . 33D 卷积神经网 络 的 与
果
结
分 19
析 # 2.3. 1 常 用 数 据 库 和视
预
频
处 1
理 #
92 . 3.
2
3 卷积D
神 经 网络
6
小
4
析
分
果
结
3
.
2
#
练
训
型
模
V
东 北 大 学 硕士 学位论 文
第 3 章 各段行 为特 征 的上 下 文 关 系 学 习 #
9
2
3 .1 循 环 神 经 网络
#
2 9 3 .1. 1 循环神 经 网络
绍
介
# 2 9 3.1 . 2循 环 神 络
网
经
结 构 # 3 1 3 . 1 . 3 循环 神 经网
的
络
前 向 传 播 #32 3 . 1 . 4 循 环神
网
经
络 的 后 向 传 播# 3 3 3.1 . 5 循环
经
神
网 中 络
的梯 度 消
失
#34 3.2 基 于 B i-
S
L
T M 的 上 下文 关 系 学习# 35 3
2
.
. ST M 的
1 L
结
构 #36 3 . 2.
2
B i - STL
M的 建 立 #3 9 3 .2 . 3
级
层
D opo u
r
t
算 法 #40 3 . 3
i
B
- STM
L
效 果 分析
#
4 2 3 .4 小结 # 47 第 4 章
合
融
注 意 力 机 制 的 人体 行 为 识 别 #4
9
4 . 1 注 意 力 机制 算 法 #4
9
4 . 1 . 1 注 意力 机 制 简 介 # 49
4 1 .
. 2 注 意 力 机 制 的 结 构 原理 # 5 0
4
. 2 基 于 注意 力 机 制 的 显著 性 特 征 提 取 #5 3
.
4
2 1 基
. 于软 注 意力 机 制的 图 像 显 著性 表 达
5
#
4
4.2 .2 基 于 自注
力
意
机 的 制
结果 融 合 # 5 6 4.
3
实 结 验 果 与 分析
#
5 7 4. 4 深 度学
框
习
架 的 选 择# 6 3
.
4
5 小 结 # 64 第
章
5
总 结和 展 望
7
献
文
考
参
望
展
与
题
问
2
结
总
作
工
1
.
5
6
#
V
I
东 北大 学 硕 士 学 位 论 文 目
录
致 谢 1
7
#
V I I
东 北 大学 硕士 学 位 论 文 第 1
章 绪论
第 1
章 绪 论
本章 从宏 观 角 度 介 绍本文研 宄 内 容 的 意 义 与 背 景 , 介绍 国 内 外主 流 的 人体行为识别
技术 方法 , 以 及 时 下 流 行 的 深 度 学 习 技 术 和 针 对 人 体 行 为 识 别 任 务 的 改进 。 在本章 的最
后 , 介 绍 了 本 文 的 主 要研 究 内 容和 章 节 安 排
。
1 . 1 选 题 背景及研究意义
1 . 1 . 1 选题背景
年冯 诺依曼和 他 的 现代计算机 问 世 以 来 人们 逐渐 发 现 在 些重 复计 算
一
自 946
?
1 , ,
的 事情上 , 计 算 机做 得 比 人好 得 多 。 而 关 于 让计 算 机根据 传 感 器 数据 理 解 人 类动 作 则 伴
随 了 整 个 计 算 机视 觉 的 发 展 史 ,
其 中 基于 计 算机视觉 的 人体行 为 识 别 的 研 宄尤为重要
。
因 为 在 人 与 人 交流 的 过程 中 ,
视觉信 息 是第
一
时 间 接收到 的 。 通过对方 的 姿 态 、 面 部动
或者视频监控情 况 中 , 如 果 试 图 通过 人 工 的 方 式来 鉴 别 ,
完成对全部任务 的遍 历 是 不 可
能的 , 它 需要 消 耗大量 的 人力 物 力 资源 。 因此 , 基于计算机视觉 的 人体 行 为识 别 技术 的
研 宂正 在逐渐 获得更 多 学者 的 关注
。
算机水平低 下 ,
没有 获得 更 多 的 关注 。 上世纪 80 年代开始 , 反向 传播算法 ( 即 B ac k
算法 简称 多 层 感知器 的 出 现 以 及各种
2]
Mu
3
P ro p ag at o n i , B P ) [
, ( l ti l ay e r P e r ce p t i o n )
[ ]
W
基于传 统 的 机器 学 习 的 模 型 陆 续 问 世 ,
例如 B o o st
i ng 、 最大熵法 % 支 持 向 量机W等
。
者 们 开始 更 多 地 关注 人体 行 为 识 别 技术 的 研 宄 。 1 98 5 年 , 多伦多 大学 的 H i nt
on 教授 提
深层神经 网 络 的 思想 而 后 又应 用 了 卷积 神 经 网 络
7]
出了 [
, ( C o nv o l ut i o n N e ura N etw o rk
l
^
即 C NN ) 尤其 是 卷积神 经 网 络 的 提 出 ,
使得深度学 习 技术在 自 然语 言 处理 、 计 算机
视 觉 语 音 识 别 与 合 成 等 领域 取 得 了 重 要 进 展 人 体 行 为 识 别 研 究 进 入 了 个新 的 高度
一
、 ,
。
域展 开 了 更 加 深 入 研 宄 在 工 业 方 面 人 体 行 为 识 别 技 术 也 己 经 进 入 了 普遍 应 用 的 阶段 。 ,
,
尤 其 在 AR 交 互 、 视 频 监控 、 视频检 索 等 领域 。 随 着 人工 智 能 与 人体 行 为识 别 技术越来
-
-
1
东 北 大 学 硕士 学位论文 第 1
章 绪论
越紧密 的 结合 , 人 体 行 为 识 别 技 术 的 研 究 会 成 为计 算 机视觉 领 域 中 更加 热 门 的 研 究方 向
之
一
。
1 . 1 . 2 课 题研 究意 义 与 目 的
人体行 为 识 别 是指 对 人 体行 为进行分 析和 分类 ,
涉及 图 像处理 、 深度 学 习 、
机器学
习 等 多 个学 科领域 , 在工业场景 中 ,
广泛应用 于 AR 交互 、
智 能监控 、 行 为捕获 分析 等
领域 [
】 0】
。
在 体感交 互 方 面 ,
手势 识 别 不 需 要使 用 键盘或 鼠 标 等 外 部 设 备 就可 以 理解 用 户 的 意
图 ,
实现人与 设备 的 交互 。 VR 游 戏 的 本 质 就 是 人体 行 为 识 别 , 通过视 频 行 为 获 取用 户
动作 , 了 解用 户 意 图
。
在 安 全监控方面 , 学校 、 超市 、 广 场 等 大 型 公 共 场 所 需 要 对 人群 进 行 监 控 和 分析
。
而 , 在人 口 密度高 、 流动 量大 的 地方 ,
效 果 并 没有 机器监控 的 效率 高 , 人工监测 需要 大
量 的 人力 , 人 体 的 注 意 力 会 随 着 时 间 的 推 移 而 减少 。 现在 常 用 的 是手段是利 用 人类 行 为
识别技术 自 动 识 别 视频 中 的 异 常行 为 , 实现智 能监控
。
在 行为捕 获和 行为搜索 方 面 ,
例 如 百 度 的 百度识 图 , 视频检索 需要 识 别 人 的 行为
,
提 取 要 检 索 的 视 频 的 特 征 计 算 视 频 库 中 的 相 似度 , 匹 配 视 频 库 中 的 视频 , 以 达到 分类
目
的 。 行 为 捕 获技 术 在 互 联 网 搜 索 引 擎 中 被 广 泛 使 用
。
目 前 人体 行 为 识 别 技术 已 取得 很好进 展 ,
但 也 存 在 着 如 何 提髙 复 杂 和 有 遮挡 动 作 识
别率 、 如 何 降低 视频 编 码 空 间 和 提高 图 像运算 速度 、 如 何 适 应 低 质 量 和 多 噪 声 的 视频 行
为识别 等 系列 问题
一
。
关系 的 学 习 直 以 来 都 是 相 关 领域 的 研 究 重 点 和 难 点 因此 本课题 的 研 究具有重要
一
, 。 ,
的 理论价值
。
1 . 2 国 内 外研究现状
>
,
。
传 统 的 人体 行 为识 别 方法 主 要 使 用 人 工 提取 行为特征 再 利 用 分类 模 型 得 到 最终 的 结 果
,
而 使用 深度 学 习 的算法可 以 自 动 学 习 并 获 取有 意 义 的 高层 特征 表达 ,
并对不 同 的 视频特
征进 行 分类 。
对 于 复 杂 动 作 或者 多 人参 与 动 作 的 数据 集 , 视频 中 存在 大量动 作 , 使得 提
-
2
-
东 北 大 学 硕 士 学 位 论 文 第 1
章 绪论
。 ,
宄重点
。
传 统方法主要 是 人工提 取特 征 ,
并建立起特征 分 类 的 模 型 , 进而识 别 人体行 为 。
按
Bob
一 一 I
ck
[
]
, 。 i
提出 了 运动 能量 图 像 ( ME I ) 和 运动 历 史 图 像 ( MH I ) 来 表示视频特征 信 息 , 其中 , ME
I
n an d
[
』
, I 。 i l
通 过 时 空体积 代 表 MH I ,
并使用 三 维 体积 的 扩展 增 加 了 拍 摄角 度变 化 的 鲁棒 性 。 Y i l m az
( ) ,
捉行为视点 [
1 4
]
。
相 比 于 整体表示法 ,
传 统 方 法 中 的 局 部表示法 有 更 好 的 效 果 。 区 域表 示 法是 指 视频
频 中 运动 像素 点 位置 ,
然 后 在 运动 区 域 中 获取 有 效 的 描 述子
。
将 H arr i s 角 点探测 [
1 6 ]
扩展到 3 D 空间 , 3 D H arr
is
探 测 器 能 够 在 大 空 间 变化 下 和 不 稳 定 运动 下 发 挥 作 用 。 L uJ
i 等 人M 提 出 利 用 兴趣 点 的
l
统计属 性 裁剪 无 意 义 的 特征
。
在局 部描述子提取方面 ,
获取兴趣点 区 域后 ,
需 要 对局 部 区 域形 成描 述符表示 行 为
信息 K 等人
7]
基于 方 向 直方 图 HoG
8
提 出 梯度方 向 直方 图 HoG3 D 作为
1 1
as er
[ [ 】
。 l ( ) , ( )
运动 描述符 等人
9
将局 部 区域 的 光流直方 图 HoF 当做时 空信 息描述符 Da
1
。 L apt e v [ 】
( ) , l a i
等人 [
2G 】
提 出 运动边 界 直方 图 ( MB H ) 扩 展 了 H o F 的 鲁 棒 性 。 轨 迹 是 随 着 时 间 推移 而 正
确 追踪 的 特征 并逐渐应用 于 行 为识 别 等人 和 等人 首次提 出
4]
Me s s Ma
1
ng ka ne n
[
, 。 i ti i
ka ne n
[ [ 】
, 。 ti i
用 KLT 跟 踪 器 提 取 轨 迹 特 征 ,
再 将特征 聚 类 ; 计 算 仿射变换矩 阵 是利 用 各 个 聚 类 中 心
点 ,
最 后 计 算得 到 的 仿 射 变换矩 阵 中 元 素 表示轨迹 。 B re go nz o i 等人 同 时使用 SI FT
描
述子和 KL T 跟踪 器提取特征轨迹 ,
可 以 抓取 视频 中 细 微动 作
。
在局部描述符 的 聚合方面 ,
从视频 中 获取 局 部特征 后 ,
需要 对特征进行 固 定 长度 的
Do Bov
| |
、
ar P
,
[ 1
, 。 l l ( )
, , i s her t or )
W2
好 的 选择 。 Z hu Y 等人 [
2
M吏 用 时 空 词 典 和 稀疏编 码 进行 聚 合 得 到 固 定 大 小 的 描述 符 ,
。
3
-
东 北 大 学 硕 士 学 位 论 文 第 1 章 绪论
, ,
息 般更优于传统方法
一
,
。
等人 提出时空网络 如 图 U 所示 利用 C NN 提取 空 间 特征 使用 L ST M
等
3 3
L C [ 1
i , , ,
循环 网 络提取时 间 信 息 ,
两种 网 络使用 串 联结构 ,
并且提 出 了 最大融合 、 平均 融 合和 逐
( 3 D CNN ) , 2DCNN
人 [
3 5 ]
视 频 帧 图 像进 行 显 著 性 检测 ,
减 少 网 络参 数 ,
提 高训 练速度 。 3 D C NN 每次只 能获取固
, , ,
, 。 , 3
很好 的 思路
。
Act i v i t
yR e c o g n i t i on
l n p ut : Se q u e nce
o fF r a mes
\ c
\ N N /
c
7
N N /
\ '
/ LST M
I
\ /
O ut p ut : La b e
l
m
,
P a y n gB a s k e t b al
j
i
l
图 1 . 1 CNN +L S T M 结构 图
CN N+L S T Ms t r u c t u red
F i
g . 1 . 1 i a
gram
20 1 4 年 S i m o n y an 等 人_首 次提 出 双流 网 络 ,
如图 1 . 2 所示 ,
空间流网络和 时间流
网 络采用 相 同 的 C NN 网 络结构 ,
采用 并联架构 , 互不 干涉 ,
各 自 提取 各 自 特征 。 最后
果最好
。
4
-
-
东 北 大 学 碩 士 学 位 论 文 第 1 章 绪论
S
pat
i a l s t r ea
m
f u l
6 W
Co C C
C o nv l n v2 C onv3 o nv 4 onv 5
2 0 48 A
* *
* *
* *
3
* *
* *
lj V
7 7 9 6 5 5 2 5 6 3 3 5 1 2 3 5 1 2 3 3 5 12
d r 〇
p
〇u t d r 〇
p
〇u t So ft m ax
\\
^ 丨
P oo l 2
*
2 Po o l 2
*
2 P o o l 2
*
2
\\
■
|
//
|
S i n
g
l e f r a m e -
|
\\
l
1
V '
:
/
s co
ss
r
e
翁
:
f u s o n
//
i
\\ T em
pora
l s t ream
/
W\
^
W 丨
—
I
6 f u l
l
7
N Co C C
nv l C o nv 2 C o nv 3 o nv 4 onv 5
4Qg g 2〇 48 v
*
* * * * * * * * *
tm ax
f
?
7 7 96 5 5 2 56 3 3 5 1 2 3 3 5 1 2 3 3 5 12 so
d r o
p
ou t d r o
p
ou t
* * *
Po o ! 2 2 Po o l 2 2 P o o l 2
2
O
p
t c a l f o w
图 1 . 2 双流网络结构 图
,
将局部 C o nv N e t 响应
汇 集在轨迹 为 中 心 的 时 空管 , 生成 的 描述 符称 为 TD D ,
使用 F i s he r 向 量将 视频 中 局 部 区
域 TD D 聚合成全局 向 量 ,
使用 SV M 作 为 行 为分类 器 。 在双流 网 络基础上 ,
20 1 7 年
,
流和 空 间 流特 征提取 ,
时 间 流 网 络输 入使 用 掩膜 光流 ,
消 除相 机抖动 带来 的 影 响 。 训练
除 了 时空网络和双流网络 还有 些很 出 色 的 方法 尤 其 是基 于 无监 督 的 人 体 行 为
一
, ,
分析方法 。 Y an X 等人M 提 出 l
Dynencoder 当 做视频 的 时 空 紧凑 信 息 ,
给定 视频 的 Dynenco der 的重构误差 当做 分类误
为输 入 ,
并 重 建输 入序 列
。
抖问题 :
深
度 学 习 方法 需 要 大 量 的 数据 作 为 训 练样 本 ,
现在 大部 分 的 数据库 量相 关性较高 ii 偏小
;
网 络 底 层 的 输 出 作 为 整体 局 部 特 征 ,
往往容 易忽略 ; 火部分深度 学 习 的 彳 丁 为识别方法
,
识别 方法单 纯 使用 卷 积神 经 N 络 只 能提収 局 邰 动 作 的 特 征 表达 ,
小 能对完整视频 彳 T 为提
5
-
-
东 北 大 学 硕 士 学 位 论 文 第 1 章 绪论
部特征 的 上 下 文 关系 , 可 以 解 决 局 部 特 征 相 互独 立 的 问 题 , 将 时 间 流特 征和 空 间 流信 息
别 技术基 于 深度 学 习 相 关 的 方法 进行科研探索
。
1 . 3 本 课题 的 研究 内 容 与 章节 安 排
1 . 3 . 1 主要研究 内 容
研 宄 价值 。 在 前期研宄 的基础上 ,
本 文 以 人体行为识别 为核心 ,
利 用 深度 学 习 方法特 别
人体行为 分析 。
本文 的 主要研 宄 内 容如 下
:
习 方法对 比 。
发 现传 统 方 法 的 人工 提取 方 法 鲁棒 性 较 差 , 而 且准确 率偏低 。 因 而选择基
于 卷积 网 络和循环 网 络方法进行人体行为识别 的研 宄
。
( 2 ) 研 究 分 析 深 度 学 习 中 二 维 卷 积 网 络 和 三 维 卷积 网 络在 行 为 识 别 中 的 差 异 。 对比
流 图 像作 为输入来获取时 间 信 息 ,
其计算时 间 长 , 对视频 画 质 要 求较 高 , 而且极 易 受相
行扩展 ,
自 动 获取时 间 特征 , 而且裁剪无意 义 的 时 间 信 息 , 适合作 为视 频 行 为 识 别 的 特
征提取器
。
R NN 、 L S TM 、 双向 L S TM( B i
-
L S TM ) 三种 主 流方法 ,
针对 R NN 梯度消 失 问 题和 L S TM
只 能选 择前 序 时 间 信 息 问 题 ,
选择 B i
-
LSTM 作为序列模型 ,
对 于序 列 模 型 学 习 时 间 加
速方面 ,
使用 层 次 D ro p o u t 算法作 为 人体行为 中 序列 上 下 文 学 习 模 型 的 正则 化方法
。
设计 种 整合注 意 力 机 制 和 序 列 模 型 的 人 体 行 为 识 别 模 型 由 于人体行为 只 作
一
( 4 ) 。
, ,
注的很少 。
在 特征 图 显 著 性提取方面 , 通过注 意 力 机制 将 人体动作 部分显 著 性提 高 ,
增
使用 自 注 意 力 机制 , 将 显 著 得 到 视频特 定重要 的 动 作 段 ,
提 高 分类准 确 率
。
-
6
-
东 北 大 学 硕 士 学 位 论 文 第 1
章 绪论
1 . 3 . 2 论 文结构和 章节 安 排
r
, 「 注 意 力 机制 获 ] 「
i fi 去
’
视频分段处理
:
取显 繊特征 : 誌g
 ̄
连 续 帧 ure J
Fe at
f
^
^
m ap s
^
:
^
'
f
连 续 帧 uf TT I 匀 :
3 D C NN + B 1
1
—
^
/ I \ t
\
°
:
;
.
/ 、 ;
;
(
连续倾
( K ^
: n 臟 s 卜 州
:
1
L J
- -
- 1
1
L
!
- - - -
J
mm ? 各连续 帧 特 征提 取 ? 行 为识别结果分类 ? 准 确 率 统计
—
? ■ ?
( ( )
图 1 . 3 论文框架
F g i . 1 . 3 Th es i s fr a m e w ork
第 1
章 内 容分为研 究背景及 意 义 ,
国 内 外 研 宄现状 和 主 要 内 容 以 及对 本 文 的 安 排 介
绍 。 本 章 大致 介 绍 了 人 体 行 为 识 别 从传 统方法 到 深 度 学 习 方法 的 发 展 历 史 ,
介绍 了 国 内
外人体行 为识 别 的 研 究进展和 改进 原 因 , 以 及 本 论文 的 大致 结 构 和 研 究 目 标
。
的理论 ,
对 比分 析二 维卷 积和三维 卷积 的 优缺 点 和适 用 场 所 , 初步 确 定 以三维卷积作 为
和 HMDB5 1 数据 集 ,
并在 UCF 1 0 1
数据 集上 测 试 3 D 卷积 神经 网 络 的 模型 性 能
。
进 行推导 与 结 构 分析 。 提出以 B i
-
经 网 络作 为视频特征编码 层 ,
将 各 子段动作 特征 向 量作 为 B i
-
LSTM 网 络 的 输入 ,
输出
制 获得 图 像 各局 部 区 域 的 权重 分 布 和 各视频段 的 权重 分 布 ,
使用 自 注意 力机制 融合 各视
型和参数 ,
并且对模型 训 练 中 的批 次大 小 和 学 习 率两 个超参数进 行 调优 。 最后 , 对比了
7
-
东 北 大 学 硕 士 学位论 文 第 1
章 绪论
几种 人体 行为 识 别 任 务 中 主 流 的 网 络结 构 , 从 准 确 率 的 性 能 指 标 上 分 析 本 文 设 计 方法 的
优点
。
第 章 为 总 结 与 展望 首 先 总 结 了 前 四 章 内 容 分 析 本方 法 设 计 的 些优点和缺点
一
5 , ,
,
阐 述训 练神 经 网 络 中 需要 注 意 的 些细节 展 望 本 方 法 需 要 改进 的 地方 以及 已经 出 现
一
。 ,
的 还 未 在 人体行 为 识 别 领域 应 用 的 新 技术
。
-
8
-
东 北大 学 硕 士 学 位 论 文 第 2 章 视频 行 为 特征 的 分 段提 取
第 2 章 视频行为 特征 的 分段提 取
网 络框架 中 , 2D 卷积 以 光 流信 息 图 作 为 输入 获取 时 间 信 息 特 征 光流 图 计算 较为 耗 时 ,
,
且 易 受抖 动 干 扰 。
为 了 综合 时 间 信 息和 空 间 信 息 , 3 D 卷积 网 络 应运而生 , 3 D 卷积顾 名
思义 , 就是将 2D 卷积 在 时 间 维度进行 扩 展 即 不 仅可 以 获 得 ,
2D 卷积 网 络 的 空 间 特征
,
积 网络的作用 , 并利 用 UCF 1 0 1
数据 集分 别 对 2 D 卷积 网 络和 3 D 卷积 网 络进行对 比 实
验
。
2 . 1 卷积神 经 网 络
层局 部 区 域范 围 的 神经元 而后 网络 采用
42 ]
每层 的 神 经元 节 点 只 响 应 前 内 L eN et
一
[
5
-
。 ,
若干 卷积层 和 若干全连接 层 组成 ,
中 间 包 含 各 种 非 线 性 操 作 以 及 池 化操 作 。 卷积 层 的 卷
积 核 对 图 像 的 指 定 位置进 行 卷积 运 算 , 可 以 从低 阶 特 征 提 取 到 高 阶 语 义 。 与 其他 网 络相
比 , 卷积 网 络 的 参数 共享 策 略 提 高 了 网 络 的 训 练 效 率 和 可 扩 展 性 。 L eN et -
5 网 络 的 成功
^ 由 于 卷 积 运 算 主 要 处 理 类 网 格 结 构 的 数据 因 此对于时 间 序
43] 44
G oog l e Ne t
[
、 Re sN e t
[
, ,
列 以 及 图 像数据 的 分析 与 识 别 具有 明 显 优势 。 随 着深 度 学 习 和 相 关 网 络框 架 的 发 展 ,
卷
2 . 1 . 1 卷积运算介绍
乘积 函 数 X 围 成 的 曲 边梯 形 的 面积
。
对 于 连续 函 数卷积 :
设 X O 和 W 〇〇 是)
R 上 的 可积 函 数 , 作积分
:
X x W x
-
t dt
2 1
^
.
( ) ( ) (
)
\
对 于 离散 函 数卷积 : 设X (
m) 和W (
n) 是长度 为 N 的 离 散信 号 ,
作积分
:
(
X*W ) [
n
]
=
YX j (
m
)
W (
n
-
m
) (
2 2)
.
m
9
-
东 北 大 学 硕士学位论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取
, I
积运算
:
K) K
*
S j ^YI m n m n
= =
l
 ̄ -
i i
, j) ^
i
>
J 2 3
-
( ) ( ( , ( ) ( ) (
)
mn
卷积 是可交换 的 , 可 以 等价 写 作
:
Y^ K
*
S i
,
j)
^
K l i
, j )
=
I i
-
m J >
-
n
)
m n
>
(
2 4)
.
( ( ) ( { { )
mn
从增 加 m 的 方 面 来看 , 输入 的 指 数在 增 大 ,
但是核 的 指数在 下 降 ,
而核 翻转 是实 现
。 , ,
几乎和 卷积运算 样 但 是 没 有 翻 转 卷积 核
一
,
:
Y^ I
'
S i
, j)
=
l
*
K i
, j )
=
i + m^ + n
K m n
^
(
2 5
-
)
{ ( ) ( ( ) ( )
mn
在 机器学 习 中 学 习 算 法在 卷 积 核 的 适 当 位置 学 习 适 当 的 值 因此 个基 于 核翻转
一
, ,
数 起使用 而 且 这 些 函 数 的 组 合 通 常 不 可 交换
一
,
。
下 面 依 次介 绍 这两种 思 想
。
特征结构 ,
首 先学 习 局 部特征 ,
然 后 结 合局 部 的 特征 以 形成 更 复杂 和 抽 象 的 特征 。 卷积
元 的 连接权 重 , 称之为稀疏交互
。
输 出 的 连接 关 系 可 以 由 个权 值 参 数矩 阵来表示 每个 单 独 的 参数值 都 表示 了 前 后 层 某
一
两个 祌 经节 点 之 间 的 交 互 。 相反 , 卷积 网 络 具 有稀 疏 交互特 征 , 通过 卷积 核 在 指 定 图 像
本 身 的 尺寸 , 以 减少 训 练参数 ,
提高计算 效率 。
如 果有 m 个输入 和 n 个输 出 , 则 传 统神
个输 出 与 前 层 神 经元 的 连接数 限 制 为 则 连接 系 数 的 方法 只 需 要 个参数 以 及
一 一
k ,
1 0
-
东 北 大 学 硕 士 学 位 论 文 第 2 章 视频 行 为 特征 的 分 段提 取
图 2 . 1
稀疏表 达和 全连接
F g 2
i . . 1 S
p a r s e e x p r e s s o an
n d fu i l l c onn ect o n
i
,
。
,
。
,
在卷积 网 络 中 , 卷积核 的每
一
个元素将作用 于每
一
个输入 的特定位置 。
根据 参数共享 的
,
, ,
这 是参数共享最 大 的 优点
。
。
,
,
,
。 ,
但是大大 降低 了 模型 的存储 需求 ,
降至 k 个参数 ,
而且 k 远小于 m 。 参数共享 的 物理 意
。 ,
何位置 ,
都应该视为 猫 ,
即 神 经 网 络 的 输 出 对平移 变换来 说应 当 是 等变 的 。
如图 2 2
.
所
-
-
1 1
东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取
独 的 卷积 核 参数被 用 于 所有 的 输入 位置 ; 下面两层 网络 , 这 个 单独 的 深 色箭 头 表示 在 卷
次
一
。
Q QQ G
V
r> rv rrv n
WW W W 〇
>
图 2 2 .
参数共 享和 全连接
F g 2 2 P a r a m e t e r s h a r n g a n d fu
i . . i l l c o n n e c t on
i
由 于 卷 积运 算 主 要 用 于 处 理类似 网 格结 构 的 数 据 ,
尤其 是 卷积 网 络 具 有稀 疏连接 和
习 局部特征 ,
然后 结合局 部 特征 , 形成更复杂 和抽 象 的 特 征 ,
与 传统的神经网络相 比
,
不仅 提 高 了 训 练 效率 ,
而且提高 了 网 络鲁棒性
。
二 维 卷 积 主 要 应 用 于 图 像 处理 领域 卷积通常对应着 个非 常稀疏 的 矩 阵 因 为输
一
, ,
, ,
积 相 加 起来共 同 作 为 该 像 素 位置 的 值 ,
从 而 完 成 了 滤 波 过程 。
如图 2 . 3 所示 ,
演示 了 在
算 , 然 后 在 原 图 像上 移 动 相 应 位置 , 将 元 素乘 以 相 应 位置 并相 加 得 到 最 终 结 果
。
1 2
-
东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取
I i i
pu
t
" " "
" " " " "
1 1 I
K | | J
e r uc
l
a d
e
u -
b
|
—
=z wx
p | |
^
f 9 fi =
=
mmmm -
mmmm =z = y z
i
j k l P = == !
I
w Ou t
p u t
?
aw + bx + f
e u + ci + c + '
ti ; { ir +
e
y ^ f z f y + g z g y h z
eu
?
+/z + f w + p x + g w hx -
\
-
i
y + j z j y + kz k y + I
z
图 2 3 . 二 维卷积运算
F g 2 3T wo d m ens ona c o n vo ut on
-
i . . i i l l i
量 数据 的 增 加 ,
深度 学 习 在 图 像 处理领域 中 的研 究 和 应 用 得到 了 飞 速 发 展 ,
而卷积祌经
网 络 的研 宄在 图像处理 中 占据 了 绝对重 要 的 地位
。
2 . 1 . 2 卷 积神 经 网 络结构
结构大致相 同 ,
如图 2 4 .
所示 ,
典型 的 卷积神经 网络 中 , 主 要包含 卷积 层 、 下采样层
和 全连接 层 等 网 络 结 构 。 卷积 层通常 和 下 采样 层 结 合 使用 ,
并 且 在 网 络 的 最 后 几层 中 使
用 全连接 层 网 络 用 于 下 采样 获得 整 体特征
。
叩u t 丨
m a
ge 3 F ea t u r e M pa 3 s F ea t u r e M pa s 5 F ea t u r e M pa 5 s
Fe a t u r e O u t
p u t L a ye
r
M pa
n
—
n—
s
1
-
i
- -
,
-
[
1
.
 ̄
L —
了
■ ? 口
r l
〇 q
U
■
-
J
J .
一
-
I
—
—
|
[ _
C o n v o ut o n l
i Poo l
i
n
g C o nv o l
ut o n
i Po o l
i
n
g F u l l
yC
o n n e ct e d
L a
ye r La
y e r
La y e r
L ay e r
N e t wo r k
图 2 4 .
卷积神经 网 络结 构 图
F 4C o n v o ona u ra etwo ks t r u c t u
g 2 ut n e n r re
i . . l i l l
3
-
-
1
东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特征 的 分 段提取
卷积神经 网 络 中 各层 网 络 层作 用 不 一
。 其中 , 卷 积 层 主要 用 于 提取输 入 图 的 语义 特
网 络层 的计算过程
:
卷积 核 中 通过特 定 位置 和 前 层 特征 图 局 部 连接 卷积 层每 个特征 图 的 输 出 共享 个卷
一 一
积核 ,
将 卷积 核 作 为特 征提 取器 ,
那 么 每组输 出 看作 特征提取后 的 特征 。
每个输 出 特征
图 可 以 组合卷积 多 个特征 图 的 值
:
xJ f u
( J
)
V
' (
2 6 .
)
+ U
u rL x k b 丨 ,
j
j
M i e
}
其中 , u
j
称为卷积层 L 的第 J 个 通道 的特 征输 出 , 它 是通过对输入 图 像特 定 局 部 区 域部
是前 层 的 输 出 特征 图集合 ,
作为第 J 个通道 的卷积 核矩 阵 , 是卷积 核 的 偏 置
。
( 2 . 1 ) , f
( 〇 。 ,
和非线性 函 数 , 如 s i
gm o
i d 函数 、 ta nh 函 数等 。 当 网 络层 不 断加深 时 ,
神经 网 络会 出 现
数
:
/ (
x
)
=
ma x
(
〇 x ,
) (
2 7 .
)
( 2 7 . ) 3 . 5 , ,
向传播
。
■
\
/
?U
-
1
j
图 2 5R e L U
. 函 数曲线
F g 2
i . . 5 R e L U fu n c t i o n c u rv e
4
-
-
1
东 北 大 学 硕士 学 位论文 第 2 章 视 频 行 为 特 征 的 分段提 取
( 2 ) 为 了 解 决 卷 积 层 输 出 神 经 元过 多 引 起过 拟 合 问 题 , 卷积 神 经 网 络 引 入 池 化层
。
池 化层 是将 特征 图 局 部 区 域 的 特 征 进 行 统计 分析 得 到 代 表整个 局 部 区 域 的 总 体特 征 ,
如
式 ( 2 8 . ) 所 示 池 化 层 通过 减 少 神 经 元 的 数 量 来 减 少 网 络 模 型 的 计 算 量 即 下 采 样 过 程
, ,
,
又可称为 下 采样层 。
,
、
1
=
x f u
( ^
,
u r a j
LD 卜 own
X j
、
}
+ u
b
j
(
2 8
-
)
, u J , ;
j
加权和 偏置相加 得 到 , D o wn ( _
求和 、 求均值或者最大值 的方法 ,
作 为 图 像 块 的 整 体 表达
。
式 所示 使 用 全 连 接 层 对 特 征 图 进 行 下 采样 得 到 整 体特 征 转换为 维特征 向 量
一
( 2 9 . ) , ,
作 为输入
。
X ’ W
-
( )
(
2 9)
.
/ / /
-
I ,
/
+
x
=
u co
b
, u / , ;
加得到
。
卷积 神 经 网 络主 要 分为这三个 网 络层 ,
现在 主 流 的 卷积 神 经 网 络框架 也都 是基 于 这
个基础 层 结 构 根据 具 体 任 务 改进得 到 。 2D 卷 积 网 络 在 处理
一
幅 图片 时有着很好 的表现
而 3 D 卷 积 神 经 网 络 专 门 用 于 解 决 视频 流 的 连续 帧 特 征 提取 问 题 , 下面作 详细介绍
。
2 2
.
基于 3 D 卷积 神 经 网 络 的 视频 特征 分段 提 取
维 , 即 在 连续 帧 图 像流上进 行 卷
积运算 。 所以 , 3 D 卷积 神 经 网 络 既可 以 提取 空 间 信 息 又可 以 提取 时 间 信 息 ,
相对于光
流图的时间消耗 , 3 D 卷积运算大大减少 了 运算耗 时 , 而且 效果不低于光流信 息 的 特征
提取方法 本文基 于 。 3 D 卷积 神经 网 络 的特征提取部分 利 用 传统 的 , 3 D 卷积 神 经 网 络
,
, 3 : ( 1 )
连 续 帧 图 片 流 的 每 个 通道进 行 由 前 到 后 的 特 征 提取 ,
最 终 通过 全连接 层 形 成 整体 的 特征
描述 ;
( 2 ) 将 视频流 的 各个动 作 段 的 连续 多 帧 图 片 经过步骤 ( 1 ) 得到 特征 向 量后 ,
经
5
-
-
1
东 北 大 学 硕 士 学 位 论 文 第 2 章 视频 行 为 特征 的 分段提取
过特征 特 征 融 合方法 得 到 整个 视 频 的 特征 描 述子 ;
( 3 ) 经过 Sof
tm ax 分类器得到类别 概
率
。
^
驗
;续 ^
?
 ̄  ̄  ̄ —
二11
训 r =
〇
V
[
;
| (
I
(
\_ ( )
络 训 练7
;
丨
I C o n v 3 d I
|
丨
1
|
T ■
|
|
Cl D
'
(
连续 帧
( )
! 1
P o d 3 d
J
HJ y ^
I I
i
v  ̄ ̄
_ _ I ? 纖 网络
L
[
L  ̄
T
^ !
:
?
i
!
?
!
J
_ I —
.
- 1
!
r L
;
创建均 值 A I I -
I
(
!
1
 ̄  ̄  ̄ ̄
连续帧
文件
1
)
I
|
I ( (
L
丨
1
I ■ —
一 . 一 . 一 ■ 一 ■ 一 - 一 一 一 一 一 一
J
▼
M  ̄ ̄
? 各 连 续 — 征 提取
? 行为识别 结 果 分类
? 准确 率统计
( ( )
图 2 6
.
基于 3 D 卷积神经 网 络特征提取 框架 图
g 2 6 F e a t u r e e x t r a c t o n fr a m e w o r k b a s e d o n 3 D c o n v o
F i . . i l ut i o n a l n e u r a n e tw o r k
l
2 2
. . 1 3 D 卷积介绍
如图 所示 在 D 卷积 的 基础上增 加 个维 度 即 连续 多 帧 图 像卷积操作 如 图
一
2 7 .
, 2 , 。 2 . 8
,
将 2D 卷积 应 用 于 单 通道 图 像或 应 用 于 多 通道 图 像将 生 成 幅图像 因此 2D 卷积 网 络
一
。 ,
无法 获取输 入 信 号 的 时 间 信 息 ; 只有 3 D 卷积 保 留 了 输入信 号 的 时 间 信 息 ,
从而 产 生 了
个 图 像序 列 同 样 的 方法也适用 于 D 池化和 2D 池化
一
, 3
。
t e m p ora
l
W 图 2 73
. D 卷积示 意 图
F g 2 73 D c o n v o
i .
. l u t i o nd a i
g am
r
6
-
-
】
东 北 大 学 硕 士 学 位 论 文 第 2 章 视频行 为 特征 的 分段提取
/ /
| /
k
H
k
D d
—
?
H ^
^ > k
A -
J
o ut p u t ^
/
W
W
2 Dc o n v o l u t i on 3 Dc o n v o l u t i on
图 2 . 8 二 维和 三维卷积运算
F i
g . 2 . 82 D an d 3 D c o n v o ut l i on
使用 光流 图 获取时 间 信 息 ,
其耗时长 、 易 受干扰 的 缺 点 , 3 D 卷积更适宜于连续帧 的特
征提取
。
2 2 2 3
. . D 卷积神 经 网 络 结构
S 20
[
3 J i 1 3 ,
。 3 。 _
所示 , 该 网 络含有 1
个 h ar d w i r e d ( 硬连线 ) 层 、 3 个 3 D 卷积层 、 2 个下 采样层 和 1
个
全连接层
:
*
"
I
'
.
咖
^
convo
咖 咖on
s u bs a _
^ ^
n
i
、
h a rdw Dsa
f ed 議 su
convo u on
?
,
?
i
l
t i
/
1 ?
 ̄
1
-
"
l
sT
& p ^ \
”
F
I
f l
pm 临 \
『
n u
p t
i :
l %
、
獅
,^
7
上
1
■
二
1
匕 二 2
*
*
23 2 § 54 x 34 23 2 ^ 2 7x 1
7
图 2 9 .
经典 3 D 卷积 网 络
F i
g .
2 9C
. l as s c 3 i D c onvo l ut i o nn e w o r k
t
在第
一
个硬连线层 中 , 上 图 网络应用
一
个 固 定 的硬连线核来处理原始帧 , 生成多个
信道信息 ,
并分别 处理每 个信道信 息 。 h ar d w i re d 层 相 当 于 提取 视 频信 息 的 特 征 先验 知
7
-
-
1
东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取
识 ,
包括五种特 征信 息 :
灰度 图 、 x 和 y 方向 的梯度 、 x 和 y 方 向 的 光流信 息 。
随后 的
3 ,
样 的 卷积操作 不 同 在于 D 卷积 网 络 是在 连续 图 像上 的 相 同 位置 同 时执行卷积操作
一
, 3
。
D 卷积之 后 的 下 采样 层 同 D 卷积核工 作 原理
一
致 进 步 得到 空 间 分辨率 和 帧 数 降低
一
3 3 ,
经典 的 3 D 卷积 网 络 依 旧 存在 着诸 多 问 题 ,
其中 ,
网 络输入 需 要 计 算 连 续 帧 的 光流
, 。 , 3
使用 8 层 3 D
、
个视频动 作 场 景 , 如行为识别 ,
场景识别 , 视频相 似度分析 等 , 此 网 络 以 多 张连续 帧 图
片 作 为 网络 的输入 ,
使用 八层 3 D 卷积层 同 时 学 习 时 间 和 空 间 维度特征 , 不 仅减少 了 时
间和 空 间损耗 ,
而且 效果更好
。
>
C onv l a
^ C o nv 2 a
 ̄
£
64 128
2
V .
^ ^ yL )
 ̄
r r n
C o n v 3 a C o nv 3 b
写
256 2 5 6 § _
t
n
v x v /L
f .
r
f
\
^
^ C o n v 4 a C o n v 4 b
^
连续 巾贞
5 1 2 5 1 2 °
?L o s s
图 片 l A
J L ^ J
C o n v S a C o n v 5 b
^
5 1 2 5 1 2
v
/\
/
)
FC6 FC7
4 0 9 6 4 0 9 6
S o ft m ax
: ]
图 2 . 〗 0 通用 的 3 D 卷积 网 络
F i
g . 2 . 1 0U n v e rs a 3
i l D c o n v o l ut on a
i l n etw o rk
使用 2D 卷 积 神 经 网 络 来 识 别 单 个 帧 图 片 类别 , 显而 易 见 , 这 种 方 式无 法考 虑 到 连续
。 ,
, 。 ,
8
-
-
1
东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特征 的 分段提 取
统的 3D 卷 积 神 经 网 络 可 以 在 连续 帧 或 者 多 帧 之 间 生 成 多 个 信 息 通道 ,
并 且 在 每 个 通道
, 2D ,
得最终 的 特征表示
。
, ,
理 成连续 多 帧 图 像 ,
并进 行 求均 值 化 、 翻 转等数据 预 处理 , 作为 3 D 卷积 网 络的输入
。
然后 ,
根据 训 练标签 指 定 文 件 夹 里 的视频 作 为 网 络 输入 , 经过上述 3 D 卷积 网 络后 ,
将
最后
一
层 全连接层 的
一
维 特征 向 量 的 输 出 做 元 素 加 权 平 均 , 作 为 融合 策 略 。 最后 , 经过
S o ft m a x 分类器得到 类别 的 概率 分 布
。
2 33. D 卷积神 经 网 络 的 结 果 与 分析
2 3 . . 1 常 用 数 据 库 和视 频 预 处理
随着人体行为识 别 技术 的 发展 , 相 关 的 数据 库 也在 不 断 改进和 发展 ,
表 2 . 1 列出
了
近 几年人体行 为 识 别 领域相 关 的 数据 库
。
表 2 . 1 人体行为识 别数据集
T ab l e 2 . 1 A ct i onRe c o gn i t i o n d at as et
数 据 集 名 称 发 表 时 间 行 为 类 别 总 视 频 片 段
K T H 200 4 6 2 3 9
1
We i z m an n 2 00 5 1 0 90
I X MA S 2 0 0 6 1 1 3 63
Ho yw o o d 2 0 0 8 8
l l 2 40
U C F Y o uTu b e 2 0 0 9
1 1 1 1 00
Ho 2 2 0 0 9 2 3 6 6 9
y wood
I l 1
U CF5 0 20 1 0 5 0 5 0 00
H MD B 5 2 0 1 1 1 5 1 6849
UCF 1 0 1 20 1 2 1 0 1 1 3320
S p o rt -
1 M 2 0 1 4 4 8 7 1 0 0
万
考 虑 到 数据 库 库 质 量 和 普 适 性 ,
本文 中 使用 UCF 1 0 1 数据集 和 HMDB 5 1 数据集
[
49 ]
9
-
-
1
东 北 大 学 碩 士 学 位 论 文 第 2 章 视频行 为 特征 的 分段提取
UCF 1 0 1 数据 集包含 1 0 1
个类别 ,
每个类别 至少 1 00 个样本 ,
共 1 3 3 2 0 个视频 , 总 时长
频网站 Y o uT u b e 上 下载来 的样 本 ,
动 作 分类可分 为 五类 : ( 1 ) 人和 物体相 互作用 ;
( 2
)
仅 身 体动 作 ;
( 3 ) 人与 人相 互作用 ; ( 4 ) 演奏乐 器 ;
( 5 ) 运动 。 相 对于 UCF 1 0 1 ,
,
HMD B 5
1
, 5 1 , 1 0 1 ,
1 。 2 . 1 2 , 1 自 ,
, : ( 1 )
; ( 2 ) ;
( 3 ) ;
( 4 )
人体行 为 ;
( 5 ) 人体 互动 的 身 体 动 作 ,
涵盖 了 日 常 见到 的人体行为
。
o
t
丄
SS fS Ti SES KT IE S C
T SJC
TSSST
'
* 230 25 ^* i a
i i
*
S SC C T t HD S K j
E3C2X o E s T 3H B3 1 2 5KZn3 5
M ESC I E 5t 5 X 2 S 3 SE E K J E S S E E S S S T i i A J R i T
d
:;
SS戀 ! 盡 在 3E
I
—
_ :l ^ — 丄 w r^ iF
— —
i
BM H m """"""""Hamm mmmmmmm mm mmmmmmmmm
m
mmammmmm m m m m m h m i ^
^ \ i
BP
j
」 ^ I
? JL .— I L,
m Wi 通m n S S S E B U f
, t ■ E EJ G T l W E 5 S O 5 ^ M K T u 2 ? 1 M £ i M 5 5 L ^ E 5 2 2 3 5 5 5 5 1
^
B
! ! r
i
1 ^9
图 2 . 1 1 UC F 1 0 1 数据集样 例
F i
g 2 . . 1 1 U CF 1 0 1 d at a s e t s a m p e
l
20
-
-
东 北 大 学 硕 士 学 位 论 文 第 2 章 视频 行 为 特征 的 分段提取
4 m ^ B y i I 於’ %
^
、 2_也
^ ^ ^
^
h
p u ,
C u s h or t v ^ c . c
-
-, 加 b c . ,
^
^ t ^ i 4 * i
^ m w m m m
.
i ii
^ U _ ?? W m of
a ^* *a
^
.
, * .
?
W 改 被 啟 嫩 * ^m 切 I
g
ba m r un
恤
^ l ^ 7
^B^f
'
t
u
w
i
*
h sr
^ < } H t
!
WS
Mm
il
t
£ f t ? t * n* >
? ?
"
?
? ?
* ? ? ? ? ? * ??? ? * ?y*?
/
t ur
n
團 鱷
h ei r k v bu t
^■
*
*
?
p * t v Fc
縐 _ _■ m
? i
f
p u Mu p p un ch
?**?
bt
f l
图 2 . 1 2 H MD B5 1
数据 集样例
Fig 2 . . 1 2 H MDB5 1 d a t a s e ts a m p e
l
先将 UCF 1 0 1 数据 集 中 的 视频转 化 成 图 片 序 列 作 为 输 入 序 列 。
传统的 3 D 卷积神经 网 络
n , ,
,
;
干张 图 片 , 既包含 了 完整 的动作 ,
又减 少 了 无用 的 信 息输入 。 如图 2 . 1 3 所示 ,
例如将视
频 分 成三段 ,
每段随 机取 两 张 连续 帧 图 片 ,
分别 作 为 3 D 卷积祌经 网 络 的输入
。
mL
 ̄
HP # i H IT 积 神经 网
'
t
Sf
—
c -
r
i
L Zj
黾 命
s
如图 2 . 1 3 视频预处理示意 图
F i
g . 2 . 1 3 V i d eo
p r e p ro c e s s
i n
gs c h e m a t i
c
2
-
-
1
东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取
8 3
5
?
.
;
、
;
3 , ,
分 段输 出 层 的 特 征 向 量 融 合方法通 常 采 用 两 种 方法 种 是平 均 法 如图
各
一
: , 2 . 1 4 ,
征向量 再经过 tm ax
f *类器得 到 最终结 果 种 是最 大值法 如图 按元素选
一
,
So ;
, 2 . 1 5 ,
, ,
用 So t m ax
f 分类器得到 最终结 果 。 下 文将对 两 种 融合方式做对 比 , 选择更适合人体 行 为
识 别任务 的 平均 融 合方 式作 为结 果序 列 的 融合方法
。
0 3 .
〇 .
i 0 10 . . 5
0 2 .
0 2 . 0 . 1 0 . 5 l
> 0 . 2 0 .
13 0 .
1 0 . 57
0 1 .
C
M 0 . 1
|
〇 7 .
图 2 .
1 4 平均 法融合示 意 图
F g 2i . . 1 4 M e a n m e t h o d fu s i o nd a g r a m
i
0 3.
0 1 .
0 .
1 0 . 5
0 2 .
0 2 .
0 . 1 0 .
5 l > 0 . 3 0 . 2 0 . 1 0 .
7
0 1 .
〇 l .
0 1
. 0 . 7
图 2 . 1 5 最大值融 合示 意 图
F g 2 i . . 1 5 M ax i m u m fu s o n d
i i a gram
网 络输入 的 帧 数 和 段数对模 型 本 身 有 着 决 定 性 的 影 响 ,
本 文 通 过对 比 交 叉 实 验 ,
选
择最佳 的 帧数和 段数 的 组合 。 由 于 硬件 条件 限 制 ,
本文在通用 的 3 D 卷积神 经 网 络基础
上 将卷积层设置为
, 8 层 池化层 数和 全连接层数保持 不变 根据输入序 列 的 帧 数 不 同
, 。
,
相 应 改变池化层 的 参数
。
在 下 列 实验 中 ,
本文选择 了 几 组 在对 比 试验 中 性 能 效 果 较 好 的 实验 结 果 作 为 参考
。
本 次帧数和 段数参数选择 的 对 比 实验 , 是在 相 同 的 Dr
opou t 值 、 相 同 的 正 则 化方 式 、
使
示 , 对 比 实验 中 分别 使用 两种 融合方式 :
平均 融合和 最大值 融合方式 ,
不仅考虑到段数
2 2
-
-
东 北 大 学 碩士 学 位论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取
和 帧数对模 型 影 响 , 而 且 考 虑 了 不 同 的 分 段 数 对两 种 融 合 方 法 的 作 用 效果 ,
并使用 提前
停止 方式得 到 各参 数组合最佳模型
:
表 2 2
.
不 同 超 参组 合 的 模型 结 果对 比 ( 准确率 , %)
T ab l e 2 2 C om p ar
. i s o n o f m o d e l re s u l t s o f d i ffe r e n t s u p e r p a r a m e t e r c o m b i n at i o n s ( a c c u r ac y
-
%
)
帧 数 段 数 平 均 融 合 最 大 值 融 合
8 6 7 8 3 . 78 5
.
8 9 8 1 . 4 8 0 6
.
8 1 2 7 9 8 7 7 3
. .
1 6 6 8 0 0 . 79 .
7
1 6 9 8 0 9 . 79 0
.
1 6 1 2 7 8 0 7 8 2
. .
24 6 7 7 5 7 7 5
. .
2 4 9 7 7 9 7 6 8
. .
2 4 1 2 76 2 7 7 0
. .
由 上表得 , 当 帧数为 8 ,
段数为 9 时准确率 效果最好 。 而且平均 融合方式 的 效果 在
多 数组合 中 比最 大值 融合方式更好 ,
尤其 是 在 段数较 少 的 情况 下 , 平均 融合法相对 于 最
为 8 , 对 段 数进 行 微调 ,
其结果如 下表 2 3 .
所示
:
T ab l e 2 3 C o m p ar
. i s ono f m ode l r e s u l t s fo r d i f fe re n t s e g m e n t s ( a c c u r ac y %
)
段 数 平 均 融 合 最 大 值 融 合
8 80 9 . 80 .
1
1 0 8 2 7 8 . 1 .
1
1 1 8 0 5 7 8 8
.
.
通过 以 上 实验可得 ,
段数越 长 ,
最大值融合 的方法效果 下 降 ; 帧数为 8 情况下 ,
平
网 络 获得 最佳 的 特征表示 。
如下表 2 4
.
所示 ,
最 佳 帧 数 的 值 确 定 了3 D 卷 积 神 经 网 络 的
23
-
-
东 北 大 学 硕士 学 位论文 第 2 章 视 频 行 为 特 征 的 分 段提 取
、 , ,
,
并 且各段 网 络 参数共 享
:
表 2 4 .
分段 3 D 卷积 网 络结 构 图 参数
T ab l e2 . 4 S e g m e n t e d 3 D c o nv o l ut i o n n e t w o r k s t r u c t u r e c h a r t p a r a m e t e r s
网 络 层 名 输 入 大 小 滤 波 器 大 小 核 大 小 输 出 大 小
* *
Da t a 8
*
1 1 2 1 1 2 - -
8* 1 1 2 1 1 2
*
3
*
C onv l a 8 1 1 2
*
1 1 2
*
3 64 3 *3 * 3 8 * 1 1 2
*
1 1 2
*
64
Poo l l 8* 1 1 2
*
1 1 2
*
64 -
1
*
2
*
2 8
*
56
*
56
*
64
C o nv 2 a 8 * 5 6 * 5 6 * 6 4 1 2 8 3 * 3 * 3 8 * 5 6 * 5 6 * 1 28
*
Po o 2 8 l
*
56
*
56 1 2 8 -
2 * 2 * 2 4 * 2 8 * 2 8 * 1 28
C o nv 3 a 4 * 2 8 * 2 8 * 1 2 8 2 5 6 3
*
3
*
3 4* 28 *2 8 *25 6
v3 b 4
*
Co xi
*
28
*
28
*
2 5 6 2 5 6 3 3
*
3 4 *2 8 * 2 8 * 2 5 6
Poo l 3 4 * 2 8 * 2 8 * 2 5 6 2 * 2 * 2 2 * -
1 4
*
1 4
*
25 6
* * * *
C o n v4 a 2 * 1 4 1 4 2 5 6 5 1 2 3 3
*
3 2* 1 4 1 4
*
5 1
2
C o nv 4 b 2 * 1 4
*
1 4
*
5 1 2 5 1 2 3 * 3 * 3 2 * 1 4
*
1 4
*
5 1
2
P oo 4 2
*
*
l 1 4
*
1 4 5 1 2 -
2 * 2 * 2 1
*
7
*
7
*
5 1
2
* * * *
C on v5 a 1 7
*
7
*
5 1 2 5 1 2 3 * 3 * 3 1 7 7 5 1
2
C o nv 5 b 1
*
7
*
7
*
5 1 2 5 1 2 3 * 3 * 3 1
*
7
*
7
*
5 1
2
Poo 5 1
* * *
l 7
*
7 5 1 2 -
1 2
*
2 1
*
4
*
4
*
5 1
2
F c6
* *
1 4
*
4 5 1 2 4 0 9 6 4 0 9 6
-
F c 7 40 9 6 4 0 9 6 -
40 9 6
2 3 3
. .
结果分析
下 面 将本 章 的 分段 3 D 卷积神 经 网 络模型 与 双流 2D 卷 积神 经 网 络模 型 和 传 统 的 3
D
2 . 1 6 , ,
,
,
24
-
-
东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取
神 经 网 络 输 入 是在 视 频 流 中 连续 采样 1 6 帧 图 像作 为视频 的 时 空信 息
:
_
,
、
_ wm
鉍
:
图 2 1 6
.
空 间 流 网 络输 入 ( 左 ) 和 时 间 流 网 络输入 ( 右
)
-
I
.
| |
_
I
图 2
. 1 73 D 卷积 神经 网 络输 入
^
F i
g . 2 . 1 73 D c o n v o l ut i
o n a n e u
l ra l n e t w o r k n p i
u
t
本文采用 固 定 的 输入 和 输 出 维度 方 式 ,
各 个 模 型 的 激活 函 数 均 使 用 Re L U 函数 。
所
有模型 都在大致相 近 的 时 间 内 达 到 神 经 网 络 稳 定 收 敛状 态 ,
并且 模 型 训 练 时 采 用 提 前 终
止 的 正 则 化方式 ,
保证模 型 达到 最 佳状 态 。 不 同 的 神经 网 络模 型 采用 了 相 同 的 归
一
化方
式 所有 模 型使用 相 同 的 梯度 下 降法 和 学 习 率
, ,
并 采 用 相 同 的 正 则 化方法和 正 则 化参 数
,
对比结果如 下表 2 . 5 和图 2 . 1 8 所示
:
表 2 . 5 分段 3 DCNN 与其他模型对 比
Tab l e2 . 5S e
gm en t e d3 D C N Nc o m p a re d t oo h t e r m ode l
s
性 能 指 标 空 间 流 网 络 时 间 流 网 络 双 流 网 络 3 DCN 1 M 分 段 3 D CN N
准确 率 ( % 66 ) . 8 7 1 . 5 8 1 . 6 8 0 . 3 82 .
7
. 1 23 .
4
2 5
-
-
东 北 大学硕士 学 位 论 文 第 2 章 视频行 为 特征 的 分 段提取
准确率 ( %
)
81 6 .
80 .
3 82 7
M
空 间 流 网 络 时 间 流 网 络 双 流 网 络 3 D C N N 分 段
i l
l
3 DCN N
图 2 . 1 8 不 同 模型 的对 比结果
F g 2
i . . 1 8 C o m p ar i s o nre s u l ts o f d ffe r e n t m o d e
i l
s
由 以 上数据可 知 ,
分段 3 D 卷积神 经 网 络在人体行为识别任务 上 比 2 D 卷积祌 经 网 络
积 神 经 网 络 随 机采样 部 分视频 帧 相 比 ,
有 更好 的 准确 率效果 ;
且 各段参数共享可 以 并 行
计算 , 所 以 相 比 于传统的 3 D 卷积 网 络 ,
分段后 的 时 间 复 杂度 并没有 明 显 的 缺 陷 。 以上
UC F 上进 行控 制 变量 的 结 果 其 中 双流 网 络与 原文结果稍有不 同 但是大抵是
致
一
1 0 1 , ,
的 至于不 同 的 原 因 是 因 为 为 了 对 比 实验 的 条件 致性 双流 网 络和 本 章 的 分段
D
一
, , , 3
卷积 网 络都没有加入 预训 练模 型
。
从结 果 来看 , 在 提 取视频 序 列 特 征 方 面 , 3 D 卷积 网 络 模型 相 对 于 2 D 卷积 网 络有 更
好的结果 。
在 时 间 要 求严格 的 情况下 ,
使用 分段 3 D 卷积 网 络 的 表现超过 了 双流 网 络 的
表现 。
然而 , 正 如 前述实验所 知 , 由于 3 D 卷积祌 经 网 络 只 能输入 固 定 序列 长度 ,
而且
序列 长度越 多 , 训 练参数成倍 数增 加 ,
使得模 型 训 练 时 间 复杂度 大大增 加 ,
甚至损 失 函
数不 收敛 。 因此 ,
使用 3 D 卷积神 经 网 络 处理 人 体 行为识 别 任务在长 时 间 的 视频特征 提
依赖 问 题
。
2 4
.
小结
在本章节 中 ,
本 文 从数 学 角 度剖 析 了 卷积 运算 原理和 作用 ,
阐 述 了 卷积神经 网 络和
传 统 神 经 网 络在 结构 和 信 息 传 递上 的 区 别 。 分 析 了2 D 卷 积 网 络 在 序 列 图 像 中 提 取 时 间
26
-
-
东 北 大 学 硕 士 学 位 论 文 第 2 章 视频 行 为 特征 的 分段提取
特征 的 原 因 和 问 题 并且 从结 构上 解释 了
,
3 D 卷积神 经 网 络与 2 D 卷积 神经 网 络 的 区 别
,
以及 3 D 卷积 网 络 的 设计理念
。
在传统 的 3 D 卷积 网 络 的 基础 上 ,
本文将视频首 先进行分段 , 其 中 各段之 间 的 3 D
卷
积 网 络 的 参数共享 , 然后将每
一
段经过 3 D 卷积 神 经 网络得到 特征 向 量 , 最后 经 过平 均
融合 的 方法得 到 人体行 为 识 别 结 果 。
本 章 通过控制 变量 方法 , 得 到 了 视频 段 数 和 视 频 帧
数 的 最佳参数 ,
并且 与 双 流 网 络算 法进 行 对 比 实验 ,
得 出 了 分段 的 3 D 卷积神 经 网 络在
27
-
-
东 北 大 学 硕 士 学 位 论 文 第 2 章 视 频 行 为 特 征 的 分 段提 取
28
-
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上 下 文 关 系 学
习
本 章 将 通过 数 学 推 导 的 方 式 详细 介 绍 循环 神 经 网 络 的 工作 流程 。 接 下 来将 从 结 构 上
络的 种升级结构 长短期记忆 网 络 并 仔细 介 绍 长短 期 记 忆 神 经 网 络 的 门 结 构 最后
一
,
。
,
实验 ,
分析 该算法 的特点
。
3 . 1 循环神经 网络
循环神经 网 络 ( R e c u r r e n t N e ur a N e
l t wo rks , R NN ) 源 自 于物理学家 J . J . Hopf
ie l d
教
授在 年提 单层反馈神经 网 络 人们 后来称这种 反馈 网 络为 霍 普 菲 尔 德
5 Q
出 的
[ ]
1 982 ,
( Hopf
ie l d ) 神经 网络 。 传 统 的 神 经 网 络 无法在 时 间 序 列 上 建模 , 然而 ,
样 本 出 现 的 顺序
序 列 问 题表现 的 尤为 突 出 如
5
GRU LSTM
1
[ 1 [ I
, ,
、
。
3 . 1 . 1 循环神经 网络介绍
, 3 . 1 ,
受输 入 X , 通过 权重 w 的连接 ,
并将权重加权后 的信 号 与 神经元的 阈 值进行 比较 , 通过
激活 函 数确 定是否激活
。
x ^ .
2
^ h x
w b ,
(
)
X
3
-
+ 1
’
图 3 . 1 单个神 经元表达
F S n g en e u ro ne x ess o n
g 3
pr
i . . 1 i l i
如 公式 ( 3 . 1 ) 所示 ,
单 个神 经元表达对应 的 表达式 为
:
T
^W
3
f W / + b) 1
h, .
f,
(
x ) = ( x ) = ( ,
x
,
(
.
)
1
=
1
29
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征的 上下 文 关 系 学
习
其中 / 〇 为激活 函 数 ,
提 高 网 络 的 表达 能 力 和 泛 化 能 力 。
循环神经网络常用 的激活 函 数
是 s i
gm o d i
激活 函 数和 t anh 激活 函 数 。 如式 ( 3 . 2 ) 所示 , s i
gm o i d 激活 函 数表达 式为
:
/ (
^ )-
—
^ (
3 - 2)
和式 ( 3 .
3 ) 所示 , t anh 激活 函 数表达式为
:
/ (
z ) = t an h ( z )
= -
l
 ̄
+ e
^
*
(
3 . 3
)
如图 3 . 2 所示 , s i
gm o
i d 激活 函 数和 t anh 激活 函 数都有饱和 区 , 但 是作 用 域不 同 ,
其
中 , 左图的 s i
gm o d i
激活 函 数 映射到 实数 区 间 为 ( 0 ,
1 ) , 而右 图 的 ta nh 激活 函 数映射 到
实数 区 间 为 (
-
1
,
1 )
。
, ? t a nt *
0
1
U
:
I S) ^
7
° 6
/
/
^
y
-
4 -
2
2 y
4
-
瞧
1 0
-
■
5 5
i
■
J
1
0
一
U 1
-
图 3 . 2s i
gm o d i 函数 ( 左 ) 和 t anh 函数 ( 右
)
F g
i . 3 . 2S i i t
f
g m o d f u n c t o n ( e ) an d t a n h u n c t o n ( r g h t )
i f l
i i
由 于 s i
gm o d i
激活 函 数和 t an h 激活 函 数 的 作 用 域 的 不 同 ,
使得 两种激活 函 数在 循环
网 络 中 的 作 用 也不尽相 同 。 由 于 si
gm o d i
的 取 值 域符合 门 控 的 定 义 , 常用 于 门 控 的激活
函 数 ;
t a nh 激活 函 数关于 原 点 对称 ,
符合绝大部 分输入特征 的 原 点 对称性 质 ,
并且零附
近 的 函 数梯 度 大 于 s i
gm o
i d 激活 函 数 , 可 以 加 速 收敛速度 ,
常 用 于 循环神 经 网 络 的 隐藏
层输出 的激活功能
。
利 用 神 经元组织和 传 统 的 有 向 无环计 算 图 可 以 呈现 出 循环 神 经 网 络 中 的 循 环 机制
,
如图 所示 前 时刻 的输 出 用 作后 时 刻 的 输入 所有 的 时 间 步共享相 同 的 参
一 一
3 3 1
-
. , t t ,
数
。
S " _ S
U
尸
( ) )
I
广 广 l
)
图 3 3 .
循环机制示意 图
F 3 3S c h e m at c d a r a m o f h e c y c e m e c h an s
m
g g t
i .
. i i l i
考虑 到外部输入 X 的驱动系统 ,
没有输 出 的 循环 网 络 , 这种循环 网 络 只 能处理输入
X 的信息 ,
并将其合并到经过 时 间 序 列 的 隐含层 的输 出 中 。 如图 3 . 4 所示 ,
可 以当作当
3 0
-
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段 行 为 特征 的 上 下 文 关 系 学 习
前状态包含整个序 列 过去 的 所有 状态 其 中 黑 色方块表示单个 时 间 步 的 延迟 每 个时
一
, ,
间 节 点 与 特 定 的 时 间 和 输入特征相 关联
。
^
un f 〇 d i
S /
J
f X f X (
t
-
l ) ) ( X (
t
)
) f X (
t +l
)
J
图 3 . 4 带输入 的循环机制
F g
i . 3 . 4 L o o p m e c h an i s mw i t h n p u t
i
如公式 ( 3 . 4 ) 表述上述 循环 结 构
:
h
{
t
)
=
f {
h
(
t
-
\
)
,
x
(
t
)
\
9
) (
3 . 4)
其中 , 0 表示 网 络参数 ,
/ 〇 表示 t anh 激活 函 数 ,
表示 当 前 隐藏层 的 输 出 , 当 前 隐藏
层 的 输入为 前
一
刻有关
。
的相 关性 ,
而 没有 必 要 保 存 所有 输入序 列 的 所有 信 息 , 仅 仅 保 存 能 够表达 当 前 隐 藏层 的
状态 的序列部分信 息 即 可
。
3 . 1 . 2 循环神 经 网络结构
, ,
的 参数 。 而 循 环 网 络 的 特殊 之 处 ,
可 以把参数共享 引 入到时 间序列 中 ,
在整个循环神经
, ,
。 ,
,
输 出 值和 输入序 列 ,
其 中 网 络 中 间 状态 , 也 就是状态输 出 值会按 照 时 间 进行 传递 ,
形成
循环 网络
。
如图 3 . 5 所示 循环 神经 网 络结 构是指将输入
, x 映射 到 输 出 值 〇 的 对应序列 。 其中
,
〇 (
t
) 为 隐藏层 的输 出 h (
t
)
经过线性变换后 的输 出 ,
再经过 S o ft m ax 多 分类器 ,
预测序列
。 , ,
有关 , 和 当 前 时 刻 之 后 的 信 息 无关 。 通过 最 小 化损 失 函 数 ,
不断的训练网络 , 使得到 的
3
-
-
1
东 北 大 学 硕 士 学 位 论 文 第 3 章 各 段行 为 特征 的 上下 文 关 系 学 习
更好 的效果
。
(
V
^)
(^
y Qy ^y
(
Q ^ 0 Q Q
(
X
) r X (
t
-
l )
J ( X (
t )
J ^
X (
t +l
)
J
图 3 . 5 循环神经 网络结 构
F i
g . 3 . 5 Cyc l i
cn e u ra l n e tw o r k st r uc t u r e
循 环神 经 网 络有 着 很 重 要 的 性 质 首先 每 时 刻都有状态输 出 值 隐藏 单 元之 间
一
。 , ,
; , ,
间 存在环路连接 ; 最后 ,
隐 藏单 元之 间 存 在 循环连接 , 但循环 网 络读取 整 个序列 后 产 生
单 个输 出 。
将 上 述循环 神 经 网 络结 构 转述 为 公 式 ( 3 . 5 )
:
屮 =
W " + W +
6
- ?
, JC
〇
2 l
) ( ) (
/z 7 =
t a nh a /
( ) ( ( ) )
〇 {
t
)
=
v
-
/z
(
/
)
+ c (
)
j
) ’
二
仍声 m a x 0 /
( )
( ( ) )
其中 ,
参数偏置 向量 b 和 c 、
权重矩 阵 w 、 u 和 v ,
分别 对应于 输入到状态 、 状态 到 状态
和 状态 到 输 出 的 连接 循环 神 经 网 络将 个输入序 列 映射 到 固 定 长度 的 带有上下 文信 息
一
的输出 序列
。
3 . 1 . 3 循环神 经网 络 的前 向传播
但 是基本 原 理基本 相 似 。
本文 以经典 的 R NN 结构为例 , 介绍 循环神 经 网 络 的 前 向 传播
和 数学推 导
。
3 2
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上下 文 关 系 学
习
表达 式为
:
(
3 - 6)
将 R NN 内 部神 经元结 构 展开 , 其中
:
( 1 ) x ( t ) 表示在序 列 时 刻 时 训 练样 本 的 输入 t
;
( 2 ) h ( t ) 表示在 序 列 时 刻 时 的 模 型 隐藏状态输 出 量 t
;
( 3 ) 0 (
t
) 表示序 列 时 刻 t 时 的模型输 出 , 0 ( t) 只 由 当 前 状 态 量 h ( t) 决 定
;
( 4 )
y ( t ) 表示序 列 时 刻 t 时模 型训 练样 本 的真 实 标签
;
( 5 ) L ( t) 表示 序列 时 刻 t 时 的损失 函 数
;
由 此 可 得 循 环 神 经 网 络 的 前 向 传播 算 法
:
对于任意序列 时刻 t , 隐 藏层 状 态 值 h (
t
) 可 由x (
t
) 和h (
t
-
1
) 得到
:
* *
+ x(t +b
f^w
=
h h u 7)
-
t t \ 3 .
{ ) (
)
( ) ^
其中 为 R NN 的 激活 函 数 般为 激活 函 数
一
f
( 〇 , ta nh
。
参考公式 ( 3 . 6 ) 的 循环 神 经 网 络 的 结 构 表达 式 , 序列 时刻 t 的模型输 出 0 ( 〇 表达 式
求解为
:
*
〇
(
/
)
=
v /z
(
f
)
+ c
(
3 .
8)
在序列 时刻 t 时 得 到 的 预测 输 出 为
:
y f
{ )
=
so
f msx 〇
i .
{ {
t
)^ (
3 . 9)
3 . 1 . 4 循环神 经 网 络 的 后 向传播
轮轮 的梯度 下 降 算法迭代 ,
获 取合 适 的 R NN 模 型 参数值 ,
即 u 、 w 、 v、 b 、 c , 因 为它是
基于 时 间 的反 向 传播 , 所 以 循环 神 经 网 络 的 反 向 传 播 也 称 为 B P TT 。 这里 的 B PTT 和传
播 中 我们 更新 的 是相 同 的 参数
。
由 上述 公式 ( 3 . 5 ) 和 公式 ( 3 . 6 ) 所得 ,
输出层的 v 和 c 的 梯度计 算较为简 单
:
S〇
SL
=
^
SL {
t
)
= {
t
)
=
/
_
y /
) (
V 3 1 0)
Sc S c
.
( ) ( )
X
t
Sc T
33
-
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上下 文 关 系 学
习
, ,
t
w
一
。
t
t , 。 ,
列时刻 t 的 隐 藏状态梯 度为
:
T
C
"
(
r
)
=
斗
卿
)
(
3 - 1 2
)
阵构造 函 数
:
8L
S〇 (
t
) 5L S 〇 {
t
)
S〇
?
^^ (
(
t
) Sh
(
t
) S〇 S (
t
)
h
(
t
)
T 2
V diag { \ +
■
〇 = ■ -
+ ■
a + -
h 3 4)
y y w
? t t t \ t 1 . 1
{ { ) ) ( ( ( ) ) (
( ) ( ) ) )
对于序列时刻 t
=
T ,
即 最终 时 刻 , a ( T) 后 没有 序 列 连接 ,
因 此有
:
冲
為識
= ?
=
3 . 1 5
) (
)
dw ^ 5 h {
t
)
^ d w
=
Z^
/
=
1
1
-
( K t + !
))
2
)
-
^
( 0
?
( K { + l
)
Y (
3 . 1 6)
) 2 r
—
= '
=
di a g ( l -
h t + l
-
< j t
-
h t + l 3 1 7)
j
(
.
( )) ) ( ( )) (
各汾
( )
(
,
)
^
^誓 ” 冲
2
= =
_
?
?
3 8
f
. 1
) ) (
)
1
客
以 上 总 结 了 R NN 的 反 向 传 播 算 法 ,
后 续循环神 经 网 络 改进 结 构 中 与 R NN 结构有所
不同 但 是反 向 传 播 原 理基本 致
一
,
。
3 . 1 . 5 循环神经 网 络 中 的 梯 度消 失
,
度消 失的 问 题 , 当 序列越长 , 问 题越严重 。
循环 神 经 网 络 的 求解采用 B P TT 算法实现
,
然而使用 B P TT 算 法 学 习 的 循环 神 经 网 络 并 不 能成 功捕 捉 到长距 离 的 依 赖关 系 由 。 B P TT
的 链式法则 和 公式 可知 序列 时刻 的 隐 藏 层 状态 量 a 对第 时刻 的 隐藏层 状
一
( 3 5 . ) , t
(
t
)
态量a (
l
) 的偏导
:
M0 坤 坤
-
) 〇
.
^ n i g
3^
(
l
) da {
t
-
\
)
da ( t
-
2
) 3a
(
l
)
34
-
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段 行 为 特征 的 上 下 文 关 系 学
习
/j
=
ta nh ( 3 . 1 9 ) , t
(
t
)
时 刻 的 隐 藏 层 状态 量 a (
t
-
1
) 的偏导
:
载誠 +斗 "
_
“
4%
= ■
=
)]
,
1 1 / \ 1 I n f
n
a
'
nh a
'
w nh w ta
-
* - -
ta
-
l /
/ l
( ) (
)
, , , (
3 . 2 0)
'
=
-
|
,
n l / \ nn / 1 n \
'
w anh la w an h a
- * * * -
t /
t / l l
( ) (
)
其中 n 为 隐藏层 单 元 的 个数 , 对 应 的n * n 矩阵 , 称为雅各 比矩 阵
。
9a(t
—
1)
由 于 预 测 的 误 差 是沿着 神 经 网 络 的 每 层反 向 传播 的 因 此 当 雅各 比 矩 阵 的 最 大特
一
征值 大于 1 时 随 着 距 离 输 出 越来 越 远 每 层 的 梯 度 大 小 会 呈 指 数 增 长 导 致 梯 度 爆 炸
, , ,
;
对于 般的前馈网络 梯 度 消 失 意 味 着 无 法 通 过 加 深 网 络层 次 来 改 善 神 经 网 络 的 预 测 效
一
环 神 经 网 络 模 型 很 难 学 习 到 输入 序 列 中 的 长距 离 依 赖 关 系
。
对 于 梯 度 爆 炸 问 题 可 以 通 过 梯 度裁 剪 来 缓 解 , 当 梯 度 的 范 式 表达 大于 给 定 值 时 ,
对
题 ,
使得 梯 度 消 失 问 题 需 要 从模型 本 身进行 改进 。 对于 前馈 网 络来说 , 可 以 通过残差学
神 经 网 络来说 , 有 很 多 改 进 的 模 型 来 缓 解梯 度 消 失 的 问 题
。
3 2
. 基于 B i
-
L S TM 的上下文关系学 习
长短期记忆神 经 网 络 ( L o n g S h or t T erm M em o ry ,
L S TM ) 是循环神 经 网 络 中 最 知 名
。
,
学 习 能力 有 限 在 实 际应用 中 的 效果往往 达不 到 预期 效 果 针对 _ 存 在 的 这 些
,
。 问 题
,
忆 ,
从而有选择 的 学 习 前面序 列 信 息 , 减少循环神 经 网 络 的 学 习 难度 。
如图 3 . 6 所示
,
3 5
-
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上下 文 关 系 学
习
L S T M ( B i
-
L S TM ) 学 习 各段动 作 特征 前 后 文关 系 ,
输 出 层还原特征序 列 ,
最 后 经过平
均 融合方法得 到 行 为特征
。
B i L STM 训 练
?
i a?
( ( )
—
? 各连续 帧 特征提取
^
? 行 为识 别结 果 分 类
? 准 确 率 统计
图 3 . 6 基于 B i
-
LS TM 上 下 文关系模型框架 图
F g i .
3 . 6 B as e d o n B i
-
L S T Mc o n t e xt m o d e l d a r am
i
g
3 . 2 . 1 L S T M 的 结构
, 。
造 出 长短时记忆神经 网 络 L S TM ,
这种 网 络可 以 学 习 序 列 数据 中 长 期 依赖关系 , 用 来缓
解 R NN 的梯度消 失 问 题
。
。 3 . 7 , ta nh
。
@ Q
t t t
^ —
r _
4
^ W
j 、
J
J
@ 0 ?
图 3 . 7 标准 RNN 结构 中 复用 的 模块
F i
g
. 3 . 7 M o d u e s m u l l t i
p
l e x e d nastan d ar dR
i NN s t ru ct ure
L S TM 也 是基于 这样 的 基础 ,
但是复用 的模块结构 却 不尽相 同 。 与传统的 _ 中 的
简单 t a nh 激活 函 数 的 神经单 元相 比 。
如图 3 . 8 所示 , LSTM 的 祌 经单 元拥 有 四 个神 经单
元结构 ,
他们 之 间 存在 着 相 互作 用 的 逻辑关系
。
36
-
-
东 北 大学硕士 学 位 论 文 第 3 章 各段行 为 特征的 上下 文 关 系 学 习
? ? ?
/
 ̄  ̄ *
S
Y t
^
r \
^
t
v
A
i ML / x
J
A
y
.
1 1
1
0 @ (
x
j
)
1
图 3 . 8 标准 L S TM 结 构 中 复用 的模块
F g 3 8M u
i . . l t i
p exe
l d m o d u e s n a s t a n d ar d L S T
l i Ms tr u c t u re
顶部 通过 单 元 中 间 的 三个 门 结 构 控 制 信 息 的 删 除 和 更 新 每 个 LS TM 包含三个
一
。 ce l l ,
门 结构 ,
分别 是输入 门 、 遗忘 门和输出 门 。 和传统的循环 网 络相 比 , L STM 仍然 是基于
/l
t t d ,
, 、
步
忆单元
。
如图
一
“
。 3 . 9 ,
t
_
; !
,
s i
gm o d i , 0 1 , 0
忘 , 1
代表完全保 留 ,
并且当输入较大或者较小 时 ,
输 出 会非常接近 1 或者 0 ,
从而保
证 门 开或者 门 关
。
图 3 . 9 遗忘 门 结构
F g 3 9 F o rg o t e n g a t e s t r u c t u
i . . r
e
表达式如 下 , 其中a (
_
) 表示 门 控 函 数 , 即 si
gm o d i
激活 函 数 ,
■
和…分别 表示遗忘 门 的
权重 矩 阵 和 偏置
:
3 . 2 1
(
)
3 7
-
-
东 北 大 学 硕士 学位论 文 第 3 章 各段行 为 特征 的 上下 文 关 系 学
习
ce l l , 。 3 . 1
0
所示 首先 激活 函 数 建立 的 输入 门 决 定 要 留 下 哪 些信 息
”
同时
“
, ,
利用 si
gm o d i , ,
由 ta nh
合 , 形成新 的 单 元状态
。
i
h  ̄
i ^
X |
I
图 3 . 1 0 输入 门 结构
F g i . 3 . 1 0 n I
p u t g at e s t r u c t u r e
输 入 门 对 应 的 表达 式 如 下 其中 和 匕 分 别 表不 输入 门 的 权重矩 阵 和 偏 置 而C
“ ”
, , ,
t
表示 ce l l
单元的状态值
:
=
fT w
V +
-
i
^ ^
.
, (
,
[ 1
3
]
)
C =
ta nh
(
w
c
-
[
/2
/
_
1
,
x
J
+ Z?
£
.
) (
3 . 22
)
ce l l s
gmo d
。 , i i
其次 使用 激 活 函 数 非 线 性 表达 单元 的 状态值C 最后 将激活 后 的 状
”
出 门 , , ta nh cel l t
,
“
_
辛 1
^
图 3 . ] ] 输出 门结构
F g 3 i . . 1 1 Ou t
p
u t g at e s t r u c t u r e
在行为 识 别例子 中 ,
输出 门 可 以控制输 出 , 由 于本文 用 到 的神经 网络模型 中 存储 的
, , ,
层 的输入 。
输 出 门 的 表达式如 下 ,
其中 ,
&表示最后 的 隐藏层 的 输 出
:
32 3
(
)
h
t
—
o
t
-
t an h
(
C ;
)
3 8
-
-
东 北 大 学 硕 士 学位论 文 第 3 章 各段行 为 特征 的 上 下 文 关 系 学 习
由 上 述 L S TM 各部分结构可得 在 个训 练好 的 网 络 中 当 输入 中 的 序 列 没有重要
一
, ,
信息时
“ ” “
, L S TM 1 , 0 ,
输入 门 的 值 依 旧 接近于 而 遗忘 门 的 值 接近于
如
“ ”
味 着 之 前 的 记忆 不 再 重 要 时
“ ”
, 1 , 0 ,
学 习 到 序 列 之 间 的长期 依赖
。
3 . 2 2B i
.
-
L S T M的 建 立
长短 时 记 忆神 经 网 络 的 建立 有 很 多 方 式 , 并 且 不 同 的 变种 结 构 在 不 同 的 场 景 应 用 都
。 , 3 、
藏层输 出 和前
一
零 向 量初始化
。
自 ,
赖于 之后 的 行为状态 。 然而 ,
传统的 L S TM 在 时序上处理序列 , 往往 忽 略 了 未来 的 上 下
。 n , n
将 参 数集 中 在输 入信 息 上 ,
导 致对 于 不 同 输入 信 息 的 预测 向 量联 合 的 拟 合 能 力 下 降 。
所
以 , 这种 改进 不 适 合深 度 网 络 的 使 用
。
采用 双 向 L S T M ( B i di r e c t i o nal L S T M , B i
-
L S TM ) 的 连接结 构 可 以 考虑 到 双 向 信 息
序 列 处理 , 且两个 网 络并 行计 算 ,
相 互不 受影响 。 相 比 于 在 输 入层 加 入 未 来 信 息 的 改 进
方法 , B i
-
L S TM 有更好 的拟合效果 , 且适用 于长 时序 列 。 B i
-
L STM 相对于 L S TM 的主
要 不 同 是训 练前 向 和 后 向 两个 L S TM 网络 而 且 两 个 网 络 都 分 别 连接 个输 出 层 这个
一
, ,
结 构提供给输 出 层 输入序 列 中 每 个时 刻 的 完整 的 过去 和 未来 的 上 下 文 信 息
一
。
对 于连续 帧来说 ,
每
一
个视频 分段都表示着
一
个连续 动 作 的 不 同 动 作 片 段 。 因此
,
, ,
时 刻 网 络模 型 处 理 的 最 小 单 元 。 由 此可得 , B i
-
L S TM 网 络 前 后 向 学 习 的 特 征 适 合人 体 行
为识 别 任务
。
39
-
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段 行 为 特征 的 上 下 文 关 系 学
习
3 . 1 2 , ,
, , t
后向 LS TM 共同作用 的结果
。
〇u tpu t Laye r
Z Q ( l
t
^ ^
ja
H d d e n L a y e r V V;
i
V J V5 V5
\^ \
I n pu t L a ye r
…
^)
)
_
图 3 . ] 2B i
-
LS TM 模型示意 图
F i
g . 3 . 1 2B i
-
L S T Mm o d e l d i agram
, ,
个反 向 L STM 的 传递过程 ,
分别 对 文 本进行 由 前 向 后 和 由 后 向 前 的 处理 。
输 出 层 接 受这
, ,
最终结 果输 入到 神 经 网 络模 型 的 S of
t m ax 分类器 中
。
3 2 3
. .
层级 Drop ou t 算法
D ro p o u
一
t ,
。
。 i ng ,
t
络 的训 练与评测
。
具体实现 中 某 个 神 经 元节 点 的 激 活 值 需 要 以 概率 p 被 丢 弃 保留下来的
“ ”
Dropou t , ,
神 经元节 点 值 , 被 同 概 率 放大 ,
如图 3 . 1 3 所示 。 对于包含 N 个神 经元节 点 的 网 络 ,
可
W
以 将 其 视 为 Dr
opou 作 用 下 的 2 个模 型 的集成 t 。 这些模型是原始网络的子网络 ,
共享部
分权值 ,
并且具有相 同 的 网络层数 , 重要 的 是 , 模 型 整体 的 参数数 目 不变 , 因 此简化 了
运算
。
40
-
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上 下 文 关 系 学
习
图 3 . 1 3 D ro p o u t 不意
图
F i
g . 3 . 1 3 D ro p o u ts c h e m at c
i
,
,
可 以 减 弱 全体神 经 元之 间 的 联合适 应性 ,
降低过度拟合风险 , 增 强泛化能 力 。 但是在序
, 。
比较成功 的 改进 D ro po u t
算法被提 了 出 来 , 包括 自 适应 舍 弃 元和 循环 舍弃 元等等 ,
但是
这些 改进 Dr
o po u t
算法都 不 能很 好 的 应用 于 人 体行为识别 和 自 然语言处理等序列模型领
域 这是 因 为在 时 间 的影响 下 由 于
, , D rop o u t
舍弃 的 单元参与 循环 神经 网 络 的循环链接
,
在 R NN 和 LSTM 的 聚合作用 下 ,
序 列 信 息 会随 着循环 步 的进 行 逐渐丢 失 。 由 此产 生 了
, t ,
t
非循环部分 这样 做有两个好 处 第 可 以 有 效避 免序 列 噪 声 随着 时 间 序列 逐 步增 大 的
一
。 ,
问 题 ,
第二 , 可 以使得 D ro p o ut 造成 的 信 息损 失与 时 间 序 列 长 度无关 , 只 与 网 络层 数有
关
。
循环神经 网络 中 常使用 三种 D ro p o u t 方法 :
传统 D ro po u t 方式 、
循环 D ropo u t 方式和
层级 D rop o u t 方式 。 其中 ,
如图 3 . 1 4 所示 ,
传统的 D rop o u t 即在 B i
-
LS TM 的 输入层 前
和输 出 层后加入 D ro p o u t 操作 ; 如图 3 ,
1 5 所示 ,
循环 D ro p o u t 是指在每个 LS TM 的 隐含
t , ; 3 . 1 6 ,
t t ,
入
。
Y 〇 4 Y V9
l
|
|
Dr o po u t
L
j
M
f
圍
^ ???
— '
]
1
xo X I X9
图 3 . 1 4 循环 D ro p o u t 方法
F g 3 i . . 1 4L o o
p
i n
g
D ropou t m et h od
4
-
-
1
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上 下 文 关 系 学
习
n
r u
)
:
t
模型
i
lStM
1 | |
li ^l
5
C r
I ! :
!
m
I i
V IV
i
图 3 . 1 5 传统 D ropo u t 方法
F i
g . 3 . 1 5T r a d i t i ona l D ro p o u t m eth o d
I 层级 Dr op ou t 和 多 层 LS T M 模 型
|
i ? ? ?
i
? i ? ? ?
識 _
? ? ? ?
!
!
图 3 . 1 6 层级 Dro p o u t 方法
F 3 6H e r ar c h ca D r o p o ut m e t h o d
i
g . . 1 i i l
3 3
. B i
-
L S TM 效果分析
人 体 行 为 识 别 任 务属 于 序 列 问 题 ,
当 前时刻 的输 出 结果受到 前 后时刻特征 的影 响
。
如图 3 . 1 7 所示 ,
本章 首先将 UCF 1 0 1 的 1 0 1
种类别标签转 化为 0 到 1 00 之 间 的 数字编
码 ,
然后使用 3 D 卷积神 经 网 络在第 五层池化层提取4 * 4 特征 图 后 ,
将特征 图加权融合
, i , ,
步提高准确 率 。 之所 以 不 使 用 全连接 层 向 量 , 因 为 高 维 度 的 计 算 问 题 和 全 连接 层 重 复信
息较多 ,
所 以使用 特征 图平均融合的方式
。
42
-
-
东 北 大学硕士 学 位 论 文 第 3 章 各段 行 为 特征 的 上 下 文 关 系 学
习
连 续 帧 图 片 输 入 4*4* 5 1 2 # g T图 输 出
|
:
I
I
W
國
\
i
1
丨
丨 卜 '
'
丨
门
n ,
;
i 5 3 M ? *
 ̄
^
I
上
xr m
 ̄  ̄  ̄
厂" !
i i
□ X ■
!
i
5
? I
, -
.
/
!
!
! !
( — —
1
|
?
7
?
Z |
/ i i Nk
'
!
/ _
?
i
i
; ;
r
!
! % m !
|
|
*
!
4 *4 *5 1 2 特 征 图 输 出
B LS TM W络
- —
r , i
—
i i ?i h 特征 图 向 量 I
1
|
i
平均融合 I
i
0
^
Sof t ma x > g
 ̄  ̄
? I
^
i
丨
B|
,
l
" !
Fi
i
!
? ?
;
1 ? '
;
i ? ?
) ?
t I
:
/
? ?
?
丨
|
?
.
i
: ! 丨
, ;
;
? ,
 ̄
0
1
I
00 2 2
! / !
1 .
丨 #
千
,
|
_
'
^
j i
| 釅 l 」 彳
_ :
」
图 3 . 1 7 C3 D+ B i
-
LSTM 实验路线图
F i
g . 3 . 1 7 C3 D+ B i
-
L S T Me xp e r m e n a i t l ro a d m ap
训 练得 到 的 模型参 数 ,
作 为本章 系 统 的编码层部 分 的 参数初始化 ,
提高模型 收敛速度
。
试框架 ,
其中 3 D 卷积神经 网络 D r o p o ut 率为 0 . 5 , L S T M 不使用 D ro po u t 。 对 比 实验使
, ,
止 的 方式得到最优模 型 ,
学习 率使用 离散下 降 的 方式减少震 荡 ,
在 网络梯度 下 降优化方
4 3
-
-
东 北 大学硕士 学 位 论 文 第 3 章 各段 行 为 特征 的 上 下 文 关 系 学
习
法和 正 则 化方法 以 及 正 则 化 系 数相 同 的 情 况 下 ,
如表 3 . 1 所示 ,
得到 L S TM 为 各个层 数
的准 确 率结果
:
表 3 . 1 不 同 层 数对准 确 率 的 影 响
T ab l e3 . 1 T h e e ffe c t o f d ffe r e n t a y e r s o n a c c u r a c
i l
y
层 数 1 2 3 4 5
6
准确 率 ( % 83 ) . 6 8 1 . 3 85 . 9 8 6 8 1 . 4 79 8
.
从表 3 . 1 中 可 以看出 ,
深层 次 的 L S TM 对于 人体行 为 识 别 任务没有太 多 的 提升 ,
反
加深 ,
算法达 到 收敛 的 时 间 也不 断 增 大 ,
综合 以 上考虑 , 选择 三 层 L S TM 对模型综合 的
效果更好
。
神经 网 络 的 层数确定 以 后 ,
如表 3 . 2 所示 ,
首 先验证 B i
-
L S TM 相对于 LSTM 的 效果
如何 ,
本 文 中 使用 UCF 1 0 1
和 HM D B 5 1 共 同 测 试两种 模 型性 能 。 该 对 比 试 验采 用 相 同
用相同的归 化方式
一
。
表 3 . 2 L S T M 和 B i
-
L S TM 效 果对 比 ( 准确 率 , %
)
T ab l e3 . 2 L S T M an d B i
-
L S TMre s u l t com
p ar i s o n ( a c c u ra c y % )
数 据 集 C 3 D 平 均 融 合 C 3 D + L S T M C 3 D + B i
-
L STM
UCF 1 0 1 82 . 7 85 . 9 86 .
8
H MD B 5 5 4 1 . 2 55 . 6 5 7 5
.
两个模型 的 效 果 。
从结果上来看 , 双向 L S TM 在人体行 为识别方面 , 确实 比单 向 L S TM
有 更好 的 效果 而 且 , B i
-
LSTM 中 每个 LS TM 模 型是 并 行计算 其 训 练耗 时和 单层 , L S TM
相 差无几 。
本 文在 以 下 实验 中 将 以 B i
-
L S TM 为基础 ,
进 行后 续对 比 验证实验
。
由 以 上验证实验 , 本文确 定 了 使 用 B i
-
L S TM 结 构 作 为 本文系 统序 列 模 型 学 习 视频特
, 。
,
, ,
维度 的 2 倍 。 本 次对 比 实验 , 如表 3 . 3 所示 ,
在 UCF 1 0 1 数据集 中 ,
不 同 隐含层 神经元
维度对 算 法准 确 率 的 影 响
。
44
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征的 上下 文 关 系 学 习
维度 的 2 倍 。 本 次对 比 实验 , 如表 3 . 3 所示 , 在 UC F 1 0 1 数据 集 中 , 不 同 隐含层 神 经 元
维度对算法准确 率 的 影 响
。
表 3 . 3 不 同 维度 的 网 络效果
Tab l e3 . 3 N e tw or k e ffe c t s i n d ffe r e n t d m e n s o n s
i i
i
神 经 元 维 度 运 行 时 间 ( h ) 准确率 ( %
)
1 2 8 2 5 0 . 76 .
1
2 5 6 2 5 . 0 7 3 .
5
5 1 2 26 3 . 82 .
0
1 0 2 4 2 7 7 8 4 4
. .
2048 29 0 . 86 .
8
4096 3 2 . 5 85 .
2
由 表 3 . 3 可得 , 神 经元维度 在 2 04 8 左右 ,
效果最好 。 因此 ,
本文选择 204 8 作 为神
l oss 曲 线 震 荡 且 不 收敛情 况 。
本文将第 2 章的 3 D 卷积神经 网 络训 练得到 的 参数值作 为
该 系 统 的 初始值 , 极 大提 高 了 收敛速度
。
象 ; 当 D ro
pou
t , , l oss 曲线
不 收敛或者欠拟合 。 下 面将根据 3 D 卷 积 神 经 网 络 +B i
-
L STM 模型 , 从不 同 Dr
o p o ut
方
如表 3 . 4 所不 ,
本文选择传统 Drop ou t 、 循环 D ro p o u t 和层级 D ro p o u 三 种 方 法 进 行
t
对 比 实验 ,
其中 D rop o u t 率选择均 为 各 方法 中 性 能 表 现 最好 的 值
。
表 3 . 4 不同 D ro p o u t 方法对模 型影响
Tab e3 4D ffe r e n tD ro o u t m e t h o d s a ffe c t h e m o d e t
p
l . i
l
传 统+层 级
模 型 性 能 传 统 D ro p o u t 循 环 D ro po u t 层 级 D r o p o u t
D ro p o u
t
运行时 间 ( h ) 27 . 9 2 6 5 2 6 2 2 5 0
. . .
验证集 l os s 1 8 70 . 2 1 . 1 3 1 8 . 3 0 2 0 0 .
1
4 5
-
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征的 上下 文 关 系 学 习
由 表 3 . 4 可知 , 层级 D r o p o ut 方 式 最 适合 人 体行 为 识 别 任 务 ,
不仅准 确 率有所提高
,
。 o po u t , ,
, 。 D ro po u t
式 在 模型 训 练过程 中 ,
具有 加 速 收敛 易 于迭代 的 优 点 。 下图 3 . 1 8 所示为三种 Dr
opou t
相
应 的 损 失 函 数 下 降 曲 线对 比
:
—一
层次D r o po u t ■ ■
传统D r o p o u t
.
循环 D
r o po u
t
300
250
,
9
15 0
\\
\
—
— '
-
WMWWTWr
〇
T r f r
0 1 2 3 4 5 6
迭代次数 ( 10 K
)
图 3 . 1 8 三种 D ro
po
ut 损失函数曲线图
F 8 T h re e D r o o s s fu n c t o n g r a p h s
po u
3 l
i
g .
. 1 t i
t t ,
本文对层 次 D ro
p o ut 的 几种 D ropo u t
率进 行 比 较 ,
得到表 3 . 5 结果
:
表 3 . 5 不同 D r o p o ut 对结 果影响
Tab l e3 . 5 D i ffe r e n t D r o p o u t e ffe c t s o n r e s u l t
s
D ro p o u t 率 运 行 时 间 ( h ) 准确 率 (
°
/。
)
0 . 1 29 . 0 84 .
8
0 3 2 8
. 86 4
.
0 . 5 26 2 .
8 7 .
2
0 7 2
. 5 . 5 8 5 .
7
0 9 2 4
. 83 .
1
入层次 Dr
o po ut 算法在 识 别准 确 率 和 收敛速度方面都有不错 的 提高 。 本章最终确定 以
D rop o u t
率为 0 5
.
的层次 D r o po u t
作为 B i
-
LS T M 的 正 则 化方式最适合本 系 统 的 人体 行 为
4 6
-
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各段行 为 特征 的 上下 文 关 系 学 习
识别任务 , 其中 B i
-
LS TM 网 络 层为三层 , 隐 含层 单 元 维度 为 2 04 8 , 以 3 D 卷积神经 网
络最后 层 卷积 层 的 平均 融 合特 征 向 量作 为 序 列 模 型 输 入 完 成 各子 段 动 作 特征 向 量 的
一
上下文关系学习 , 提 高识 别 准确 率
。
b atc hj oss
2 00 '
1 80
M
-
60
三
SC O
L
60 0
!
^C 0 Y^ I
2 D 0
o co
e o cc i
c oo
a ic oook s o xo 4 〇 i oc o k so o oo k
eo oo oi
ba t c h
joss
1
00
'
90 0
|
8 0 C
60 0
\
E
zo o
V
 ̄
i n n
—
〇 〇C 广 :
n
.
C O CO 5 XC k 1
0 O OC k :
图 3 . 20 加 入层 次 D r opout 的损 失函 数收敛 曲 线
F 2 0T h ec o n v e r ht h eh a rc h c a D o p o u t
g
3
g e n c e c u rv e o f h e o s s fu n c t o nw t e r r
i . . t l i i i i l
3 . 4 小结
部分介绍 了 改进 的 循环祌经 M络 ,
长
LSTM ) ; 第三部分对
。 ,
经 网 络学 习 人体行为上下 文关系 ,
并获得 了 出 色表现 。 由 于传统循环 网 络存在 梯度 消 失
47
-
-
东 北 大 学 硕 士 学 位 论 文 第 3 章 各 段 行 为 特征 的 上 下 文 关 系 学
习
都有 关 系 所 以 本 文 采用 , B i
-
B i
-
LSTM 在 人体 行为 识 别 上 的 表现 确 实优 于 单 向 的 L S TM 。 最 后 通过对循 环神 经 网 络 中
的 层数 、 隐含层维度 、 D ro p o u t 率等参数进行控制 变量 的 对 比 实 验 确 定 了 以 三层 网 络 ,
、
输 出 维度为 2 04 8 、 层次 D r o p o ut 率为 0 5
.
为组合 的 最佳参数 , 并获得 了 很好 的效果
。
48
-
-
东 北 大 学 硕 士 学 位 论 文 第 4 章 融合 注 意 力 机制 的 人体行 为 识 别
注 意 力 机制 A M e c h an 是 种 模 拟 人脑 的 机制 研 究发现 人脑在工
一
( tt e nt i o n i s m ) 。 ,
。 , 。
, ,
, ,
提 出 正 是模仿 了 大脑这 种 特性 。 本 文将 注 意 力 机 制 用 于 图 像 显 著 性表 达 中 ,
使得 图 像中
关 于人体行 为 区 域在 网 络 中 的 权重 更 大 结合 前 两 章 的 方法 进 步提高行为识 别准 确
一
, ,
率 。 通过 相 关对 比 实验 ,
分 析该算法 的 性能优点 。 在本章 的最后 ,
将讨论几种常用 的深
度 学 习 框架 ,
并选择适合本 文 的 框架
。
4 . 1 注意 力 机制 算 法
4 . 1 . 1 注意力机制 简介
注 意 力 机制 在机器 翻 译 中 得到 广泛应 用 ,
利 用 编码 解码 模 型 -
,
使用 注 意 力 机制 解决
。 ,
间 融合 作 为 输入 ,
使得有意 义 的 局 部 区 域特征 无法发挥作 用 。 利用 注意 力 机制 ,
通过前
, , ,
的 图 像 区 域权重值 偏 大 ,
将像 素特 征 向 量加 权平均 ,
使 得 图 像 人体 行为 局 部 区 域得到 显
, ,
间 部分重要性提高 ,
而 减小 背 景之 类无用 信 息 的干扰
。
图 4 . 1
注 意 力 机制 的应用 示例
F i
g
. 4 .
1 E x a m l
p
e s o f a tt e n
t i o nm e c h a n i s m
s
49
-
-
东 北 大学硕士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体 行 为 识 别
4 . 1 . 2 注 意 力 机制 的 结构 原 王
里
人类视 网 膜 不 同 部 位对 不 同 信 息 接 受和 处 理 的 敏 锐 度 不 同 ,
为 了 最 大化利 用 有 限 的
视觉信 息处 理 资 源 ,
需 要 选 择视觉 区 域特 定 部 分 ,
集 中 关注它 。 注意 力 机制 主要有 两个
作用 : ( 1 ) 决定 需要关注输入 的 哪些部 分 ;
( 2 ) 合理分配有 限 资源给重要 的 部位
。
注 意 力 机 制 可 以 理 解 为 从 大 量 信 息 中 有 选择 的 筛 选 出 固 定 量 信 息 ,
并按重要性进行
。 4 2 . , S o ur c e ,
环神经 网络 中 某个时刻 的输 出 序列 Q ue r
y , 通过计算 Q uery 和 各 个 K ey 的 相 关 性 ,
得到
合后 特征 。 聚 焦 重 要 信 息 的 过程表 现在 每 个 像 素 的 权重 计 算 上 面 ,
权重 越 大越 聚 焦 在 对
应 的特征 向 量 Va l ue 上 , 也就是说 ,
权重 代 表 了 信 息重要 性
。
1
I
Ke y l K e y 2 Ke y 3 K e y4
U
At 〇n
ff
Qu e r y
i
!
V a l ue
| T T V T
|
Va Va Va
| Va l ue 1 l ue 2 l ue 3 l ue 4
!
i
J
图 4 2
.
注 意 力 机制 原 理
F 4 2M e c h a n s m so f att e n t on
g
i . . i i
:
,
。 , ,
最后 的 Va l ue 值
。
注 意 力 机制 具 体计算过程如 下 图 所示 可 分 为 三个 阶 段 第 个阶段是根据循
一
4 3 .
, :
S o ft m a x , ;
权 重 系 数对 特 征 图 的 Va l ue 进行加权求和
。
5 0
-
-
东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注 意 力 机制 的人体行 为 识 别
r
1
K ey
1 K e y 2 K e y
'
3 K e y 4
Q u e r y
J , l j , 阶 段 M
!
s i s 2 s 3 s 4
!
!
丨
i
L — —
—
_ _
I _ _ —
i
 ̄
「
^
!
S o ft m a x 归 一
化 P介 隹受 2
丨
I
;
一
士 孓 -
1
! a l a 2 a 3 a 4
'
i
^; ,
A tt e nt i on
^
|
|
i
i
i
i
Val u e l V al u e 2 V a l u e 3 V a l u e4
|
i
i
i
i
图 4 . 3 注 意 力 机制 计 算过程
F g 4
i . .
3 At t e n t o n m e c h an
i i s mc a l c u at o n p r o c e s s
l i
, ,
。
:
( 1 ) 使 用 向 量 点 积 的 方式 衡量 相 关 性
:
D s t a n ce
Qu ery Key
=
Qu ery Key
■
i
[
,
)
4 . 1
)
i t
(
( 2 ) 使 用 余 弦 相 似度 的 方 式衡 量 相 似度
:
D i s t ance
{ Q u e y Key r
,
,
)
^
為 丨 丨
(
4 2)
.
( 3 ) 使 用 前馈 网 络训 练权重系 数
:
D Qu e ry Key m p Qu e ry Key
=
i s ta n ce ,
l
, 4 3
(
{ ) ( t ) (
.
)
式 式 和式 距 离 公 式计 算 出 的 权重 不 在 同 量纲 下 需要进行
一
( 4 . 1 ) 、 ( 4 2
. ) ( 4 3 . ) ,
, 。
化 越重要 的 部分权重越 大
一
,
:
D , s
<
e
a
^ S oft m
^ D ^
—
s
)
i
T
D-
(
4 4
)
i
t e
=
k
\
, ,
序列
:
Tx
A e nt ion
Q u e ry So u r c e )
=
^ cc va l u e
?
It
(
,
j
k t
(
4 5 .
)
=
k
\
-
5
-
1
东 北 大 学 硕 士 学 位 论 文 第 4 章 融 合注 意 力 机制 的人体行 为 识 别
w i s e so f
t
at e n t i o n ) 、 基 于 输入 项 的 硬注 意 力 ( ite m w i s e h ar d at e nt i on
-
) 、 基于 位置 的 软注意 力
( l o c at i o n w i s e s o f
-
t at e n t i o n
) 、 基于 位置 的 硬注 意 力 ( l o c at i on w i s e h a rd at e nt i o n
-
) 。
基
于 项和 基于 位置 的 注 意 力 主要 区 别 在 于输 入形式不 同 , 基于 项 的 注 意 力输入是包含 明 确
设定 的 ,
所有 目 标通 过位置 确 定
。
, ,
。 ,
, ,
征
。
基 于 位置 的 注 意 力 机制 是 在 特征 图 上进 行 相 关 操作 。 基 于 位 置 的 软 注 意 力 对 整 个特
征 图进行 个变换 使 得重 点 区 域 能 够 凸 显 出 来 而基 于 位置 的 硬注 意 力 从 特征 图 中 离
一
, 。
, ,
的特征
。
每种注 意 力 机制 有 自 己 的 特 定 的 输入 和 应 用 场 合 , 这是 因 为不 同 的注意 力 机制 的 输
入和 结 构 原 理不 同 如 表 。 4 . 1 所 示 基 于 项 的 注 意 力 机 制 关 注 于 输入 序 列 间 的 特 征 分 布
,
,
阵将 特 征 图 的 重担 区 域挑选 出 来
。
表 4 . 1 注 意 力 机制 的 四 种类 型
T ab l e 4 . 1 F o ur t
yp
e s o f at e n t i o n m e c h a n i s m s
注 意 力 类 型 输 入 操 作
基 于 项 的 硬 注 意 力 项 的 序 列 离 散 选 择 些项
一
基 于 位 置 的 硬 注 意 力 特 征 图 离 散 地 选 择 子 区 域
基 于 项 的 软 注 意 力 项 的 序 列 对 所 有 项 线 性 加 权 合 并
基 于 位 置 的 软 注 意 力 特 征 图 对 输 入 进 行 变 换
, ,
力 机制 网 络可 以 和 原 始模型 起训 练 对 于 软注 意 力 注 意 力 网 络对 输 入 是 可 微 的
所
一
。 , ,
52
-
-
东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体 行 为 识 别
算 机视觉领域 ,
由 于 图 像 的 结构化 的 数据 特 点 ,
常 使用 基于项 的 注意 力 机制 作 为 图 像 显
著 性 区 域提取 的 改 进方法之
一
。
4 2
.
基于注意 力机制 的 显著性特征提取
在 图 像 特 征 提 取 的 过程 中 ,
会 发现特征 图 像素 点 越 多 ,
做 像素点特征 融合送 入 LS TM
的输入时 ,
模型 的 性能会显 著 下 降 。 而特征 图尺寸过小 ,
则 不能充分表示动作 片段 的信
息特征 。
如 何 既保 留 住 3 D 卷积神 经 网 络 中 深层特征 图 ,
又提取 出 图 像 中 显 著 性动 作 区
域特征 ,
对本文系 统 的 模型 效果有重 要影 响 , 也 是本 章 的 研 究重点
。
本文 系 统涉及到 3 D 卷积神 经 网 络 、
循环神经 网 络和注 意 力机制 。 如图 4 4
.
所示 ,
系
: ( 1 ) ,
,
每段 的 部 分模型 参数共享 ;
( 2 ) 利用 8 层 3 D 卷积 神 经 网 络提 取 各 个片 段 视频 的 时 空信
息特征 ,
各 段模 型 参 数 共享 , 3 D 卷积 网 络输 出 为 多 通道特征 图 ;
( 3 ) 利用 LSTM 模型
, ,
入序 列 计算 特征 图 每 个 像 素 点 对应 的 权重分配 ,
将特征 图 所有 像素 点 的特征 向 量加权求
和 ,
得 到特征 图 的 显 著 性特征 ;
( 4 ) 将前 向 LSTM 和后向 LSTM 的 隐 含层输 出 结 合
,
作为最后 层 全 连接 层 的 输 入 利用 注意 力 机制 学 习 每 时 刻 的 结 果序 列 的 权重
一 一
;
( 5 )
自
分布 , 加 权融 合得 到 最终 的 结 果序 列 ,
使用 Sof
t m ax 分类器得 到 最终 的 分 类结 果
。
显
M m i
-
Ls i
^
r
. _
■ …
…
1 mmj J )
;
@\ I
I
ir
^
/i j
|
|^
;
:
! :
C
^ rI X
I
纖 特征提取 \s^
^
—
;
—
J
J
— L — - J … … …
L —
厂  ̄
测 试集
 ̄
? 各连 猶特征提取 —
行为识别 结果 分 类 ? 准 确 率 统计
—
?
) !
V
[
|
图 4 4 .
基于 B i
-
L STM 和注 意 力 机制 的人体行 为识 别框 架 图
F i
g 4 4Th
. .
e fr a m e w o r ko f ac t i
o nre c o
gn i t i o nb a s e do nB i LS T M a n d a tt e n t i o nm e c han i s
m
5 3
-
-
东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体行 为 识
别
4 . 2 1 .
基于 软 注意 力 机制 的 图 像 显著性 表 达
注 意 力 机制 会 使得 模 型 把精 力 放在 权重 系 数 较大 的 像素 点 上 ,
不仅 使得模 型 更 容 易 收敛
,
而且可 以 更好 的 学 习 视频 图 像 中 真 正 的 行 为特征
。
基于 输入项 的 软注 意 力 机制 是可参数化 的 ,
即 可微 。
并且可 以 嵌入到 LSTM 的输入
层中 ,
实现端对端 的 模 型 训 练 。 梯 度计算可 以通过注 意 力 机制 模块 , 反 向 传播到模型其
他部分 。 考 虑 到这两 种 注 意 力 机制 在 其 它 领域 的 优 异表 现和 系 统 方 案 的 可 行 性 ,
本文用
到 两 种 基于 输 入 项 的 软 注 意 力 模 型 用 于 图 像 显 著 性表达 模型
5 4
: So t
f -
A tte n t i on
[ 1
、 Loc a l
-
A tte nt i o n 模型^
1
。 下 面 就 这 两 种 计 算 方 法 做 详 细 解 释
。
Sof
t on 4 5
-
ti , .
,
将每 个 像素 的 特征 向 量进 行 加 权求 和 , 整体作 为 L S TM 的 输入 。 当 前 时 刻 的 隐含层 的 输
出 又影 响 着 下 时 刻 的 输入特征 图 中 像 素 点 的 权重 系 数
一
。
y( t
)
个
h ( t)
’A
i
A t t en ti o n L a y e r
*
: C on t e x tv e c t o r
.
| 督
at
j
S o f tw e i g h ts
\
興
」
^
《J
h ( t )
■ J > > .
J -
>
I
>
|
| |
图 4 . 5 S o ft
-
A ten t i o n 示意图
F i
g 4
. . 5 S o ft -
A te n t i o ns c h e m at i
c
网 络和 Sof
t m ax 分类器得到 ,
为序 列 长度 。 公 式如 下 , C
?
i
即 为当前序列 时刻 经过 i S o ft
-
A tt e nt o n
i
融合后 的特征 向 量
。
5 4
-
-
东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机 制 的 人体 行 为识
别
ex
P
( %
)
ZL ex
p ( ^ -
) (
4 6)
_
Q ^a a i
j
X
j
其中 权重 函 数a 〇 表示 个前馈网络
一
,
:
)
a
(
K i
^
x
j )
=
v
l
t a nh
(
w
i
'
x
j
+w
2
'
h
i \
) (
4 7)
.
计算机 资 源是 有 限 的 ,
尤其 是对 图 像 的逐像素处理十分消 耗 资 源 ,
由 上述 可知 ,
使
用 S o ft
-
必要的浪费
。
S o ft
-
A tt e nt i on 模 型 虽然解 决 了 权重 问 题 ,
但是 当 像素点众多 , 权重计 算 需 要指 数运
, 。
/L o c a l
-
t i on 。 Loca l
-
tt ent i on
窗 口 内 的 Sof
t -
A tt e nt o n i
模型
。
ent o n Sof
t on 4 6
-
tt
-
l i t i 。 . ,
,
,
,
即 高斯 分布 。
最终 结 果 为窗 口 内 像 素特 征 向 量 的 加 权求 和 。 Lo c a l
-
A tt e nt o n
i
在机器 翻 译
中 应用 不是很 多 ,
但是在 图像领域有很好 的应用 效果 , 尤其是 图像描述任务 。 Loca l
-
A t t e n t i o n 的 中 心 点 求取 是该注 意 力 机制 的 重 点
、
。
y ( t
)
个
h ( t)
A t t en t i o n L ay er
-
:
! ^ C on t e x t v e ct o r
I
C
A g n e d p o s on
l i i t i
■
|
1
^
一
L oc a l w e i g h t s
—
I
:
m
( t )
_ #
r
^
M tI i i
! T T t T T T
图 4 . 6L o c a 丨
-
At t en t i
o n 示意图
F i
g 4 6
. Loca . l
-
A t t e n t i o ns c h e m a t i
c
5 5
-
-
东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体行 为识别
学 习 对齐位置是 Loca l
-
At e n ti on 的 关 键 对 齐 位 置& 是 由 前 馈 网 络 训 练 得 到 其 中
, ,
,
S 代表序 列 长度 ,
得到 窗 口 位置后 ,
根据 窗 口 大小 , 以 位置仏 为 中 心 , 左 右各扩展至 窗
口
长度 的 半
一
。
p t
=
S -
s igm o i d t an h
^
w
^
/j
,
^ (
4 8)
.
A t e nt i on
的 前馈 网 络获取 , Lo c a l
-
布 , 以p 为 中 心t
, 越靠近 中 心 点 权重 系 数越 大 。 其中 , m 为像素 点 坐标 , a 为超参数 ,
需
要经验设定
:
a x =
x -
ex
」 4 9)
p
.
.
(
( J ) j
使得 网 络 更专 注 于 和 输 出 内 容有 关 的 输入部 分 ,
本 文使用 这两 种 注 意 力 机制进 行特征 图
显 著 性表达 ,
提 髙 网 络整体效果 , 降低像素特征 计算量 ,
减少 时 间 复杂度
。
4 . 2 . 2 基 于 自 注意 力 机 制 的 结 果融 合
般 的 注意 力 机制 指 的 不 是 T ar g e t 和 之 间 的 注 意 力 机制 而是 内
部
一
S o ur c e , S o ur c e
At t e nt i o n ( 自 注 意 力 机制 )
[
5 6
他
被称为 I nt r a -
机制 学 习 各序 列 本 身 的 分布得 到 权重分 布 ,
随 机进 行加 权 融 合 , 可 以更好 的表示结 果分
布 , 最后 使 用 S of
t m ax 分类器得到 分类结 果
。
S elf -
列 模型来说 , 对于 长距 离 的 相 互依赖 的 特征 ,
需 要经过若千 时 间 步 骤信 息 累 积才能将两
A te n ti on 会解决这些 问 题 , 自 注意力
来 , 所 以 长距离 依 赖特征之 间 的 距离 被 极 大缩 短 ,
可 以 有 效地 学 习 特征分布 并利 用 这些
序 列 特征
。
Self -
A t e nt i on 机 制 的 原 理 本质 是 学 习 序 列 本 身 分布 , 得 到 各个序 列 的 权重 系 数 。
如
图 4 7
.
所示 ,
各 自 分段视频 的 结 果序 列 作 为输入 , 通过学 习 自 身 特征分布 ,
得到权重系
数 , 随 即 进行加权 融合 , 整合 的 序 列 作 为 完整视频 的 结 果序 列
。
5 6
-
-
东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体 行 为 识 别
y ( t
)
个
"
-
一
A t t en t i on L a y er
 ̄
V
j
LT
c ( t )
!
!
we i
gh t s
J
I I I I1
t t t
t
图4 . 7S e l f
-
A t t en t i o n不 意图
F i
g .
4 7S e f
. l
-
A tt en t i
o ns c h e m a t c
i
Se f
l
-
A tt e nt i on 机制 结 构 原 理较 为 简 单 ,
通过
一
个前 馈 网 络 训 练得到 各 个输入对应 的
权重值 ,
然后 经 过 Sof
t m ax 分类 器 归
一
化权重分布 。 其中 都 是待训 练 的 参 数 ,
由
此可 见 ,
自 注意 力 机制 也是可 以参 数 化进行端对端训 练
:
T
A= so
ft m a x anh w x
'
v
-
( t
a ( 0 )
)
…
C A
-
x
(
4 . 1 0 )
本文 中 使用 Se l f
-
A t t e nt o ni
机 制 代 替 平 均 融 合 方 式进 行结 果 融 合操 作 。 Se f l
-
A tt ent on
i
机制 可 以 通过前 馈 网 络 学 到 自 适应 权重 ,
对 各 个分段结果显 著 性特征提取 , 有助 于 整体
模型效果的提升
。
4 3 .
实验结果 与 分析
, 。 4 . 8 , : ,
如 下表 4 2 .
所示 ,
得到 C onv5 b 层 的 14 * 1 4 尺寸 的特征 图 ,
其 中 通道 数 为 5 1 2 ,
展开得到
1 5 1 2 , 1 96
个特征 像素 点 进行 权重 分配 ,
将每
一
时 刻 加权融合后 的 特征 向 量作 为 当 前序 列 时 刻 的输
。 ,
, Se l f
-
7
-
-
5
东 北 大学硕士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体行 为 识 别
At e n 机制 学 习 各个时刻特征 分布 得到 的 维 向 量作 为 Sof
tmax 分类器的输入
通
一
t i on , ,
过最小化交叉熵损 失 函 数 , 获得 最 终 的 分类 结 果
。
表 4 23 . D 卷积 网 络 中 Po o l 4 层参数 修改
Ta b l e4 2 . M od i f c at o n o f P o o 4
i i l l a
ye r
p
aram ete r s i n3 Dc o n v o l u t o nn e t w o rk
i
* *
P 〇 〇 4 2 1 1 4 1 4
*
5 1 2 -
2
*
1
*
1 1
*
1 4
*
1 4
*
5 1
2
I /f :
J
l
I
_
! !
a I
|
Y?
1 4 _ *5 m寺 l
t t en t i 0
^
I
1
特 征 图 显 著
、
、
%
1
1
'
、
、
i
、 !
注撤
知
.
、
;
、
|
i ^
—
| [
S o f t m ax
^^
j
n
 ̄
i
i
i
I
;
「
動叫
I
'
r
 ̄
'
?
? r \ 标签 i
概率
i
A C
h ?
m
—
:
i \
e "
i
\
〇 〇 . 〇3
i
k 一
1
震
?
/ 1
?
?
I 丨
i
i
丨
.
i
:
I
i
i
?
i m
;
1 00 ° - 22
i
W L 」
丨
1
i
i
图 4 8
.
本文系 统实验路线 图
8T h e s
ys em m
F g 4 at ce x a ro ad m ap
pe en
t r t
i . .
i i l
5 8
-
-
东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注 意 力 机制 的 人体行 为 识 别
Sof
t -
At e n ti on 机制 是对所有 像素 点 求 权 重 分布 , 而利用 L o c al -
A ten ti on 需要先确定
最佳 的 窗 口 大 小 使用 前两 章 确 定 的 超参 数和 相 同 的 优化 方法 在相 同 的 , , D ropo u t 方法
、
相同的 D rop o u t 率 、
相 同 的 正 则 化方 式和 正 则 化系 数 、 相 同 的学 习 率情况下 , 对比不同
的 窗 口 大小对结果 的影响 , 结果 如表 4 3
.
所示
:
表 4 3L o c a
. l
-
A t e nt i on 与 S of
t -
A te n ti on 对结果 的不 同影响
T ab l e 4 3 T h e d ffe r e n t e ffe c t s o f
. i Loca l
-
At t e nt i o nan d S o t A
f -
tt e n t o n o n t h e re s u
i l t
s
20 36 7 . 23 . 60 82 .
0
40 3 7 0 . 20 0 . 85 .
5
8 0 3 7 0 . 1 7 9 . 88 2
.
1 20 3 7 5 . 1 7 9 8 8 4
.
.
1 60 3 8 0 . 1 7 5 3
. 89 .
1
S of
t A te n t on 3 8 0 7 42 89
6
-
i . 1 . .
由 表 4 . 3 和第 3 章 实验 结 果 可得 , 不嵌入注 意 力 机 制 的 网 络模 型 准确 率 为 87 2. %
,
使用 Sof
t -
Aten t i on 机制 +循 环 网 络 提 取 图 像 显 著 性特征 有 更 好 的 效 果 且 时 间 损 耗 相 当 ,
。
, , ,
权重 。 有此可见 , 对于尺寸 为 14 * 1 4 的 特征 图 作 为 循环 神 经 网 络 的 输入 , 给每
一
个像素
点 分别 分配 个权重 系 数 的 注 意 力 机制 的 方式准确 率 效 果 最好
一
。
本文 最 终 系 统使 用 Se f l
-
A tt e nt i o n 学 习 输 出 序列 相 互 间 关 系 并获得相 应权重 分配 ,
使
用 加权融合 的 方式 ,
得到最终 的整体输 出 序列 ,
表 4 4 .
展 示 了S e l f
-
A tt ent i on 与 平均 融合
法对 模 型 效 果 的 影 响
:
表 4 4S e f
. l
-
y%)
Tab l e 4 4 T h e d i ffe r e n t e ffe c t s o f
.
Se f l
-
At t e nt i o n an d a v e r a g e fu s o n o n t h e r e s u i l t s
(
ac c u r a c
数 据 集 S e l f
-
A ten t i on 平均融合
UCF 1 0 1 9 0 7 . 8 9 6
.
HMDB5 1 5 9 0
, 5 8 .
3
由 上表 4 4 .
可知 , Se f l
-
A tt e nt o n
i
机制 对本 系 统 的 结 果有提 升作 用 。
由 于 Se f l
-
Aten t i on
本质 是依 据 输 入序 列 分 布 获得权 重 系 数 ,
那 么 对 于 其他 分段提取特征 再进行 结果融合 的
模型 , Se f l
-
5 9
-
-
东 北 大 学硕士 学 位 论 文 第 4 章 融合注 意 力 机制 的 人体行 为 识 别
果 是否 有提升 。 如表 4 5 .
所示 ,
本文将 第 二 章 的 3 D 卷积 神 经 网 络 分 别 使用 平均 融合和
S e l f
-
A t t e nt i on 方 法作 为 验证
:
表 4 53 . D 卷积 网 络 中 的 Se f l
-
A te n t i on 与 平均融合对 比 结 果 ( 准确 率 , %
)
A tt e n t o na n da v e
i r a
g e fu s o n o n t h e c o n v o u t o n
i
l i
net wo r k ( a c c u r ac
y %
)
数 据 集 S e l f
-
A te n t i on 平均 融合
UCF 1 0 1 86 4 . 82 .
7
HMDB5 1 5 5 . 5 54 .
2
以 上结果验证 ,
本文 的 Se l f
-
A tt e nt on
i
机制 作 为 结 果融 合方式不仅作 用 于循环 神 经 网
, 。 , 3
提取器 ,
使用 循环 卷积 网 络 LSTM 和 S o ft -
A t t e nt i o n 机制 提取特征 图 显 著性特征 作 为序
列模型输入 ,
最后使用 Se l f
-
A t t ent i on 机制 将 每 个 分段视频 的 特 征 输 出 向 量加 权融 合 ,
并
最后对模 型 训 练时两个超参数进行调 优 :
训 练批次大小和 学 习 率设定 。
本文考虑 到
, ( ) , ( )
。
, S , ,
训 练引 入的 噪声较多 ,
使得 l oss 下 降 曲 线震荡过大 , 且更新时 间 较长 。 而 MSGD 是指
, , 。
硬件条件 ,
本文选用 M SGD 作 为模 型 训 练 的 梯度优化方法 。 MSGD 可 以 提高训 练收敛
速度 ,
同 时模型训 练 的 好坏 取 决于批 次 的 大小 ,
即 b at c h 设置 的 大 小 。
考虑 到实 际硬件
条件 ,
本文将 b at c h 范 围 设置为 1 到 1 6 ,
下图 4 9 .
展示 了 几种 b at c h 值表现较好 的 效果
。
3 00
2 5 0
\
2 00
\
to
\
4
〇
 ̄  ̄ 1
1 5〇
\
W L
8
■
12
—
1 6
5 0
0 1 2 3 4 5 6
迭代次数 ( l 〇k
)
图 4 9 .
不同 b at c h 值损失 曲 线 下 降 曲 线变化
g 4 9P e rf r m n e n t b at c h v a nct on
F i . o a
. c eo f d i ffe r l u eo f l o s s fu i
60
-
-
东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体行 为 识 别
从图 4 9 .
可知 随着 b at c h 増大 ,
损 失 函 数下 降速率增大 。 本文实验没有对 比 b atc h
值
更大 的情况 ,
但是硬件条件 允许 的话 b at c h 值 设置更 大 ,
下 降 效 果 会 更好 ,
考虑到 网 络
参数较多 ,
本文 模 型 训 练选 择 b at c h 为 8 时 进行 训 练
。
, 。
: ,
;
, 。
同 的 学 习 率 很 大程度 上 影 响 着 模 型 性 能 表 现 甚 至 是 模 型 训 练 能 不 能 收敛 , 尤其是训 练后
离 散方法 。 设定 学 习 率初始值 0 06 . ,
每隔 5 个 e
poch 学习 率乘 以 0 85. , 经过几十轮迭代
, , , ,
度 ;
( 2 ) 使用 定值方法 。
模型训 练初期使用 较大的 学 习 率 , 观察 Lo ss 下降曲线 ,
根据
曲 线 变化 手 动 修 改 学 习 率
。
3 00
250
k
〇1 5 0 \
100 V
5 〇
0
0 1 2 3 4 5 6
迭 代次 数 ( 1 0k
)
■ ■ ■
0 . 2 0 . 1
0 0 6 0 0
. . 1 —
离敗衰减
图 4 . 1 0 不 同 学 习 率 在损 失 函 数上 的 表现
F 4 0 P e r fo m a n c eo f e n earn f o s s fu n c t on
g r d ffe r t n
g r at e s o
i . . 1 i l i l i
从图 4 . 1 0 可 以 看 出 使 用 离 散衰减 的 方法 可 以 得到 更 好 的 效 果 ,
在训 练初期 ,
学习率
, , ,
;
; , ,
优解
。
以 上 所有 实验过程 为 本 文 系 统 所 有 的 对 比 验 证 实 验 过 程 ,
本文模型总结为 :
f先经
过 3 D 卷积神经 网 络提取 1 4
*
1 4
*
5 1 2 尺寸的特征 图 ,
然后利用 B i
-
LSTM 学 J 各动 作 片段
上 下 文关 系 ,
最后利 用 S o ft -
A tt en t i on 算法 结 合序 列 模 型 隐 含层 的 输 出 和 各 个 时 刻 的 输
入特征 图 得到特征 图 的 显 著 性 区 域 ,
并 H .
通过学4 输 出 序列 自 身特征 分布 的 Se l f
-
6
-
-
1
东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注 意 力 机制 的 人体行 为 识 别
A tt e nt i o n 算法 将输 出 层特征序 列 加 权融合 使用
, , S o f m ax
t
分类器得到 各个类 别 概率 值
,
确 定 最 终 结 果 并统计准 确 率
。
种 主 流 的 处 理 人 体行 为识 别 任 务 的 神 经 网 络模 型 框架做 结 果对 比 ,
得到 的准确率指标如
表 4 6
.
和下图 4 . 1 1 所示
:
表 4 . 6 几种 主流模 型 和 本 文 模型 的 结 果 对 比 ( 准确率 , %
)
i D T 85 . 9 57 .
2
Two -
C3 D+ ) i n e ar S V M 85 . 2
-
2 D CN N + L S T M O p (
t i c a F l l o w+ m ag eF I r am es ) 88 . 6
-
C3D+B i
-
准确 率 ( %
)
= ^
8 8 8 5
; 85 9 .
.
2
聊
I
HH l
l
l
|
H =
:
V V7
图 4 . 1 1
几种 模 型 的 对 比 结果
F i
g 4
. . 1 1 C o m p ar i s o no f se ve ra l m ode l
s
由 以 上数据 结 果可知 ,
本文的 3 D C NN + B i
-
L S T M +A tte n t i on 系 统方案较优于 之 前 几
种 主 流框 架 主 要 改进 在 于 本 文 利 用 , B i
-
LSTM 序 列 模 型 学 习 各 个动 作子段上 下 文关系
,
, 。
HMD B5 1
这种 背 景复杂 和 画 面抖动 严重 的 数据集 中 ,
本 文方 案效果 并 没有 明 显 提升 。
之
62
-
-
东 北 大 学硕士学位论 文 第 4 章 融合注意 力 机制 的 人体行 为 识 别
如 果 能 够 加 深 网 络层 学 习 到 更 高 阶语 义 信 息 , 该 网 络 会有 更好 的 性 能 表现力
。
4 4
.
深度 学 习 框架 的 选择
现在 比较流行 的 模型 有 T e n s o rf
l ow 、 P yt o r c h 、 C a fe 以 及 MX N e T , 还 有 在 这 些 AP
I
对 比参考 , 并阐述 自 己 的 选择
:
( 1 ) T e n s o rF l o w : T en s o r F l ow 采用 数据流 图 , 属 于 用 于 数值 计 算 的 开 源 软 件 库 ,
广
T e ns o r
fl ow 文档 和接 口 繁琐 , 封装混乱 ,
高层 接 口 不 灵 活 ,
而且 不 能 自 定义 GPU 的 使
用
。
( 2 ) P yto r
ch : P yto rc h 拥有着 比 T e n s o rF o w l 更好 的 加 速运算 , 该 框 架 结 合 了 To rc h
深度学 习 诸多模型 的 特点 。 在推 出 后 , 迅速 赢得 了 许 多 开 发 人 员 和 研 宂 人 员 的 青 睐 。
尤
其在 GPU 的 自 定 义使用 上要 比 T e ns o rf
l ow 更优秀 , 而且高层接 口 封装简 洁 明 了 方便 阅
读和修改
。
( 3 ) C a fe : C a fe 是 人 工 智 能 领域 问 世 时 间 最 早 的 深 度 学 习 框 架 , 可 以 说是最早 商
业 化 的 主 流工 业 级 深 度 学 习 工 具 包 。 C a fe 框 架基于 C ++编 程 语 言编 写 , 支持 Ma tl ab
、
P yth o n 和 C ++ 接 口 。 目 前 被 广 泛 的 应 用 于 计 算 机 视 觉 领域 ,
并且取得 了 很 多 的 成功应用
以 及商 业部署 。
但是 由 于其
一
流框 架结 构 中 的
一
些问题 , C a fe 对于 R NN 和 L S TM 等循
环 网 络和语 言 模 型 的 支持 比较薄弱
。
C a fe 2 C a fe 2 则 是对 C a fe 提 出 的进 步完善 与 C a fe l 相比 C a fe 2 更加
一
( 4 ) : 。 ,
, 。 ,
i
库 , 支持 ARM 架构 。 在 延 续 了 C a fe 对 卷 积 神 经 网 络 的 良 好 支 持 的 基 础 上 , 增加 了 对
、 。
的 迁 移 还 很 缓慢 , 而且 P yt o rc h 已 经 完 全 兼 容 C a fe 2
。
63
-
-
东 北 大 学 硕 士 学 位 论 文 第 4 章 融合注意 力 机制 的 人体行 为 识 别
综合 以 上信 息 ,
兼 顾 到 研 宄 所配 置 的 服 务 器环 境和 代 码 复 现 能 力 , 本文 最终确 定将
P yto r
ch 模 型 框架作 为本 文 代码 的框架选择 。 P yt
orch 强大 的 网 络层接 口 和 自 定 义梯 度计
算 方法 ,
以 及 对 GPU 卡号 的 随意切换 , 在 本文系 统 设计 中 给 了 很 大帮助
。
4 5
.
小结
述和 相 关验证实验 。
前两 小 节主要对注意 力 机制 的 本质 、 应 用 场 景和 本文 中 使 用 到 的 注
意 力 机制 方法做 了 详细 说 明 。 后 两节 对 注 意 力 机制 模型 参数进行 了 对 比 实验 分 别 包括 ,
:
( 1 ) L o ca l
-
A t e nt i on 各 窗 口 大 小对模型 结 果 的 影 响 ;
( 2 ) Sof
t -
At e nt i o n 和 L oca l
-
A t e nt i on
效果 比对 ;
( 3 ) 分 别 在 完 整 系 统模 型 和 3 D 卷积 神 经 网 络上 对输 出 特 征 序 列 融合 的 两种
方法 ( 平均 融 合方法和 S el f-
A t en ti on 融合方法 ) 的 效果 比对 ;
( 4 ) 对本文系 统模型 训
练 的 两个超参数 , b at c h 值 和 学 习 率 选择 , 进行调 优 ;
( 5 ) 本 文 系 统 方 案 和 几种 主 流 方
和长处 。
由 实验结果 可得 ,
本 文 方案 在 高质 量视频 中 有 较好表现 ,
但是在 HMD B 5 1
数
是 总 体 上 本 文 方 案 在 人 体 行 为识 别 任 务 上 有 较好 的 表现效 果
。
64
-
-
东 北 大 学 硕 士 学 位 论 文 第 5 章 总 结和展望
第 5 章 总 结和 展 望
5 . 1 工作 总 结
, 、
互 等 方面有 广 泛应用 。 尽 管 应 用 深 度 学 习 技 术 在 人 体 行 为 识 别 等 计 算 机视 觉 领域 取 得 了
网络 。
本文提 出 的
一
确 率还有 很 大提升 空 间 ,
但是 在科学 发展 的 道路上这种 尝试是 必 不可少 的 。
本文 基于长
用 注 意 力 机 制 学 习 图 像 显 著 性 特征 进 行 人 体 行 为 识 别 。 本文主 要贡献如 下
:
取人体行为时 间 信 息 , 提高 时 间 流信 息提取 效率 ,
减 少 因 相 机抖动 等 因 素 带来 的 噪 声 影
响 。 由 于 图 像帧 数越高 3 D 卷 积 神 经 网 络 参 数 成倍 数 增 加 本 文 采 用 先 将 视 频 分 成 多 段 ,
,
段 与 段 之 间 参 数共 享 , 在 输 出 层进 行 段 融合 。
并通过对 比 实 验 得 到 , 分段 3 D 卷积神经
( 2 ) ( ) ,
模型表达能力 。 考虑 到 L S TM 只 能学 习 到 当 前 时刻 的 前序信 息 关 系 , 本 文最 终将 双 向
, ,
得 了 更好 的 效果 。
利用 层与层之间 的 D r o p ou t 方法 ,
减 少 循环 单元 中 的状态量 的 损 失 的
同时 , 提高模型泛化能力
。
用 自 注 意 力 机制 , 将每段视频 结 果序 列 获取 的权重信 息进 行加 权合 并 。 自 注 意 力 机制 不
务 中 的 分段 3 D 卷积神经 网 络 的输 出 层用 来提高模型 效果
。
65
-
-
东 北 大 学 硕 士 学 位 论 文 第 5 章 总 结和展望
5 2
.
问题与 展望
包括深 度 学 习 在 内 的 机器 学 习 领域现在 正 是 处于 风 口 浪 尖 的 时 刻 ,
作 为 高等 院校 的
科研 人 员 在积 极 投 身 研 究 的 同 时 , 也要专注 于深 度 网 络 的 数学本质 , 从 网 络 结 构 原 理进
行 改进 , 不 同 学 术领域 的 算法模型之 间 也有 很好 的 借鉴 性 , 也 需 要 关注 序 列 任 务 中 不 同
领域 的 相 关 方 法 , 并 从 原 理 上 加 以 改 进和 应 用
。
模型 训 练过程 中 ,
简 单 的 模 型 配 合海 量 的 大 数 据 样 本 的 效 果 要 远 远 超 过 数 据 量 很 小
优化 只 能无 限 的 逼近这个高度 。 在 本 文 的 整 套方 案 和 完 整 的 训 练 过 程 之 中 , 视频数据无
论从数量上还是质 量上都是远远不 够 的 ,
数量上 ,
对 于 超大 型 数据 库 , 网 络下载 限制 较
多 。 质 量方面 , 本 文 所 使 用 的 数 据 集 多 来 自 网 络 视频 、 家庭 自 拍 、 运 动 员 运动 动 作 和 运
动 摄影 , 有 很 多 相 机 抖动 和 复杂 背 景 问 题 。 希望 以 后 可 以 有更多 的 大 机构 可 以 公开 自 己
的 视频数据
。
的 提取视频 特征 ,
有 学 者 已 经提 出 使用 残差 模块加 深 3 D 卷积 网 络 , 可 以 在 防 止 过拟 合
的情况下 , 加深 3 D 卷积 网 络 的 深 度 , 达 到 更好 的 特 征 提 取 效 果
。
到 更 深 长 度 的 序 列 并 具 有 很 强 的 鲁 棒 性 本 文 考 虑 到 视 频 段 数较 少 且 实 验 条 件有 限
, 。 ,
,
-
66
-
东 北 大 学 硕 士 学 位 论 文 参考文献
参考文献
[
1
]
陈晓峰 .
电子商务安 全性 的理论与 技术研 究 D [ ]
.
西安 : 西 安 电子科技大学 ,
20 02
.
[
2
] Li n na i n ma a S . T h e r e p r e s e n t a t io n of t h e c u m u l a iv r o u n di n e r r o r o f a n a l g r i t h m a s a
t e a
T g o
yl o r e x p a n si o o f t n h e lo a l c r ou n di n g e r r or s [ J ] . M a s t e r' s T h si s , e 1 9 7 0: 6-7 .
[
3 a
T
]
n
g
J ,D e n g
C ,
H u a n B . Ex t e e e a g G r
m l rn i n g m a chi n e
o r m u l t i la y r p e
f
e r c e p t r n [ J ] . I E EE
t
r
o a
n sa cti
n
o
s o n n e u a l n e t w o r k s a n d l e a r n i n g s y
r s t ems , 2
01 6 , 27 ( 4 ) : 8
09 - 8 2 1
.
[4 ] Du bo s
sa r y
k
s
E , F r ie d m a n J H O m
er
o d J T . Wa v e t- b a s e l
d g r d ie n t
a bo
o
s t i n g J ] .S t a t i s t i c s a n C m p u t ing , 2 0 1 6
2
,
, r e [ d o
6( 1- 2 ) : 9 3 - 0 5 1
.
[ 5 ] C o
ver
T
M
, Th o
m
a s A
J
.
E
l em en ts o f
i n fo r m a tion t h e o r y [ M].Ne wY o rk : J o h W i l e y & S o n n s , 2 0 1 . [ 2 6 ] M o ra e s R ,
Va a
i
l
t i J O
F , N o
t
e
W
P G O . D c en le v e l s n me t c l as s i f a t i on : A m p - i r i c a l c o m p a ri s o b etw ee SV M an
A
d
o t - e n i c n e n n
u m t i
N N[ J ].Ex pe S y s t e m s w i t h A p p l i c a t i on s , 2 0
r t 1 3 , 4 0 ( 2) : 6 2 1 - 6 3 3 . [ 7]A c k l ey D H , H
in t o n
G E,S n
j
e
ow s
k
i T .
J
A
l ea rn i ng
a g ri l
o
t hm for B o l
t zm a n n m a c h i n e s [ J] . C o g nit v e i s c i e n ce , 9 8 1 5 , 9( 1): 1 4 7 - 1 9 . [ 8 ] 6 i
r
K
z h ev s ky A,S u s k e v r t
e
I,H i nt o n
.
I ma g e
n
e t a
l
c
s
s
i f ic
a ti o n w i h t d e ep c o n v olu t i
o n al n e ur a l n e t wo ks [ ]
. A dv a n c e s r C i nn e u ral in f rm t io o a n p r oc e i
s
n g s y s t e m s . 2 0 1 2 : 1 09 7 - 1 1 0 5 . [9 ] C ho w S S M H u i L C K , i u S M . T w o, Y im p r o ed p a v
r
t i al
y
l
b
l
i n d s ignatur e
sc h e me s f r o
m bili n e ar p i r i n g s [ C ] . A u
a s t r a
las i a n C o f e r e n c e o n I n f o r ma t i
n n
o
S e c u r it
y a
n d P
riva c y . 2 0 05 :3 1 - 3 2 8 . [1 0 ] 徐 勤 军 吴 镇 扬 . 视 频序 列 中 的 行 识 别 研 究 进 展 [ J
6 , 为 ] .
电 子 测量 与 仪 器 学 , 20 1 报 4 , 28 ( 04 ) : 4
3
- 35
.
1
[ 11 ]B o ick b
AF , D a v i s J W . T
h
e
recog niti o
n o f u
h
m a nmo v em en t
u s g
n
i
t e
m po r a l te m pl te s a
[J]. I EE T E
rans a ct i o n s o n a t t er n a n a l y s i s a d m a c h i n e
p n i nt el
l i ge nc
,
e
2
0
0
1 ,2 3 ( 3) : 2 57 - 2 6 7 . [12 ]
D an
ie l W e in l a
nd , Rem i Ro n f a d ,E m o n r d d B
o
yer. F r
ee v
i e
wp
o
i
n
t a c t
i
on c
e
r
o
g n
i t i on u s i ng ot i m
o n
hi s t o r y v o l e s [ J ] . C o m p u t u m
e r V i sio a d I mag
n n eU n d e r s t a nd i ng , 200 6 1 0
(
4 ,
2 ) : 4 9- 257.
[ 1 ]Y i lma z ,S h a
h M . A c
t s S k e t c h : A N o v e l A c t io n R e r e s e n a t i o n [ C . P r o
e
c
2 3 A i o n ]
p t
din
s
g
o
f
th e I EE E C o n f er e n e o c n C o mpu t e r V i s i n ano d Pa t t e r n R e c o g n i t io n . 2 0 0 5 : 9 84 -9 89 . [
1 4]M a
i
t
k a i n e n P , H e b er t M , S u k t h a n k a r R . T r a j e c t o ns : A c ti o n r e c o g n i t i o n t h ro ugh th e
mot n
o
i
a n
a ly s i s o t r a c e d f e a t u r s [ C ] . I E E E I n t r n a ti o n a l C n f e r n ce o n C o
f
k e
e o e m pu t e r V i s i o n. 2
0
9 : 5 4 - 5 21 . [ 1 1 5] La p te v , I v a n ,L i n d e b e r g , T n y . O n S p a c e - T i m e I t e r e st P o i n t s [ J ] . I n t e r n a t i
o n o n al o
J
urna l o f
C o m t
u
p
e
r
V i s io n ,2 0 0
5 , 64 ( 2 - ) : 1 0 7 -1 3
2 3
. [ 1 6 ] Liu J, L o u
J , S h a h M . R e c o g i z i n g r a l i s t ic a t i o n e c n s m
f ro d
i
v
eo s " i n th e w i l d "[ C ]
. P r o
ceed i
n
g
s o f
t
h e E
I
K
E
C
o nf e ren c
e on C
o m pu t e V i s i o n a d P a t t r n e r nR ecog n i t i o n .2 0 0 9 : 9 9 6 - 1 2 003 . [ 1 7 ]
l se a
A
r
, M a r s z a e k M , S h m i d C . A s p a ti o - t e m p o r a l d e s c r i
l c p t o r b a s ed o n 3 d - g r a d i e n t s [ C] . B r i t i h M a c s
n
i
h
eVi o
i
s
n
As so c ia t io n . 2 00 8, 27 5 : 1- 1 0 . [ 1 8]D la l N , T i a r
g
g s
B . Hi t o g r a m o f
s or i e n t ed g r a
i en t f o r
h
s
d
u
m n de t e c t io n [ C ] P r o c . e e d i ngs
a
67
-
-
东 北 大 学硕士 学 位 论 文 参 考 文 献
of t h e I E E E C o n fe r e n c e o n C o m p u t e r V i s i o n an d P a tt e r n R e c o g n i t i o n . 2 0 0 5 , :8 1
8 6- 8 9
3
. 9
1
[
]
L a p t e v I, Mar z s
a le k M , S ch m i d C . L a r n n g re a l i s t i c e i h u man a c t i on s f r o m m o vi e s [ C ] . P
r o
c e
i
d
e
n g s o f h e I E E C o n f e r e n c e on C o m p u t e r V i s i o n
t E a n d P a t t er n R ec o g n i t i o n . 20 0 8 1 - : 8 . [ 2 ]D 0
a
l
l
a
N
,T
r ig g s B , S c h mi C .Hu d
m a n de t e c t o i n u s i n g or i e n t ed h is
tog
a m so ff
r l ow
a n d a p p e ar a n c e[ C
.
]
E u r o p e an c o n f e r e n c e o n c o m p u te r v i s i o n . 2 0 0 6 : 4 2 8 4 - 4 1. [ 21 ]Sa n i n A Sa ,
n r
e
d
s
o n
C , Ha r a n d M T . S p a t i o - e m po ra l c o v a i a n ce d
i t
r
e
s c r i p t o r s f o r
a ct i o n a n d
g e s t u r e r e c o g n i t
o
i
n[ C P r o ce e d i n g s
o
t he E C on f e re n c n o m p u t e r V i s i on . 2 0 1 3 : 1 0 3 - 1 1 0 . [ 2 Lu as
e o
2
].
f E C ] c B K
,
D
I E
i
n
a na d
e T . A
t
er
a t i v e ima ge r e gi s t r a t o n t i e c h n iq u e w i t h a n a p p l i c at i o n t o s e r e o v i s i o n [ C ] . t I n t er n a t i o n
l
a
J o in t C o n f e ren c e on A r t i f i i a l I n t l l i g e n ce . 1 9 8 1 : 6 7
c e 4 -6 79 . [ 2 3 ] B re g o n z
i o M , i J , L G o ng S
.
Dis i
r
c
m
in
a t i v e T op i c s M o
d el l
i n
g fo r
A c t i o n F e a t ur e S e le
c io t n an d R e c o gn i t io n[ C ] . B r i t is h M a h i n V
s
i c e
io n C o n f e r e n c e . 2 0 1
0
: 1 - 11 . [2 4 ]D o l l á r P , R a b a u d V, C o t t r e l l G . eh B
a
v i
r
o
ec
gn i on v s p ar se pa t i t o a l fea u r e s [ C] . V i s u a l S u r v ei l l a nc e a n P e
r for a nc e E v a l
d
t i o- e m p t m a
u
a
r
r o i s
t
io n o f Tra ck in g a n d S u r v e i l l a n c e. 2 0 0 5 : 6 5 - 7 2 . [ 2 5 ] D e va n n e M , B e r r e t t i S , P a la P M o t i o . n s e e
m
g
nt e
d
om o s i t i on o f G B -D se ue ce s f o r hu n b e h av i o r u n d e r s t a n d n g [ J ] P a t e r n R e c o g n i t io n,2
t
R
q ma i .
c p n
0 1 7 , 6 1 : 2 2 2 - 2 3 3 . [ 2 6 ] D an O , V e r b
e
e k J, S c hm i d C . Ac t io n a n
d E v e n
t R ec o g
n
iti
n
o
w
it
h F is h e r Ve c t o r s o n a C o m p a t c F e a t u r e S e t [ C ] . P r o c e edi n s o f th e g I E EE C on f e r e n ce o n
C
o m p u t e r V i sio n . 2 0 1 4 : 1 8 17 -1 8 2 4 .
[ 2 7 ] P e n g X , Z o u C , Q ia o Y . A c t i o n r e c o g n i t i o n w th i s t k
c
a
e d f i
s h er e
v
c
to
r s[ C ] .Eu r op e an C o n fer enc e o n C o m p u te r i s i o n . 2 0 1 4: 5 8 1 - 5 9
5 . [ 2 8 ] W a n g H , K l s e r A , S ch
V i
m ?
d C .A c t i o n r e c o g n i t i o n b y d en s e t r a j ec t o
r
i es ]
C
[
.
P r o c ee d i
n
g s
o f th e I E E E C o nfe r e nc e o n C o m p u t e r V i s i o n a n d P a t te r n R e
c o gni t i o n.20 11: 3 1 6
9-
1
3
76 . [ 2 9 ] Z h u Y , Zh a o X , F u Y . S p
a rs e c o d in g o n l o c a l s p a t i a l - tem p o r a l v o l u m es fo r
h um
n
a
c t io n re gn itio C ]. A 0 - 6 7 1 . [3 0 ] W a r d R K , G u h
ia
n C o n f e r e c e o n C o m p u t e r V i si n. 2 0 1 0:
a
o
n 66
o [
s
a c n
T. Le
ar n i n g S p a r s e R e p r e s e n ta t i o n s f o r H u m a n A c t i o n R co e g n i t i on[ J
]. E
I
E
E
T r an s a c t o s o n a t e r n A i
n
P t n a l y s i s a n d M a c h i n e I n e l l i ge n c e ,2 0 1 2 , 3 4 ( 8 ) : 1 5 7 6 . t [3 1 ]S o ma n
u
s
Ac t o n r e co g n i t i o n u s i n g l b a l s
d ar a G , C h e r i m a n A , M o r e lla s V . i g o
p a
ti o -
t e
m
p
o
r al f e u
t
a
r
e s
e pr e s n t a t i
d e r i v e d f r o m s p r s e r a e
o n s[ J ] . C o m p t er V i s i o u n a n dIm ge n d e a U r s t a nd i n 2
,
g
0 1 4 , 1 2 3 ( 7 ): 1 - 1 3 . [ 3 2
] C o r s o J J . A c t i o n b a n k : A h ig - l e v e l
h r ep r ese nta ti o n o f a c t i v i t y
n
i
vi deo [ C] . P r o c e
ed i n g s o f
t e h
I
E E C
E
nf
r e n ce o n C p u r V i sio a d Pa e r n R ec o gn i t i o n. 2 0 1 2 : 1 3 4 - 1 2 4 1 . [ 3 3 ] L i C , W g P, W a n g S. S
t
o m te n n t 2 n e
k
o e a
le t o n - b a s e d a c t io n r e c o g n i t i o
n u s i n g LS T M an d C NN [ C ]. I E E E I nt er n at i o n a l Co n
f er e e
c
n
o n
Mu l ti e m
di a & x po W o r E
k s h o p s . 2 0 1 : 5 8 5 - 5 9 0 . [ 3 4 ] J i S , X u W , Y a n g M . 3 D C o n v o l ut i o n a
7
N
l
u r a l Ne t w
o rk f o H u m an A c t i o n e c i t i o n [ J ] . I E EE T r a n s a io s on P t te
a
e s r R o gn c t n
n
r
A
na
l ys i s a n
d M a h in e n c
I
t el l i g e nc e , 2 0 1 3 , 3 5 ( 1 ) : 2 2 1 - 2 3 1 . [ 3 5 ]W a n g X , G a o L , S o n g J . B e y on d
r
F
a
m
e
- le v e l CN N: S a l i n c y - A w a r e 3 - D
e C NN W
it h LS T M fo r V ide o A c t i
on Re c o
gn i t i o
n[
J
]
.
I EE E
S
ig n
l
a
r o
e ss i n g e t t e r s 2 0 1 7 ,2 4 4 ) : 5 1 0 - 5 1 4 . 6] S im ony n K i ss ma n A . T o - s tr e a n
o
c
w
[ r
P c L ,
( 3 a , Z
e m
v o l u t io n a l n e two r k f s o r a c ti o n r ec o g n i ti on i n v i d e o s [ C ] . A d v a c e s i n n n e
ur a l
in o
f r
m at i o n
p r e
c
o
e ms . 2 4 37 ] L , Q i a o Y , T a n g X . A c t i o n r e c og n i t i o n w i t h t r a j e t o r y -
s
s i ng s y s t 0 1
: 5 6 8 -5 76 . [
W
a ng o
p c
o ed dee p -
l c o n v o lu t i o na l
68
-
-
东 北 大 学 硕 士 学 位 论 文 参考文献
d e s c ri
pt o r s[ C
] .
P ro c e edi n g s o f t h e I E E E C o n f e re n c e o n C o m p u
te V
r i s i o a n d P a t te r n
e
R n
c o g n it i on .2 0 15 : 4 3 0 5- 4 31
4
. [ ]
8
3
W
a n
g L, X i o n g Y , W a ng . Z
Te m p o r a l S e
g
m e n N e t w o rks: T o w a rds
t G oo d P r a c t i c e s f o r D e e p A c
i
t
o n R c o e
gn i t i o n [ J ]. A c T r a n m
s
a c t i o s on I n n fo r m a t i o n S ys t e m s , 2 0 1 6 , 2 2 ( 1 ) : 20 - 3 6 .
[3 9
]
Y an
X
, C n
a
h
g
H
, S ha n S o d e l i g
. M n v
i d eo d y n a mic s w i t h d e e p dy n e c o d e n r [ C] . E u
r o p ea n C o n f e r e n c e o n C o mp
t
u
e r Vi s i o n . S p r i n g e r . 2 0 1 : 4 2 1 5 -2 3 0.
[ 40] S r iv a s t a va N
,
Ma n m
i
s
o
v
E ,S a
l akh u d i n ov R . Un s u p e rvi s ed l e ar n i n g o f i d e o r ep
v r ese n t a ti o n s u s i n g l s t
s
m
[C
] . I n t er n a i o n a l c o n f e r e n c e o n ma e l a r n i n g . 2 01 5 : 8 4 3 - 8 5 2 . [ 1 ] H b e l D H
ch i n W ie e T N. ec e
R
t e 4 u , s l i
t
p
v
e
f ie ld s i o l , b n
c u
a ri n t e r t i o n a c an d u
nc io f t
n a
l a r c h te i ct u r e i n t h e c a t 's v i s u a l c or t ex [ J ] .J o u
n
r
Y o s a
u
h
1) 1 , u
B
G r a d i e n t- a se d e a r n
in g a p p l i d t o d c um e n t ec o g n t io [ J] . P r c e ed n g s o f h e I E
n
r i o i t
. b l e o
- [ e u p e
2 4
i
Y g e r
t
u
l
i
on
s [C ] . P r o cee d i n s o g
f
th eI E E E C o n f e r e n c e o n C o m p u t r V i s i o n a e n d Pa t t e r n R eco g n i tion . 2 0
5
1
: 1 - 9. [ 4 4 ] H e K , Z h a n g X , R en s i du a l l e a r n i n g
S . De e p re f or i m a g e
r o
c
e
g
ni
t i o n C . P r oc e d [
]
e i n
gs o f t he I
EE E C on f er e nce o
n Co m
pu t er V i s i o n a nd Pa t t e r n Re c og n t i on. 2
1
0 i
6 : 7 7 0 - 7 7 8 . [4 5 ] L e C u n Y , B e n g i o Y . C o n v o l ut i o n al n et w o r k s f o r im a ge s , s p ee ch
,
and i
t
m
e
s e r i e s[ ] T h e J
.
h and b o o k o f br a in t h e o r y a n d ne u r a l n e t w or k s , 19 9 5 ,3 3 6 1 ( 1 0): 1 9 9 5.
[
4
6 ] Ji
,
S
X u W , Y a n g M 3 D o n v o l u t i o na l n e u r a . c l n e tw o r k s f o r h u m
an a
c
t i o r e c o n i
n
g
t
i o n[J ] . I
E E an s a t E
T r c
i on s o n P a te n A t r n a l y sis a n d M a c h i n e I n t el l i g e n c , 2 0 1 3 , 3 5 ( e 1 ) : 2 21- 2
3
.
1
[ 4 7 ] T r an D , o u r d e v L ,F
e r gu B s R . L
ea
r n i ng s p at i t emp o ra o l f
eatur e s
w i t h
3 d
c
o
n vo l u
t
io n
l
a
n e t w or ks [ C . P r o c e e d i n o f t he E E E in t e n f e e nc e o n c o m p u t e r v i s i o n 2 0 5 :
r n a t io a l c o n r . 4
s 1
I
] g
8 9 -4 4 9 7 . [ 4 ] S o o m r o , Z a m i r A R ,S h a h M . U C F
1 01 A d t a s e t o f 1 0 1 h u m a n a c t i o n
8 K : a s c l a se s s f m
o
r
v i d
eo s
n
i
h e w i l d [J ] . C m p ut e r S i c
n c e ,2 0 1 2 : 2-4 . [ 4 9 ] W is ha r t D S , T z u r D , K n o x C . H M D B : t h e h u ma n
e
m
t o e
t b o l om dat aba
a e s e [J] . N u c l eic a c ids re s e
a r
ch , 2 0 0 7 3 ,
s
(
5
u
pp
l _1 ) : D 52 1 - D 5 2 6 .
[5 ] 0
H o
pfi e d J . N l J e ur a l n e t w o r k s an d p h y s i ca l s y s t e m s w i th e m erge n t
o
c
ll e c tive
comp u t
a t
i
o nal b
i
l i tie s
[
J] .P c
o
r
e
e d
i ng s o
f t h ena io n a t la ca d e m y o f sc i en c e s , 19 8 2,7 9 ( 8 ) :25 5 4 - 2 5 58 . [5 1 ] B ahda na
u
D,C
ho K e n g
, B i o Y . N e u r al
m
a
c
h i n e t r a n l a t o n by jo in l y s i t l e ar ni n g t o a li g n a n dt r a n s l
ate [
J
] .2 0 1 4
.
[5 2 ] c
o
H
h
r e
i t e r S ,S c h m i d hu b er . L on g J
sho t r - t erm m e m o ry [ J ] .Neu r a l c o mpu t a t
i n , 9 9 , 9 8 ) : 1 7 3 5
o 1 7 ( - 1
78
.
0
[ 5 3 ] Gr a v es A . S u p er v i s
d
e
S
e q
u e n c e L a b e l l i n w i th R e c u r r e n N e u
g
ral N e
t t
w
ork s [ M ] . B er l i n : S p ri n g er, 2
01 : 35 1
2 1 7
-
7 80. [
54] hd a n a D,C
u
a
o
h
K
, B
e ng io Y . e N u ra l
M ac
h i n eT r
a
n s l a t i o n b y J o int l y L e a r nin g t o A l i g n a n d T r an s
l a
t e[ J ] . C o u
p
m
ter
S e, 0 4. ]Lu
ci e [
5
2 5
c
1 g
n
o
M
T , P ha m H , M n a
n i
n g C D .
E ffe c tiv a p p r o e a c h es t o a t t en t on b a s e d n e r a m a chi e t r a n s
i - u l n l a
ti
n
o
r u
t u r e d S e lf a t t e n t i e S en e n c e E be di n g J ] . 2 0 1 7 . [ 5 7 ] L i S ,L i W C o k C . Ind e p e n
o
t m [ , n
e
d
t c - v
t l y e c u r r en t ne r a l
r u
n
e
t
wo r k n
i
(
d
r n
n ): B ui l d i
n g al o n
g er
69
-
-
东 北 大 学 硕 士 学 位 论 文 参考文献
an d d e e p e r R NN [ C
]. P r oce e d i n gs
oft he I E E E C o n fe re n c e o n C o m p u ter V i si o a n d P a t te
n r n
e
R
c o g n iti o n .2 0 1 8: 5 4 5 7- 54 6 6
70
?
-
东 北 大 学 硕 士 学 位论 文 致谢
致谢
时 间 匆 匆 而过 , 转眼间 ,
我在 东 北大 学 的 研 宄生 学业 即 将落 幕 。 在两 年 多 的 学业生
首先 , 我要 感谢我 的 导 师潘 峰老 师 。 在这两年 多 的 时 间 里 ,
潘 老 师鼓励 我选择我 自
活上 ,
潘老 师 给 予 了 我很 多 富 有 智 慧 的 指 点 和 待 人接 物 的 做 人态 度 。 我在 潘 老 师 身 上 学
方法
。
同时 , 我要 感谢 同 一
个 实验室 的王 浩然老 师 , 感 谢王 老 师 在 我 的 求 知 路上 对 我 的 宽
文编 写提 出 了 宝贵意见 , 指导我完成论文 的 编 写
。
感谢 同
一
实验的薛定宇 老 师 ,
薛老师为 人治 学 严谨 、 精益求精 , 具有 大师风范 。
希
日 、 、
。
我十 分有 幸 能进入 薛 老 师 的 大 团 队 中 ,
大家认 真而 热情 的 学 习 和 生 活氛 围 深深感染着 我
。
尤其是 , 张悦 同 学 、 张奔奔 同学 、 李 昆仑 同 学和 胡 雪 同 学 , 因 为有 了 你们 的 关切 , 我的
, ,
,
, 自 ,
。
最后 ,
感谢 百 忙之 中 抽 出 时 间 评 阅 本论文 的 专 家和 学者 , 诚 恳地期 待 各位 专 家 的 帮
助和指点
。
-
7
-