You are on page 1of 8

2021 年 4月 图 学 学 报 April 2021

第 42 卷 第2期 JOURNAL OF GRAPHICS Vol.42 No.2

基于 LSTM 神经网络的人体动作识别
杨世强, 杨江涛, 李 卓, 王金华, 李德信
(西安理工大学机械与精密仪器工程学院,陕西 西安 710048)

摘 要:人体动作识别为人机合作提供了基础支撑,机器人通过对操作者动作进行识别和理解,可以提
高制造系统的柔性和生产效率。针对人体动作识别问题,在三维骨架数据的基础上,对原始三维骨架数据进行
平滑去噪处理以符合人体关节点运动的平滑规律;构建了由静态特征和动态特征组成的融合特征用来表征人体
动作;引入了关键帧提取模型来提取人体动作序列中的关键帧以减少计算量;建立了以 LSTM 神经网络为基础
的 Bi-LSTM 神经网络的人体动作分类模型,引入注意力机制以及 Dropout 进行人体动作分类识别,并对神经
网络的主要参数采用正交试验法进行了参数优化;最后利用公开数据集进行动作识别实验。结果表明,该模型
算法对人体动作具有较高的识别率。
关 键 词:动作识别;融合特征;LSTM 神经网络;注意力机制;Dropout
中 图 分 类 号:TP 391.4 DOI:10.11996/JG.j.2095-302X.2021020174
文 献 标 识 码:A 文 章 编 号:2095-302X(2021)02-0174-08

Human action recognition based on LSTM neural network


YANG Shi-qiang, YANG Jiang-tao, LI Zhuo, WANG Jin-hua, LI De-xin
(School of Mechanical and Instrumental Engineering, Xi’an University of Technology, Xi’an Shaanxi 710048, China)

Abstract: Human action recognition provides the basic support for human-computer cooperation. Robots can enhance
the flexibility and production efficiency of manufacturing system by recognizing and understanding the operator’s
action. To resolve the problem of human motion recognition, the original 3D skeleton data was smoothed and denoised
to conform to the smooth rule of human joint-point motion based on 3D skeleton data. The fusion feature composed of
static and dynamic features was constructed to represent human action. The key frame extraction model was
introduced to extract the key frames in human action sequences to reduce the computing load. A Bi-LSTM neural
network model based on LSTM neural network was established to classify human actions, and the attention
mechanism and Dropout were utilized to classify and recognize human actions, with the main parameters of the neural
network optimized by the orthogonal test method. Finally, the open data set was employed for the action recognition
experiment. The results show that the proposed model algorithm has a high recognition rate for human actions.
Keywords: action recognition; fusion features; LSTM neural network; attention mechanism; Dropout

近年来人工智能技术取得了长足发展,已逐渐 也可应用于智能安防、智能家居、智能医疗等领域。
地应用于机械制造等领域。动作识别是人机交互的 特征提取是动作识别的基础,主要方法有基于
基础,通过人机交互合作可以提高人机合作制造系 深度图像和基于骨架数据的特征提取 2 种方法。
统柔性,对制造业发展有积极促进意义。动作识别 Kinect 深度相机可以采集到图像的深度信息,唐超

收稿日期:2020-07-21;定稿日期:2020-09-12
Received:21 July,2020;Finalized:12 September,2020
基金项目:国家自然科学基金项目(51475365);陕西省自然科学基础研究计划项目(2017JM5088)
Foundation items:National Natural Science Foundation of China (51475365); Natural Science Basic Research Program of Shaanxi Province (2017JM5088)
第一作者:杨世强(1973–),男,甘肃白银人,副教授,博士。主要研究方向为智能机器人控制、行为识别等。E-mail:yangsq@126.com
First author:YANG Shi-qiang (1973–), male, associate professor, Ph.D. His main research interests cover intelligent robot control, behavior recognition, etc.
E-mail:yangsq@126.com
第2期 杨世强,等:基于 LSTM 神经网络的人体动作识别 175

等 [1] 提出了基于深度图像特征的人体动作识别方 图 1(b)所示。


法,使用方向梯度直方图、时空兴趣点和人体关节
位置 3 种特征进行分类识别。许艳等[2]将深度特征
与骨骼特征相结合,用多模型概率投票进行人体动
作识别。基于骨骼点特征描述法的动作识别数据量
小、鲁棒性好。文献[3]提出局部聚集描述子向量算
法和分类池模型,利用骨骼关节进行分类。田联房
等[4]提出一种基于人体骨架序列使用模板匹配检测
异常行为,再利用动态时间规整识别的算法。YANG
等[5]使用深度优先树遍历顺序重新设计骨骼表示, (a) (b)
提出双分支注意结构,实现对不可靠联合预测的过 图1 人体骨架信息((a) Kinect 采集的人体关节;
滤。ZHANG 等[6]提出包括关节间距离和关节到关 (b)人体骨架模型)
节所构成平面距离等几何特征来描述运动。LIU Fig. 1 Human skeleton information ((a) Human joints
collected by Kinect; (b) Human skeleton model)
等[7]使用不同颜色像素点在图像平面上的移动轨迹
表示骨架关节点序列时空变化。 1.2 人体骨架 3D 数据的去噪
在提取有效特征的基础上,采用有效的分类器 在一般情况下,人体在运动时,身体所有的关
进行动作分类。ZOLFAGHARI 等[8]提出高效卷积网 节点随时间的变化在空间中应该是光滑曲线,不应
络,结合采样策略,利用帧间冗余性快速分类,且 该存在明显的突变点。但原始数据在采集过程中难
网络模型的层数较少。DONAHUE 等[9]利用融合长 免会因为干扰原因产生噪声,采用均值滤波算法对
时递归层和卷积层的长时递归卷积网络(long-term 原始的 3D 骨骼数据进行平滑处理,消除所采集数
recurrent convolutional,LRCN)进行人体动作识别。 据中的突变点,符合人体关节点运动的平滑规律。
SONG 等 [10]
介绍了基于长短记忆网络(long short-term 针对骨骼数据采用均值滤波算法,选取一个关
memory network,LSTM)的端到端的时空注意力模 于时间的窗口,对于某时刻数据,滤波后的值是前
型,对关节点和不同帧赋予不同关注度。沈西挺 面一段时间与该时刻后面一段时间数据总和的平
[11] 均值。原始骨骼数据的某一点空间 3 个维度中的 x
等 结合二维卷积神经网络、三维卷积神经网络和
长短期记忆神经网络用于动作的分类。虽然诸多的 维度滤波过程的计算式为
N
学者都取得了一定的研究成果,但动作识别的准确 m
1 2
性仍然有待提高。 Pm, x 
N
N Pz ,x (1)
z m 
本文基于三维骨架数据,构建了由静态特征和 2

动态特征组成的融合特征;建立了基于 LSTM 神经 N
对于第 m 帧,其滤波过程就是当前帧之前的
网络的动作识别模型,引入注意力和 Dropout 机制 2
N
提高了识别率;最后使用正交试验法对神经网络参 与其后的 帧的总和的均值。在此,时间窗口大小
2
数进行了优化。
选择为 5,
Pm,x 表示某个关节点其中 x 维度的第 m 帧。
1.3 人体动作特征表示
1 人体动作的特征描述
从人体动作序列中提取合适的特征描述人体
1.1 基于人体 3D 骨架信息 运动状态是人体动作识别的关键问题。人体 3D 骨
使用 Kinect 深度摄像机,采集人体 20 个骨骼 骼关节点描述的人体动作差别是通过其关节点相
关节点的三维坐标信息,图 1(a)为简化人体骨架模 对位置变化来反应的。由于用原始关节点数据描
型。为不影响动作完整性的同时降低计算量,从 述人体动作是非常抽象的,而从运动序列中提取
Kinect 相机采集的 20 个关节点中选取了对人体动 关节点的静态和动态特征组成的融合特征可以更
作影响较大且具有明显变化的 13 个关节点进行特 形象地描述人体的动作。人体动作视频通常由一
征的构建,分别为:头、锁骨、左肩、右肩、左手 系列帧完成,静态特征即建立在每个帧上的特征。
肘、右手肘、左手腕、右手腕、腰、左膝盖、右膝 静态特征由肢体夹角和相对距离构成,肢体夹角
盖、左脚踝、右脚踝。经过选取的人体骨架模型如 指在某一帧内,2 个肢体之间形成的夹角,此特征
176 图像处理与计算机视觉 2021 年

可以非常清晰地描述人体的姿态。肢体夹角选取了 征,人体的一个动作可以表示为
人体运动时具有明显变化的 11 个角度进行计算, C  [ Ei ,1 , Ei ,2 ,, Ei ,t 1 ] (7)
将肢体视作一个向量,从某一关节点指向另一关节 由于动态特征是基于原始数据 2 帧之间计算得
点,夹角 2 由向量 r2,3 和 r2,9 构成(图 1(b))。肢体夹 出的,因此,动态特征相比静态特征在时间维度上
角 j 为 少一个。
ri1  r j1  ri 2  r j 2  ri 3  r j 3 肢体夹角的角加速度特征构建中,同样取与肢
 j  arccos (2)
r r r  r r r
2
i1
2
i2
2
i3
2
j1
2
j2
2
j3 体夹角构成中相同的 11 个角度 j,j=1,2,···11,加
速度特征基于这 11 个角度进行建立。肢体夹角的
其中, j 为 11 个肢体夹角,j=1,2,···,11;ri 为第一
角加速度特征计算为
个肢体向量;rj 为第二个肢体向量。基于此,人体
 j ,t  k   j ,t
的一个动作可以表示为  n ,t  (8)
k2
A  [ j ,1, j ,2 ,, j ,t ] (3)
其中, j,t 为第 j 个夹角第 t +k 时刻与第 t 时刻 2 帧
其中,下标 1,2,···, t 为一个动作序列中的帧序列号。 之间在动作过程中的角加速度;k 为 2 帧之间的时
构建相对距离时可选取影响人体运动身体变 长; j,t 为第 j 个肢体夹角在第 t 时刻的角度。基于
化较大的 8 个关节点,即左手肘、右手肘、左手腕、 肢体夹角的角加速度特征,人体的一个动作可以表
右手腕、左膝盖、右膝盖、左脚踝、右脚踝。通过 示为
计算这 8 个关节点与腰关节点之间的距离,可得 8 D  [ j ,1 , j ,2 ,, j ,t 1 ] (9)
组距离 di,9,i=4,5,7,8,10,11,12,13,代表 8 个关节点
基于骨架模型简化,融合静态特征和动态特征
的编号。考虑到不同个体的身高差异性,采取归一
使得原始骨骼数据中的 60 维数据降低为由 11 个肢
化思想,对得到的 8 组距离统一除以锁骨关节(编号
体夹角、8 个重要关节点的相对距离、人体模型中
2)与腰关节(编号 9)之间的距离 d2,9,以最大可能的
所有 13 个关节点的关节动能以及 11 个肢体夹角的
消除人体身高差异,具体计算为
角加速度构成的 43 维,在原始动作特征最大程度
di ,9 保留的情况下,降低了数据维度。在 4 个人体动作
i ,9  (4)
d 2,9 特征完成后,进行特征融合,即将静态特征中的第
其中, i,9 为 8 个关节点与腰关节点间消除身高差 一帧舍弃以达到与动态特征相同的帧数。基于静态
后的距离。di,9 为消除身高前的距离,腰关节点与锁 和动态特征组成的融合特征,人体的一个动作就可
骨关节点之间的距离取决于不同个体。这样,基于 以表示为
相对距离特征,人体的一个动作可以表示为 x  [ A, B, C , D] (10)
B  [i ,9;1,i ,9;2 ,,i ,9;t ] (5) 1.4 关键帧提取模型
在静态特征的构建中,虽然实现了对每一帧动 关键帧是原始动作序列中能够反映动作内容
作的表述,但是对于近邻帧之间的变化量却无法表 的帧。在实际中,人体的动作序列通常由很多帧构
达,使用动态特征,如关节动能和肢体夹角的角加 成,在动作识别中,这些帧对识别的贡献率并非相
速度等,可以更加有利地进行人体动作的分类。 同。因此,需剔除对一个动作序列变化不明显的帧,
关节动能特征描述选取人体骨架模型中人体 在提高动作识别的准确率的同时减少计算量。
动作时信息贡献较大的 13 个关节点(图 1),根据动 使用关节动能和肢体夹角的角加速度 2 个动态
作序列中相邻 2 帧的数据,关节动能的计算为 特征进行关键帧提取模型的构建。通过计算关节动
能中的每个关节数据与上一帧关节数据的欧氏距
1  ( x  x )  ( yi ,t k  yi ,t )  ( zi ,t k  zi ,t ) 
2 2 2
Ei ,t  m  i ,t k i ,t  离,同时依据不同关节对动作判别的重要性赋予不
2  k2 
同的权重,可得出动能部分加权后的欧氏距离 St1 ,
(6)
其中,Ei,t 为第 i 个关节点第 t +k 时刻与第 t 时刻 2 即
帧之间的动能,i=1,2,···13,k 为 2 帧之间的时长; 13

m 为动能计算公式中的系数,可视为常数;(x,y,z)
St1  i ( Ei,t 1  Ei,t )2 (11)
i 1

为关节点在三维空间中的坐标值。基于关节动能特 同理,计算肢体夹角的角加速度与上一帧的加
第2期 杨世强,等:基于 LSTM 神经网络的人体动作识别 177

权后的欧式距离 St2 ,即 网络输入的是由所提取的静态和动态特征融


11
合的 4 个特征,每个人体动作特征 x 是一个 43 维
S t2   j ( j ,t 1   j ,t ) 2
(12) 数据,数据长度因每个动作的帧数不同而不同。在
n 1
输入前,为了便于处理,统一将每组用于训练或测
最终的人体动作关键帧提取模型将上述 2 部分
试的数据进行等长处理,即按照每组中序列最长的
进行合并相加,可得
序列对剩余的序列进行补零操作。在每个时间帧
13 11
St  i ( Ei,t 1  Ei,t ) 2
  j ( j ,t 1   j ,t ) 2
(13) 中,输入网络的数据是一个 43 维的向量。随后,
i 1 n 1
通过 LSTM 层的计算,将中间值送入到输出层,输
其中,i 为 13 个关节点;j 为 11 个夹角; i 和 j
出层所使用的为 Softmax 函数,对该动作进行判断,
为上述 2 项的权重系数;Ei,t 为第 t 帧的第 i 个关节
输出属于每个动作标签的概率,对应概率值最高的
点的动能;aj,t 为第 t 帧的第 j 个夹角的角加速度值。
即为网络最终的输出类别。
接下来将人体的每个完整动作序列中的帧通
LSTM 神经网络的前向计算过程如下:
过以下条件进行约束筛选,筛选原则为
根据 LSTM 输入的人体动作数据,t 时刻遗忘
S  Smin
Z ≥ max (14) 门 ft 为

f t   (W f [ht 1 , xt ]  b f ) (15)
其中,Smax 为一个序列动作中计算得出的最大加权
求和值;Smin 为最小的加权求和值;为常数。在计 其中, 为门激活函数(Sigmoid 函数);Wf 为遗忘门
算时,Smax 与 Smin 均是针对某一个动作序列中的数 权重矩阵;[ht1,xt]为遗忘门数据输入,xt 是 t 时刻
据进行筛选,当进入下一个动作序列后,根据其数 输入网络 43 维向量,短期记忆状态 ht1 保存了当前
据的不同,重新计算 Smax 和 Smin。通过该方法,将 动作帧与相邻动作帧的信息;b f 为遗忘门的偏置项;
所有的人体动作序列筛选一遍,可得每个动作序列  为点乘。
中符合要求的帧 Z。 t 时刻输入门 it 为
it   (Wi [ht 1 , xt ]  bi ) (16)
2 基于 LSTM 的人体动作识别 其中,Wi 为输入门权重矩阵;b i 为输入门的偏置项。
t 时刻长期记忆状态 c t 为
在人体动作识别特征构建的基础上,首先搭建
ct  ft  ct 1  it  tanh(Wc [ht 1 , xt ]  bc ) (17)
LSTM 神经网络分类器进行人体动作识别分类,随
后再构建 Bi-LSTM 神经网络分类器,引入注意力 其中,c t1 为长期单元状态,保存了动作第一帧到
机制和 Dropout 来完善优化网络结构与性能,进一 当前帧的相关信息;Wc 为其权重矩阵;bc 为其偏置;
 为按元素相乘。
步提高识别率。
2.1 基于 LSTM 的人体动作识别 t 时刻输出门 ot 为
使用 LSTM 神经网络进行识别分类的网络输 ot   (Wo [ht 1 , xt ]  bo ) (18)
入为 2 个静态特征和 2 个动态特征组成的融合特 其中,Wo 为输出门权重矩阵;bo 为其偏置。
征,利用训练集训练得到合适的网络参数,再对测 最终可得 LSTM 网络的 t 时刻输出值为
试集进行识别分类。图 2 搭建的是基于 LSTM 神经 ht  ot  tanh(ct ) (19)
网络人体动作识别训练模型。 2.2 Bi-LSTM 神经网络
LSTM 神 经 网 络 只 能 进 行 单 向 学 习 , 而
Bi-LSTM 是 LSTM 的改进型,将前向及后向连接到
同一输出。Bi-LSTM 神经网络结构由一个向前和一
个向后传播的 LSTM 构成,正向与反向无相互连
接,就实现了 2 个相互独立的隐藏层之间信息数据
的双向传播。正因为此,使得其对于信息的提取学
习相较于 LSTM 神经网络更加的全面。
图 2 基于 LSTM 的动作识别模型 图 3 为基于 Bi-LSTM 神经网络的人体动作识
Fig. 2 Action recognition model based on LSTM 别结构主体模型。图中,Bi-LSTM 神经网络的正向
178 图像处理与计算机视觉 2021 年

及反向 LSTM 的单元结构与原理相同。Bi-LSTM 将 2.4 Dropout 机制


2 层的 LSTM 输出通过下式融合,再通过 Softmax 在人体动作识别模型的训练过程中,当训练样
函数得出识别结,即 本 较 少时 容易 出 现过 拟合 , 有必 要对 网 络使 用
ht  ht  hf
t
b
(20) Dropout 防止过拟合来实现正则化效果。
yt  Soft max(hi ) (21) 对神经网络输入的人体动作特征数据 x,输出
为 y,首先随机删除神经网络隐藏层中的一些神经
其中, ht f 为前向 LSTM 的输出; htb 为反向 LSTM
元,输入层以及输出层的神经元保持不变;然后输
的输出。
入动作特征数据,数据通过神经网络向前传播;再
将网络的损失值进行反向传播,在所有的训练样本
中的一部分执行完此过程后,并在保留的神经元上
再进行参数的更新。重复此过程,恢复之前去掉的
神经元,再次从隐藏层随机选择一些神经元进行删
除,记录删除神经元参数,再进行部分样本的训练。

3 实验仿真与分析
用 MSR Action 3D 及 UTKinect Action 3D 2 个
人体动作数据库对上述模型的可行性进行实验验
证。实验环境配置为:Intel i5-3337U 1.8 GHz,4 G
内存, Windows7 64 位系统。实验仿真使用基于
图 3 基于 Bi-LSTM 动作识别模型
TensorFlow 1.9.0 的框架,编程语言使用 Python 3.5
Fig. 3 Action recognition model based on Bi-LSTM
及 MATLAB R2017b 实现。
3.1 MSR Action 3D 数据库实验与分析
2.3 注意力机制
对于 MSR Action 3D 数据库划分为 AS1,AS2
动作识别中,人体所有参与模型建立的关节点
和 AS3 3 个组,采取 3 种验证方法对本文算法进行
都对动作的识别分类产生着影响,采取注意力机制
评估,Test One 取所有人做的 1/3 动作数据为训练
对这些关节点的重要性进行评判,突出人体动作特
集,其余 2/3 为测试集;Test Two 取所有人做的 2/3
征中的重要信息,降低了对于识别分类不明显数据
动作数据为训练集,其余 1/3 为测试集;Cross subject
的关注度。注意力机制通过加权求和,从而找出对
test 为交叉验证,取 1/2 的实验对象为训练集,1/2
动作识别最重要的关节点,提升整个识别网络模型
的实验对象为测试集。在 LSTM 神经网络的人体识
的计算效率。
别模型中,参数设置:学习率为 0.001,=0.001,
特征提取中,得到的人体动作序列是一个 43
模型迭代次数为 1 000,batchsise 为 5,网络输入节
帧数的矩阵形式,在识别中将动作帧统一按照最长
点为 43,隐藏层节点为 80。
处理。针对于网络输出的 l 个特征向量 hi,按照下
图 4 是在 MSR Action 3D 数据库的 AS1 数据集
式,变换后的向量 hʹ为
中,单独使用 Test One 测试方法得到的肢体夹角、
l
h    i hi (22) 相对距离、关节动能和肢体夹角的角加速度时的识
i 1
别结果,红色为正确的动作类别,蓝色为识别的动
其中,hi 为调整前的特征向量; i 为权重,在注意 作类别。
力机制中,重点为计算出合理的 i。首先计算得分 从上述结果得出 4 个动作特征的识别率分别为
值 Scorei,即 52.59%,60.74%,83.70%和 82.22%,2 个动态特征
Scorei  tanh(Wi hi  bi ) (23) 识别率远高于 2 个静态特征识别率,但单一使用动
其中,Wi 和 bi 分别为权重和偏置,接下来将得到的 态特征也无法得到很高的识别率,有必要进行多特
l 个得分值 Scorei, (i=1,···,l),送入一个 Softmax 函 征融合进行动作识别。
数,得到最后的权重值 i,即 图 5 为 AS1 组中进行关键帧提取与未进行关键
 i  Soft max( Scorei ) (24) 帧提取的对动作识别率的影响。识别的最终结果使
第2期 杨世强,等:基于 LSTM 神经网络的人体动作识别 179

用混淆矩阵图进行表示,图中在对角线上为得到正
确识别分类的人体动作,反之,未在对角线上的为
错误分类的动作类别。在未进行关键帧提取的动作
数据中分类正确识别率为 90.37%,进行关键帧提取
后的动作正确识别率有所提高,为 91.85%。

图5 关键帧提取前后的识别效果对比((a)未进行关键帧
提取的动作识别;(b)关键帧提取后的动作识别)
Fig. 5 Comparison of recognition effect before and after
key frame extraction ((a) Action recognition without key
frame extraction; (b) Action recognition after key frame
extraction)

表 1 为动作特征数据在 LSTM 与基于 Bi-LSTM


神经网络并加入注意力机制以及 Dropout 后的识别
结果对比。该实验除引入的 Dropout 参数外,其余
参数设置与前保持一致。可以看出,加入 Bi-LSTM
神经网络注意力机制以及 Dropout 后,识别率有所
提高。
表1 MSR Action 3D 数据库 LSTM 与
Bi-LSTM+Attention 以及 Dropout 网络识别率对比(%)
Table 1 Comparison of network recognition rate
between LSTM and Bi LSTM plus attention plus Dropout
in MSR action 3D Database (%)
网络 识别率
LSTM 88.15
Bi-LSTM+Attention+Dropout 91.85

表 2 为对 MSR Action 3D 数据库 3 个分组数据


图4 4 个特征的识别结果((a)肢体夹角的识别结果; 集中的 AS1 组、AS2 组和 AS3 组使用 Bi-LSTM+
(b)相对距离的识别结果;(c)关节动能的识别结果; Attention 网络以及 Dropout 进行识别分类,得到的
(d)肢体夹角的角加速度的识别结果) 结果。平均识别率为 89.15%。
Fig. 4 Recognition results of four features ((a) Recognition 3.2 正交试验法
results of limb angle; (b) Recognition results of relative
distance; (c) Identification results of joint kinetic energy; (d) 实验中发现神经网络参数设置的不同对于人
Recognition results of angular acceleration of limb angle) 体动作最终识别率影响较大,有必要对于神经网络
180 图像处理与计算机视觉 2021 年

的主要参数进行优化,以获得良好的动作识别分类 学习率、批量数以及隐藏层单元的神经元数量在
效果。本文采用正交试验法对 Bi-LSTM+Attention+ A4B2C3 时,即当 3 个参数分别取 0.005 0,10 和 80
Dropout 神经网络中的 3 个主要参数:学习率、批 时,动作识别率最高为 95.56%。
量数以及隐藏层节点数进行优化。正交试验的因素 3.3 优化结果与分析
水平见表 3。 经正交试验法优化 3 个参数后,再对 MSR
表 2 MSR Action 3D 数据库三组数据识别率对比(%) Action 3D 数据库进行实验,动作识别分类结果与
Table 2 Comparison of recognition rate of three groups 其他现有人体动作识别分类算法进行对比,见表 5。
of data in MSR action 3D database (%) 表5 MSR Action 3D 数据库参数优化后识别率与
Test one Test two Cross subject test
参数 其他算法对比(%)
AS1 AS2 AS3 AS1 AS2 AS3 AS1 AS2 AS3
Table 5 Comparison of recognition rate between MSR
识别率 91.85 84.21 95.74 94.37 92.11 96.00 88.17 72.32 87.62
action 3D database and other algorithms after parameter
optimization (%)
表 3 试验的因素与水平
Test one Test two Cross subject test
Table 3 Factors and levels of the test 算法
AS1 AS2 AS3 AS1 AS2 AS3 AS1 AS2 AS3
因素 文献[12] 89.5 89.0 96.3 93.4 92.9 96.3 72.9 71.9 79.2
水平
学习率 批量数 隐藏层节点数 文献[13] 98.5 96.7 93.5 98.6 97.9 94.9 87.9 85.5 63.5
1 0.000 1 5 60 文献[14] - - - - - - 79.5 71.9 92.3
2 0.000 5 10 70 文献[15] 94.9 90.5 96.6 98.6 96.7 95.7 89.2 80.5 86.7
3 0.001 0 15 80 本文 95.6 89.5 97.2 98.6 93.4 98.7 89.3 82.1 89.5
4 0.005 0 20 90
5 0.010 0 25 100
从实验结果可以看出,对神经网络的学习率、
批量数以及隐藏层单元的神经元数 3 个参数进行优
根据表 3 中的各因素所取的水平设计正交试验
化后,基于 Bi-LSTM+Attention+Dropout 神经网络
(每种因素在不同的水平下),试验结果见表 4。
取得了较高的识别率,在 MSR Action 3D 数据库中
表 4 网络参数试验及结果 的 9 组实验中,有 4 组识别率高于相比的 3 种方法,
Table 4 Network parameter test and results 平均识别率达到 92.64%,高于其余 3 种 86.82%,
因素
试验编号 识别率(%) 90.78%和 92.16%,而在交叉验证的 3 组实验中,
学习率 批量数 隐藏层节点数
1 0.000 1 5 60 86.67 平均识别率达到 86.97%,高于相比的 4 种 74.67%,
2 0.000 1 10 70 85.93
78.97%,81.23%和 85.47%。UTKinect Action 3D 数
3 0.000 1 15 80 76.30
4 0.000 1 20 90 77.04 据库中也取得了 95.96%的识别率,表明深度学习算
5 0.000 1 25 100 62.96
6 0.000 5 5 70 88.89
法具备提取人体动作特征深层次特征的能力,有利
7 0.000 5 10 80 90.37 于动作识别。
8 0.000 5 15 90 80.00
9 0.000 5 20 100 80.74 在 UTKinect Action 3D 数据库中,使用优化后
10 0.000 5 25 60 62.22 的参数对人体动作进行重新实验,得到的最终识别
11 0.001 0 5 80 91.85
12 0.001 0 10 90 89.63 率与其他人体动作分类算法的对比见表 6。由于本
13 0.001 0 15 100 80.74
14 0.001 0 20 60 81.48
文采用的是深度学习算法,其对于数据量的要求较
15 0.001 0 25 70 64.44 大,而本文数据有限,故对识别率有一定影响。
16 0.005 0 5 90 91.85
17 0.005 0 10 100 91.85 表6 UTKinect Action 3D 数据库识别率与
18 0.005 0 15 60 80.00 其他算法对比(%)
19 0.005 0 20 70 81.48
Table 6 Comparison of recognition rate between
20 0.005 0 25 80 70.37
21 0.010 0 5 100 86.67 utkinect action 3D database and other algorithms (%)
22 0.010 0 10 60 91.85 分类算法 识别率
23 0.010 0 15 70 85.19 CNN+LSTM[16] 99.00
24 0.010 0 20 80 80.00 Lie group[17] 97.08
25 0.010 0 25 90 63.70 文献[18] 97.00
本文 95.96
采用直观分析法,根据 25 次正交实验的结果 文献[14] 95.10
文献[19] 94.90
计算得出 125 次全面实验中的最优参数组合。通过 文献[20] 93.50
计算可知,当人体动作识别网络中的 3 个主要参数 Random forests[21] 91.90
第2期 杨世强,等:基于 LSTM 神经网络的人体动作识别 181

Computer Vision – ECCV 2018. Cham: Springer International


4 结 论 Publishing, 2018: 713-730.
[9] DONAHUE J, HENDRICKS L A, GUADARRAMA S, et al.
本文基于人体三维骨架模型,融合静态特征与 Long-term recurrent convolutional networks for visual
recognition and description[J]. 2015 IEEE Conference on
动态特征,构成动作特征描述方法,经关键帧提取
Computer Vision and Pattern Recognition. New York: IEEE
模 型 对动 作序 列 关键 帧进 行 筛选 。建 立 了基 于 Press, 2015: 2625-2634.
[10] SONG S, LAN C, XING J. An end-to-end spatio-temporal
LSTM 神经网络的人体动作识别模型,针对 LSTM
attention model for human action recognition from skeleton
神经网络在人体动作分类中存在的不足,使用基于 data[C]//Conference on Artificial Intelligence. San Francisco:
AAAI, 2017: 4263-4270.
Bi-LSTM 神经网络的分类器,并引入注意力机制以
[11] 沈西挺, 于晟, 董瑶, 等. 基于深度学习的人体动作识别方
及 Dropout 可进一步提高对于人体动作特征的识别 法[J]. 计算机工程与设计, 2020, 41(4): 1153-1157.
性能。通过对神经网络主要参数使用正交试验法进 SHEN X T, YU S, DONG Y, et al. Human motion recognition
method based on deep learning[J]. Computer Engineering and
行优化,使得基于 Bi-LSTM+Attention+Dropout 神 Design, 2020, 41(4): 1153-1157 (in Chinese).
经网络的分类器相对于 LSTM 神经网络分类器有 [12] LI W Q, ZHANG Z Y, LIU Z C. Action recognition based on a
bag of 3D points[C]//2010 IEEE Computer Society Conference
更加优异的表现。 on Computer Vision and Pattern Recognition - Workshops.
New York: IEEE Press, 2010: 9-14.
参考文献 (References) [13] XIA L, CHEN C C, AGGARWAL J K. View invariant human
action recognition using histograms of 3D joints[C]//2012
[1] 唐超, 王文剑, 张琛, 等. 基于 RGB-D 图像特征的人体行为 IEEE Computer Society Conference on Computer Vision and
识别[J]. 模式识别与人工智能, 2019, 32(10): 901-908. Pattern Recognition Workshops. New York: IEEE Press, 2012:
TANG C, WANG W J, ZHANG C, et al. Human action 20-27.
recognition using RGB-D image features[J]. Pattern [14] CIPPITELLI E, GASPARRINI S, GAMBI E, et al. A human
Recognition and Artificial Intelligence, 2019, 32(10): 901-908 activity recognition system using skeleton data from RGBD
(in Chinese). sensors[EB/OL]. [2020-06-21]. http://www.hindawi.com/
[2] 许艳, 侯振杰, 梁久祯, 等. 深度图像与骨骼数据的多特征 journals/cin/2016/4351435/.
融合人体行为识别[J]. 小型微型计算机系统, 2018, 39(8): [15] 杨世强, 罗晓宇, 李小莉, 等. 基于 DBN-HMM 的人体动作
1865-1870. 识别[J]. 计算机工程与应用, 2019, 55(15): 169-176.
XU Y, HOU Z J, LIANG J Z, et al. Human action recognition YANG S Q, LUO X Y, LI X L, et al. Human action recognition
with multi-feature fusion by depth image and skeleton data[J]. based on DBN-HMM[J]. Computer Engineering and
Journal of Chinese Computer Systems, 2018, 39(8): 1865-1870 Applications, 2019, 55(15): 169-176 (in Chinese).
(in Chinese). [16] NÚÑEZ J C, CABIDO R, PANTRIGO J J, et al. Convolutional
[3] CARBONERA LUVIZON D, TABIA H, PICARD D. Learning Neural Networks and Long Short-Term Memory for
features combination for human action recognition from skeleton-based human activity and hand gesture recognition[J].
skeleton sequences[J]. Pattern Recognition Letters, 2017, 99: Pattern Recognition, 2018, 76: 80-94.
13-20. [17] VEMULAPALLI R, ARRATE F, CHELLAPPA R. Human
[4] 田联房, 吴啟超, 杜启亮, 等. 基于人体骨架序列的手扶电 action recognition by representing 3D skeletons as points in a
梯乘客异常行为识别[J]. 华南理工大学学报: 自然科学版, lie group[C]//2014 IEEE Conference on Computer Vision and
2019, 47(4): 10-19. Pattern Recognition. New York: IEEE Press, 2014: 588-595.
TIAN L F, WU Q C, DU Q L, et al. Recognition of passengers’ [18] LIU J, SHAHROUDY A, XU D, et al. Spatio-temporal LSTM
abnormal behavior on the escalator based on human skeleton with trust gates for 3d human action recognition[J]. IEEE
sequence[J]. Journal of South China University of Technology: Transactions on Pattern Analysis and Machine Intelligence,
Natural Science Edition, 2019, 47(4): 10-19 (in Chinese). 2018, 40(12): 3007-3021.
[5] YANG Z Y, LI Y C, YANG J C, et al. Action recognition with [19] ANIRUDH R, TURAGA P, SU J Y, et al. Elastic functional
spatio–temporal visual attention on skeleton image coding of human actions: From vector-fields to latent
sequences[J]. IEEE Transactions on Circuits and Systems for variables[C]//2015 IEEE Conference on Computer Vision and
Video Technology, 2019, 29(8): 2405-2415. Pattern Recognition (CVPR). New York: IEEE Press, 2015:
[6] ZHANG S Y, YANG Y, XIAO J, et al. Fusing geometric 3147-3155.
features for skeleton-based action recognition using multilayer [20] WANG C Y, WANG Y Z, YUILLE A L. Mining 3D
LSTM networks[J]. IEEE Transactions on Multimedia, 2018, key-pose-motifs for action recognition[C]//2016 IEEE
20(9): 2330-2343. Conference on Computer Vision and Pattern Recognition
[7] LIU M Y, LIU H, CHEN C. Enhanced skeleton visualization (CVPR). New York: IEEE Press, 2016: 2639-2647.
for view invariant human action recognition[J]. Pattern [21] ZHU Y, CHEN W B, GUO G D. Fusing spatiotemporal
Recognition, 2017, 68: 346-362. features and joints for 3D action recognition[C]//2013 IEEE
[8] ZOLFAGHARI M, SINGH K, BROX T. ECO: efficient Conference on Computer Vision and Pattern Recognition
convolutional network for online video understanding[M]// Workshops. New York: IEEE Press, 2013: 486-491.

You might also like