杨涛文献综述和开题报告

基于深度学习的步态识别算法研究
本科生毕业论文（设计）
文献综述和开题报告
指导教师周泓教授
年级与专业 2016级测控技术与仪器
所在学院生物医学工程与仪器科学学院
一、题目：基于深度学习的步态识别算法研究
二、指导教师对文献综述、开题报告、外文翻译的具体要求
指导教师（签名）
年月日
目录
一、文献综述...................................................................................................................4
1 背景介绍..........................................................................................................................4
2 国内外研究现状..............................................................................................................4
2.1 研究方向及进展......................................................................................................5
2.2 存在问题................................................................................................................10
3 研究展望........................................................................................................................10
4 参考文献........................................................................................................................11
二、开题报告.................................................................................................................13
1 问题提出背景................................................................................................................13
1.1 背景介绍.............................................................................................................13
1.2 本研究的目的和意义..........................................................................................14
2 论文主要内容和技术路线.............................................................................................14
2.1 主要研究内容........................................................................................................14
2.2 技术路线................................................................................................................15
2.2.1 步态识别............................................................................................................15
2.2.2 PyTorch 深度学习框架......................................................................................15
2.2.3 数据集................................................................................................................16
2.2.4 姿态估计............................................................................................................16
2.2.5 分类器................................................................................................................17
2.3 可行性分析............................................................................................................18
3 研究计划进度安排及预期目标.....................................................................................19
3.1 进度安排................................................................................................................19
3.2 预期目标................................................................................................................20
4 参考文献........................................................................................................................20
三、外文翻译........................................................................................................................21
基于深度神经网络的步态视频健康问题自动检测.............................................................21
四、外文原文........................................................................................................................37
毕业论文（设计）文献综述和开题报告考核.....................................................................45
一、文献综述
1 背景介绍
大量研究表明[1][2]，步态与指纹，面部类似，是一种独特的生物特征。
不同的人往往拥有不同的步态，步态可以作为身份识别的依据。除此之外，不
同年龄、不同性别、不同名族、不同健康状况的人的步态也存在着一定的差异。
通过对某个人步态的分析，我们也可以获取关于他的诸多属性特征。虽然步态
识别相对于人脸识别、指纹识别是一种较新的、不太成熟的技术，但是其意义
非凡。
传统的步态分析有采用传感器测量人体行走时的各项参数，然后对所得参
数通过经验对其进行评判，从而得出被测人的相关属性的方法。也有通过步态
视频，人工进行评估的方法。这些方法都极大地受人为因素的影响，并且耗费
比较大的人力成本。
最近几年随着计算机性能的不断提高，计算机视觉不断取得突破。通过深
度学习，进行图像分类、图像特征提取的方法以及对视频序列进行处理的模型
不断被提出，所以通过深度学习进行人体步态识别成为诸多学者研究的课题。
由于步态本身包含诸多信息，对于步态研究，根据研究者目的的不同，其
既可以是诸如身份识别的多分类问题，也可以是诸如性别判断的简单分类问题。
对于身份识别问题，神经网络，通过学习每个人的特征，然后将对每个不同的
人生成对应的特征向量，根据特征向量的不同从而识别出不同的人。相对于人
脸识别、指纹识别，它是一种非接触式的，远距离，无需受试者配合和侵入。
并且由于人们在公众场合步态本身难以伪装，所以基于步态视频进行身份识别
在预防犯罪、法医鉴定、社会保障等方面具有广泛的应用。而对于性别分类，
情绪识别，年龄识别等是相对于身份识别分类数目较少的分类问题，与身份识
别类似在远距离提取人特征的场景下具有很大的价值。并且根据研究表明，步
态还能够表征一个人的健康状况，所以通过步态分析在医学方面的价值也十分
巨大。
2 国内外研究现状
2.1 研究方向及进展
2.1.1 步态识别概述
步态识别是一种独特的生物特征，相比于指纹识别，人脸识别具有远距离
识别的优势。步态包含诸多人体特征，通过步态分析我们可以进行行人的身份
识别、性别，年龄等属性识别。就当前研究的热点来看，研究者们的研究重点
主要放在通过步态进行身份识别的任务上，对于从通过步态提取行人属性的研
究相对较少。
步态识别同动作识别等有诸多相似之处，都是通过分析视频序列，提取人
物动作变化特征从而达到识别的目的。对于步态识别，通常由五个步骤组成：
1、数据集采集，2、数据预处理，3、周期检测，4、特征提取，5、特征分类与
匹配。
数据的采集就是利用一台或多台摄像机，专业运动捕捉系统和带深度传感
器的摄像机在指定环境采集得到的视频数据的过程。
数据预处理根据采集数据的方法不同而主要分为两种不同的方式，而根据
这两种数据预处理方式的不同，我们又将步态识别方法分为了基于模型的方法
和无模型方法。无模型方法通常采用背景消除法，去除视频中行人的背景噪声，
获取人体轮廓图，并最终将步态序列变为灰度图的预处理方法。为了降低预处
理过程中带来的偏差，增强识别鲁棒性，Han J 等人[3]在 2006 年提出了通过单
张步态能量图（GEI）来表示步态序列的方法。GEI 通过对整个步态周期中的轮
廓进行平均而生成，它在保留时序信息的同时，在单张图片表示行人运动序列。
基于模型的方法是通过人体关节点识别等方法，通过整合信息建立人体合适的
骨骼或关节模型，然后利用构建的模型对个体进行分类。此方法能够减少由视
角变化引起的影响。在之后
周期检测的目的在于减少数据冗余，减少计算量。步态是一种周期的信号，
在处理的时候，我们只需要一个整周期的步态序列即可。周期检测可以通过行
人行走过程中手臂摆弧的周期性变化，或者双脚之间距离的周期性变换来继续
检测。
特征提取是步态识别中非常重要的一个步骤。传统的方式是通过专家根据
自身经验来提取行人的特征，从而最终实现对行人属性或者身份的识别。但是
目前主流还是通过机器学习学习步态特征，根据学习到的特征对行人进行分类
等。
特征分类和匹配是步态识别的最终目的。通过第四步中提取的特征信息，
将其映射到特征空间，利用基于步态特征的分类器最终实现分类任务。
图 1 步态识别基本步骤
2.1.2 通过步态进行身份识别
通过步态进行身份识别是步态识别中最为热门的一个方向。其在预防犯罪，
法医鉴定和社会保障中具有广泛的应用。
对于步态识别，有很多采用基于模型的方法。比如 1994 年，Guo 等人[4],
人体轮廓对人体结构进行建模。他们利用六个点表示重要关节点，利用直线连
接关节点，简化了人体模型（如图 1.a 所示）。在 1997 年，Cunado 等人[5]，
将人的大腿建模为铰链的钟摆，利用角度信息获取步态特征（如图 2.b 所示）。
在 Cunado 等人的基础上，在 2004 年，Urtasun 等人将方法扩展到三维空间，提

出了基于主元分析的三维人体运动模型。
图 2 基于模型的步态识别方法
在非模型方法方面，目前最为流行的是 2006 年 Han J 提出的步态能量图

（GEI）。同年 Lam THW 等人[7]也提出了类似 GEI 的运动轮廓图像（MSI）表示
方法。在 2010 年 , Bashir 等人 [8] 根据 Shannon 熵提出了根据步态熵图像
（GEnI）表示的方法，它对整个步态周期中轮廓图像中的像素值的随机性进行
编码，能够更好地处理行人着装变化的情况。2003 年，Sundaresan 等人[9] 提
出了一种基于隐马尔可夫模型（HMM）的步态识别方法，在该方法中，步态被视
为一系列 HMM 状态。
除此之外,在 2016 年 Wolf 等人[10],利用 3D 卷积捕捉步态序列中的时空序
列，并为了解决卷积网络不能处理不定长步态序列问题，而将步态序列切分成
一系列固定长度的短序列进行处理。不久，在 2017 年，Wu 等人[11]首次提出了
一种深度神经网络，通过相似性学习进行步态识别的方法。该方法通过少量标
注的多视图步行视频，就训练深度神经网络去识别不同人之间最具去分性的特
征（如 3 所示）。同年，Liao 等人[12]利用开源的姿态估计算法从原始视屏中
提取人体姿态信息，提取了一种基于姿态的时空网络（PTSN），该方法对于行
人服饰的更加健壮。
图 3 基于深度神经网络的步态识别方案
对于利用步态进行身份识别，最近的一个影响力比较大的项目是复旦大学
提出的 GaitSet 算法[13]。对于步态轮廓图，即使一个周期里面的轮廓图被打
乱，我们也能非常轻松地将其重新排列为正确的顺序。受此启发，该团队假设
人体轮廓图本身就包含了时序信息，完全可以通过将步态视为一个集合来提取
时间信息。事实证明，刚方法的确取得了非凡的效果。
图 4 GaitSet 的框架。 “ SP”代表集合池。梯形代表卷积和池块，并且同一列中的梯形

具有相同的配置，用带有大写字母的矩形表示。请注意，尽管 MGP 中的块与主管道中的块
具有相同的配置，但是参数仅在主管道中的块之间共享，而与 MGP 中的
2.1.3 通过步态提取行人属性
通过步态提取行人属性也是步态识别中的一个方向。由于不同年龄、不同
性别、不同健康状况的人拥有不同的步态，通过步态分析我们可以获取诸多关
于行人的信息。本文的目的也是想通过步态来识别行人属性，在此基础上对行
人进行粗分类。
通过步态识别行人和提取属性本质上都是差不多的，它们之间的方法也有
很多的通用性，只是对于步态识别行人身份是一个多分类问题，需要提取更为
精细的特征，但是对于步态提取属性是一个粗分类问题。
在 2002 年，Lee 等人[14]利用人体轮廓图进行了基于步态进行步态分类的
实验。在 2009 年， Yu 等人在公开数据集 CASIAB 以及 Soton Large Gait
Database 上进行了通过步态识别性别的实验，并且对比了人体不同部分对识别
率的影响。在 2011，Makihara 等人[16]使用包含 168 个测试对象的大型多视角
步态数据库对性别和年龄进行了分类。在分类中，他们将受试者分为儿童、成
年男性、成年女性以及老年人四类，综合了性别和年龄的分类。在 2019 年，
Tanmay 等人[17]从视频中提取人体步态信息，通过构建人体行走模型，然后将
生成模型通过 LSTM 进行深度信息提取，并融合计算出的情感特征，成功实现了
通过步态区分快乐、悲伤、愤怒以及中性四种情绪（如图 5 所示）。
图 5 步态识别情绪的网络模型
除此之外，通过步态提取特征在医疗方面应用颇多。在最早的时候人们直
接通过肉眼对病人步态进行分析，从而判断其是否存在健康问题。之后为了提
高精度，人们通过可穿戴传感器采集步态数据，比如 Moore 等人[18]就通过可
穿戴式惯性传感器对人体步态进行分析从而判断测试者是否患有帕金森。
Imanne 等人[19]，利用传感器采集足底受力信息，然后，利用神经网络进行学
习。除此之外，在 2019 年 Rahil 等人[20]，提出了一种利用视频生成人体 3D
模型（如图 6 所示），然后在 3D 模型基础上进行分类从而对测试者的健康进行
自动检测（如图 7 所示）。
图 6 通过视频获取人体 3D 姿态模型
图 7 利用 3D 姿态模型进行分类处理
2.2 存在问题
步态识别来说是一个比较新的研究方向，虽然近几年在步态识别方面取得
了诸多的成就，但是尚且还有很多问题有待解决。
（1）在通过步态识别行人身份方面，没有人脸识别等方式高。由于步态本身
就是一个比较复杂的行为，并且部分人的步态差异较小，难以区分，再加
上步态识别过程中环境因素、行人服饰因素、预处理过程中造成的误差以
及行人多视角差异等，造成通过步态识别身份比较困难。
（2）步态识别是对视频进行分析，所以在模型学习过程中难免要处理非常大
的数据，这使得步态识别模型训练时间非常长，难以训练。
（3）步态识别方面，主流的方向是通过步态进行行人身份识别，而像利用深
度学习通过步态提取行人属性的相对较少。这使得当前步态识别方面的主
流公开步态数据集都是针对于行人身份识别，而少有例如通过步态识别年
龄，通过步态识别行人健康状态的数据集。
（4）步态识别的视频帧序列，往往还需要复杂的预处理过程，经过预处理的
帧序列拿来训练模型才能达到较好的效果。
3 研究展望
由于步态本身所具有的的远距离识别，非侵入式的特点，步态识别具有重
大意义。根据当前步态识别的现状，我认为步态识别将来可以从以下几个方面
进行：
（1）提出更完善的模型改善步态识别的准确率，降低训练复杂度。比如，前
不久的 Gaitset 通过将步态视为一个集合，大大提高了步态身份识别的准
确率，并且降低了模型训练的复杂度，对于步态识别是一个很大的突破。
（2）利用深度学习从步态提取行人属性的研究相对偏少，所以对于利用深度
学习从步态中提取属性的研究可以更为深入。尤其是其在医学方面，比如
帕金森病的检测等的价值非常大。步态识别的应用范围应该进一步扩大。
（3）步态识别的公开数据库可以更加多样化，针对不同步态识别的数据库可
以建立起来。
4 参考文献
[1] Murray, M.P., Drought, A.B., Kory, R.C.: Walking patterns of normal men. J. Bone Joint
Surg. Am. 46(2), 335–360 (1964)
[2] Cutting, J.E., Kozlowski, L.T.: Recognizing friends by their walk: gait perception without
familiarity cues. Bull. Psychon. Soc. 9(5), 353–356 (1977)
[3] Han J, Bhanu B. Individual recognition using gait energy image. IEEE Transactions on Pattern
Analysis & Machine Intelligence. 2006;28(2):316‐322
[4] Guo Y, Xu G, Tsuji S. Understanding human motion patterns. In: International Conference
on Pattern Recognition (ICPR 1994); 9‐13 October 1994; Jerusalem, Israel. New York:
IEEE. 1994;2:325‐329
[5] Cunado D, Nixon MS, Carter JN. Using gait as a biometric, via phase ‐weighted magnitude
spectra. In: International Conference on Audio‐ & Video‐Based Biometric Person Authentication
(AVBPA 1997); 12‐14 March 1997; Crans‐Montana, Switzerland. Berlin: Springer; 1997. pp. 93‐
102
[6] Urtasun R, Fua P. 3 D Tracking for gait characterization and recognition[A]．In：Proceedings
of the Sixth IEEE International Conference on Automatic Face and Gesture
Recognition[C]，Seoal，Korea，2004：17-22．
[7] Lam THW, Lee RST. A new representation for human gait recognition: Motion silhouettes
image (MSI). In: International Conference on Advances in Biometrics (ICB 2006); 5‐7 January
2006; Hong Kong, China. Berlin: Springer. 2006;3832:612‐618
[8] Bashir K, Xiang T, Gong S. Gait recognition using gait entropy image. In: International
Conference on Imaging for Crime Detection & Prevention (ICDP 2009); 3 December 2009;
London, United Kingdom. IET; 2010. pp. 1‐6
[9] Sundaresan A, Roychowdhury R, Chellappa R. A hidden Markov model based framework for
recognition of humans from gait sequences. In: International Conference on Image Processing
(ICIP 2003); 14‐18 September 2003; Barcelona, Catalonia, Spain. New York: IEEE. 2003;2:93‐96
[10] Wolf, T., Babaee, M., & Rigoll, G. (2016). Multi-view gait recognition using 3D
convolutional neural networks.
[11] Wu Z, Huang Y, Wang L, Wang X, Tan T. A comprehensive study on cross‐view gait based
human identification with deep CNNs. IEEE Transactions on Pattern Analysis & Machine
Intelligence. 2017;39(2):209‐226
[12] Liao, R., Cao, C., Garcia, E. B., Yu, S., & Huang, Y. (2017). Pose-based temporal-spatial
network (PTSN) for gait recognition with carrying and clothing variations.
[13] Chao, H., He, Y., Zhang, J., & Feng, J. (2018). GaitSet: Regarding Gait as a Set for Cross-
View Gait Recognition. arXiv preprint arXiv:1811.06186.
[14] Lee, L. and Grimson, W. (2002). Gait analysis for recognition and classification. Proc. 5th
IEEE Int’l. Conf. on Automatic Face and Gesture Recogn., pages 155–162.
[15] Yu, S., Tan, T., Huang, K., Jia, K., and Wu, X. (2009). A study on gait-based gender
classification. IEEE Transactions on Image Processing, 18(8):1905–1910.
[16] Makihara Y, Mannami H, Yagi Y (2011) Gait Analysis of Gender and Age Using a Large-
Scale Multi-view Gait Database. In: Kimmel R., Klette R., Sugimoto A. (eds) Computer
Vision – ACCV 2010. ACCV 2010. Lecture Notes in Computer Science, vol 6493. Springer,
Berlin, Heidelberg
[17] Randhavane, Tanmay & Bera, Aniket & Kapsaskis, Kyra & Bhattacharya, Uttaran & Gray,
Kurt & Manocha, Dinesh. (2019). Identifying Emotions from Walking using Affective and Deep
Features.
[18] Moore ST, macdougall HG, Ondo WG. Ambulatory monitoring of freezing of gait in
Parkinson’s disease[J]. Journal of the Neurological Science, 2008, 167(2):340-348.
[19] Imanne El Maachi, Guillaume-Alexandre Bilodeau, Wassim Bouachir, Deep 1D-Convnet for
accurate Parkinson disease detection and severity prediction from gait, Expert Systems with
Applications, Volume 143, 2020, 113075, ISSN 0957-4174,
[20] Rahil Mehrizi, Xi Peng, Shaoting Zhang, Ruisong Liao, & Kang Li. (2019). Automatic
Health Problem Detection from Gait Videos Using Deep Neural Networks.
二、开题报告
1 问题提出背景
1.1 背景介绍
大量研究表明[1][2]，步态与指纹，面部类似，是一种独特的生物特征。
不同的人往往拥有不同的步态，步态可以作为身份识别的依据。除此之外，不
同年龄、不同性别、不同名族、不同健康状况的人的步态也存在着一定的差异。
通过对某个人步态的分析，我们也可以获取关于他的诸多属性特征。虽然步态
识别相对于人脸识别、指纹识别是一种较新的、不太成熟的技术，但是其意义
非凡。
医疗上面利用步态进行健康问题诊断的情况非常多，其中通过步态分析判
断一个人是否患有帕金森综合征就是其中的一个例子。
通过步态对患病进行评估具有一定的挑战性，这依赖于临床医生的专业知
识，并且有极大的主观性。近几年，由于人工智能的不断发展，利用智能算法
的进行步态评估从而辅助判断患者是否患有帕金森综合征的方案不断被提出。
比如在 2013 年，Daliri 等人[3]，利用 VGRF 作为输入数据，对每个输入信号进
行短时傅里叶变换(STFT)，提取平均频率和频率的方差进行数据分析，最后利
用支持向量机（SVM）进行分类。再比如，2016 年, Ertugrul 等人[4]，提出了
一种基于移位一维局部二值模式（1D-LBP）的机器学习分类器算法。其通过学
习患者和正常人走路过程中，脚上传感器采集的信号，来实现正常和患病的分
类。这些方法很多都是借助可穿戴传感器进行步态数据采集，具有很大的不便
性。
由于机器视觉的发展，利用深度学习对患者步态视频进行分析，从而对是
否患病进行判断的方法被提出。比如在 Imanne 等人[5]的文章中，通过两个普
通摄像头获取人的视频，然后通过视频提取人体模型，在提取的模型基础上进
行 3 种病以及正常状态分类器的学习。
除此之外，步态识别在其它方面的应用中提出的方法对医疗方面的步态识
别也具有极大的指导作用。比如 2018 年复旦大学提出的 Gaitset 算法[6]，将
步态视为一个集合，认为步态本身就包含时序信息。在比如，2019 年，Tanmay
等人[7]从视频中提取人体步态信息，通过构建人体行走模型，然后将生成模型
通过 LSTM 进行深度信息提取，并融合计算出的情感特征，成功实现了通过步态
区分快乐、悲伤、愤怒以及中性四种情绪。所以在通过步态识别帕金森等疾病
的过程中，这些方法的思想也可以被借鉴。
1.2 本研究的目的和意义
本研究的目的是通过深度学习识别行人步态，从而辅助判断出行人步态是
否异常。
将深度学习用于医疗方面的案例很多，其中和步态相关，并且比较流行的
是利用人工智能来对患者步态进行分析以判断出其是否患有帕金森综合征。但
是在之前的研究中，绝大多数对步态的分析都是分析可穿戴传感器输出的信号，
直接通过视频来识别疑似患者是否犯病的研究相对较少。
通过传感器数据来识别步态设备比较复杂，每次识别程序比较繁琐。相比
之下，通过分析患者的步态视频来分析其是否患病，设备更加简单，成本更加
低，识别过程也更为方便快捷。所以能够实现通过步态视频的分析，从而辅助
判断疑似患者是否患病的研究意义很大。
由于诸多疾病在步态上都有不同的体现，所以区分异常步态的方法可以进
一步延伸到其它诸多疾病的识别，而不仅仅局限于简单的异常步态的识别，这
在辅助医生判断疾病方面有比较大的积极作用。
2 论文主要内容和技术路线
2.1 主要研究内容
论文主要研究的是利用深度学习进行步态识别的算法。利用摄像头拍摄行
人步态视频，将视频进行预处理获取人体模型或者人体轮廓图。此基础上，搭
建分类器，对正常步态和患者步态进行学习，最终实现通过步态视频能够粗略
判断出行人是否患有帕金森综合征，从而辅助医生对疾病进行判断。
2.2 技术路线
2.2.1 步态识别
步态识别，通常由五个步骤组成：1、数据集采集，2、数据预处理，3、周
期检测，4、特征提取，5、特征分类与匹配。(参考图一)
数据采集即是利用摄像机拍摄行人行走步态，生成原始的视频数据。采集
数据之后，为了减少运算量，提高最终分类的精度，将采用姿态估计、生成人
体轮廓等方法对视频进行预处理。由于人的步态是一个周期序列，为了减少信
息冗余，降低训练网络的负担，将对处理的数据进行周期性检测，只提取其中
一个周期的步态序列，并利用这一个周期的序列进行训练，提取步态特征。根
据提取的步态特征就可以对步态进行分类匹配。
2.2.2 PyTorch 深度学习框架
PyTorch 是 Facebook 的 AI 研究团队开发的一个用于深度学习的 Python 工

具包，其提供了针对 GPU 加速的深度神经网络编程。其是目前最为流行的深度
学习框架之一。
PyTorch 学习框架提供诸多关于深度学习的库函数，它们使用方便，初学者
也能够通过简单学习搭建比较复杂的神经网络。除此之外，它还提供了诸多开
源预训练模型，使得编程人员可以直接利用经典的预训练网络来完成自己的任
务。相对于 TensorFlow 等深度学习框架，PyTorch 专门针对 Python 编程，与
Python 具有相对来说更好的兼容性，对于 Python 编程者更为友好。并且由于使
用 Python 编程， PyTorch 开发者可以使用很多
PythonNumpy、SciPy、Matplotlib 等库进行数据处理，使得数据处理更为方便，
快捷。
在 PyTorch 中主要处理的是 torch，在最新的 PyTorch 版本中，torch 能够
能够直接进行反向传播，求取梯度。而在之前 torch 需要传入 variable 才能够
进行反向传播求取梯度，这大大简化了编程。
2.2.3 数据集
针对于步态异常检测的公开数据集很少。由于正常步态的数据集很多，比
如 CASIA 等，但是异常步态的数据集却很少。为了解决这个问题，我们决定采
用两种方案来解决。一是可以从网络上下载异常步态视频，下载之后自己进行
处理；二是自行找人模仿异常步态进行拍摄。异常步态获取之后，通过与从
CASIA 等获取的正常步态视频进行混合就能够得到既包括正常步态，又包括异
常步态的数据集。在此数据集上进行处理，将其用于步态异常检测。
2.2.4 姿态估计
人体姿态估计是步态识别中视频序列处理的方法之一。人体姿态估计是利
用事先标记了人体关节点的人体图像或者视频进行学习，从而最终能够从图像
或者视频中提取人体关节点，或者利用这些信息构建人体三维模型。目前利用
深度学习进行人体姿态估计的研究颇多，主要分两种方法，一种是先检测出人
体，然后对单人进行姿态估计的自上而下的方法；另一种是先检测出人体关节
点，利用关节点构建人体骨架的自下而上的方法。
图 1 人体姿态识别效果图
人体姿态估计算法中比较出名的有 OpenPose 和 AlphaPose,他们都可以对图

像以及视频中的多个人进行关节点提取，然后利用关节点绘制人体骨架图。利
用人体姿态估计就能够获取人体关节点信息，通过关节点重新绘制人体骨架图
像，这样能够去除与人体无关的诸多信息，更加准确的把我人体的姿态变换。
OpenPose 和 AlphaPose 都是 2D 姿态估计，在对人体姿态进行分析时，2D 不

能够包括所有的信息。在需要精度，准确的更高的场合，对人体进行 3D 姿态估
计是有必要的。通过视频或者图像构建人体 3D 模型的研究也不少。他们中有的
采用多摄像机采集人体运动的多视图信息，利用多个视图信息的融合，最终实
现 3D 人体姿态估计；也有直接通过单摄像头 2D 图像构建人体 3D 模型的，比如
Dario 等人[8]，就利用单摄像头采集的视频实现对视频中人体的 3D 姿态估计。
图 2 Dario 等人实现的 3D 人体姿态估计效果
2.2.5 分类器
预处理的人体步态视频，最后将通过针对视频序列的分类器将其映射到正
常步态和异常步态两种结果。由于是对序列进行处理，所以在分类器中将用到
能够处理序列的网络。而对序列的处理，主流方法包括 3 维卷积、RNN 网络、
LSTM 网络等。
3 维卷积就是将视频序列进行叠加，在原来 2 维卷积的基础上扩展一个维度，
使得时域成为一个轴。3 维卷积由于包括时域信息，所以能够学习和时域相关
的信息，处理视频序列。
RNN（Recursive Neural Networks）循环神经网络，是一种具有短期记忆
能力的神经网络，其结构如图十所示。从图中可以看出， RNN 的输出不仅和当

前输入相关，还和之前的输出相关，换句话说就是 RNN 具有一定的记忆功能。
正因如此，RNN 可以用来处理时序相关的序列，学习和时序相关的知识。
图 3 RNN 循环神经网络
LSTM 长短期记忆网络，同样被用来序列建模，它是 RNN 的一种变体。与 RNN

不同，它能够学习长期依赖信息。对于长期状态的控制，LSTM 采用精心设计的
“门”，这些门包括，输入门，遗忘门以及输出门。其中输入门控制当前输入
信号多少被保留；遗忘门控制上一时刻的单元状态有多少将被继续保留到当前
时刻；输出门控制单元状态的多少将被作为 LSTM 的当前输出。典型的 LSTM 结
构如图十一所示。
图 4 典型 LSTM 结构
利用这些网络搭建分类器可以实现，对时序相关的视频序列进行学习分类。
最终实现，通过处理后的步态视频序列区分出异常步态。
2.3 可行性分析
异常步态和正常步态在频率，步幅，手的摆动等方面都有一定的差异，这
些差异是可以辨别出来的。根据之前的人体动作识别，通过步态对行人身份识
别等项目，我们可以看到机器学习能够学习到非常细节的知识，这些知识是能
够用于对人体步态的分类任务上的。
为了减少对视频序列学习的负担，步态识别任务将被分为两步，第一步是
视频序列的预处理，第二部是通过处理后的序列或者数据进行二次学习实现步
态的分类。在第一步中，我们采用开源项目 AlphaPose 或者 OpenPose 进行人体
关节点检测。检测到的关节点可以保存为数组形式，也可以重新绘制为人体骨
架图像序列。经过测试，AlphaPose 等姿态识别项目具有足够的精度来获取关
节点信息。第二步就是利用 RNN、LSTM 等能够学习时序信息的网络搭建一个分
类器。大量研究表明，RNN、LSTM 等网络能够很好地学习时序信息，这也就能
够很好地学习步态序列中知识。
最后，步态识别的项目颇多，它们中不乏精度非常高的项目。他们的思路
也可以作为本项目的指导。
综上所述，本项目具有足够的可行性。
3 研究计划进度安排及预期目标
3.1 进度安排
2019.12.01—2019.12.10 完成毕业设计任务书确认工作；
2019.12.11—2020.12.20 完成资料收集、阅读和文献翻译；
2020.12.21—2020.01.17 完成文献综述；
2020.01.18—2020.02.18 完成开题报告，学习开源人体姿态估计网络；
2020.02.19—2020.03.01 搭建基于人体姿态估计的行人分类器；
2020.03.02—2020.03.06 完成开题报告 PPT 稿，完成开题答辩；
2020.03.07—2020.04.05 对模型进行评估完善，并且将人体估计模型的输
出输入分类器进行训练，测试；
2020.04.06—2020.04.10 完成中期检查 PPT 稿，完成中期检查答辩；
2020.04.11—2020.05.10 继续完善模型，使得模型能够达到更好效果，并
开始开发用户界面；
2020.05.11—2020.05.18 开始撰写毕业论文；
2020.05.19—2020.05.25 完成毕业论文撰写；
2020.05.26—2020.05.31 完成毕业论文评阅工作，撰写答辩 PPT 稿；
2020.06.01—2020.06.05 完善答辩 PPT 稿，完成毕业论文答辩。
3.2 预期目标
1）寻找或者自行构建基于步态识别行人属性的数据集；
2）实现基于 DNN 的人体姿态估计；
3）实现基于人体姿态估计模型的行人分类器；
4）完成用户界面软件设计。
4 参考文献
[1] Murray, M.P., Drought, A.B., Kory, R.C.: Walking patterns of normal men. J. Bone Joint
Surg. Am. 46(2), 335–360 (1964)
[2] Cutting, J.E., Kozlowski, L.T.: Recognizing friends by their walk: gait perception without
familiarity cues. Bull. Psychon. Soc. 9(5), 353–356 (1977)
[3] Daliri, M.R., 2013. Chi-square distance kernel of the gaits for the diagnosis of parkinson's
disease. Biomedical Signal Processing and Control 8, 66-70.
[4] Ertu_grul, O.F., Kaya, Y., Tekin, R., Almal_, M.N., 2016. Detection of parkinson's disease by
shifted one dimensional local binary patterns from gait.Expert Systems with Applications 56, 156-
163.
[5] Imanne El Maachi, Guillaume-Alexandre Bilodeau, Wassim Bouachir, Deep 1D-Convnet for
accurate Parkinson disease detection and severity prediction from gait, Expert Systems with
Applications, Volume 143, 2020, 113075, ISSN 0957-4174,
[6] Chao, H., He, Y., Zhang, J., & Feng, J. (2018). GaitSet: Regarding Gait as a Set for Cross-
View Gait Recognition. arXiv preprint arXiv:1811.06186.

[7] Randhavane, Tanmay & Bera, Aniket & Kapsaskis, Kyra & Bhattacharya, Uttaran & Gray,
Kurt & Manocha, Dinesh. (2019). Identifying Emotions from Walking using Affective and Deep
Features.
[8] Dario Pavllo, Christoph Feichtenhofer, David Grangier, & Michael Auli. (2018). 3D human
pose estimation in video with temporal convolutions and semi-supervised training.
三、外文翻译
基于深度神经网络的步态视频健康问题自动检测
0 摘要
目的：本研究的目的是开发一种使用深度神经网络（DNN）来自动检测和步
态相关的健康问题的系统。方法：被提出的系统将患者的视频作为输入，并使
用基于 DNN 的方法估算其 3D 身体姿势。我们的代码可从 https://github.com/
rmehrizi/multi-view-pose-estimation 公开获得。然后在分类器中分析所得
的 3D 人体姿势时间序列，该分类器将输入的步态视频分为四个不同的组，包括
健康人群，帕金森氏病，中风后患者以及骨科疾病患者。所提出的系统消除了
对复杂且笨重的设备和大实验室空间的需求，并使该系统对于非常适合家庭使
用。此外，由于它能够从输入数据中提取语义和高级特征，因此它不需要特征
工程领域知识。结果：实验结果表明，不同组的分类准确度为 56％至 96％。此
外，在 25 位健康受试者中只有 1 位被错误分类（假阳性），在 70 位患者中只
有 1 位被归类为健康受试者（假阴性）。结论：这项研究为功能强大的步态紊
乱自动分类工具提供了一个起点，并可作为深度学习在临床步态分析中未来应
用的基础。启示：由于该系统使用数码相机作为唯一必需的设备，因此可以在
患者和老年人的家庭环境中使用，以进行连续的步态监测以及提前发现步态改
变。
1 简介
步态分析是对人类步行进行系统的研究，以识别步态异常，推测其原因并
提出合适的治疗方法。步态分析通常用于临床应用中，以识别健康问题或监测
患者的康复状况。传统的临床步态分析是由临床医生进行的，他们观察在行走
时的步态特征。但是，这种方法是主观的，取决于临床医生的经验和判断。它
可能导致混乱，并对病理的诊断和治疗决策产生负面影响[1]。
通过使用新技术可以促进临床步态分析的过程，这些技术可以进行客观的
测量并减少主观方法的混乱和误差范围。这些新技术包括：光学运动捕获系统，
能够检测放置在皮肤表面的反射标记的位置；可穿戴的惯性传感器，可结合使
用加速度计和陀螺仪来测量人体运动；嵌在人行道上的测力板平台报告地面反
作用力和扭矩；最后，还包括将肌电图（EMG）传感器放置在皮肤表面以监测肌
肉活动。尽管这些最新技术实现了很高的准确性，但仍有一些缺点限制了它们
的使用。例如，设备成本，实验室设置要求以及由于安装人体传感器而造成的
运动障碍是最重要的缺点，这使得这些技术无法在患者的自然生活环境中用于
连续步态监测，并且将其限制为医院和诊所。
在这项研究中，开发了一种用于自动检测健康问题的步态分析系统，该系
统使用数码相机作为唯一必需的设备对步态模式进行分析和分类，并提供了一
种对患者和老年人进行持续且无所不在的步态监测的工具。使用我们提出的基
于 DNN 的方法，将输入视频转换为 3D 关节坐标（3D 人体姿势），然后在另一个
DNN 中分析所得 3D 关节坐标的时间序列以检测健康问题。这项研究针对三个健
康问题，包括“帕金森”、“中风”、“骨科”进行研究。并利用第四类的
“健康”组作为参考。本研究的贡献有三方面：
 我们提出了一种自动系统，该系统可以从无处不在的数码相机拍摄的视频
中检测与步态有关的健康问题，并进行全面的实验研究以对其进行验证。
 我们开发了一种基于 DNN 的方法，可以直接从视频中估算 3D 人体姿势，并
针对基于标记的运动捕捉系统验证结果。
 我们开发了一种基于 DNN 的分类器，以从估计的 3D 人体姿势中检测健康问
题。
2 文献综述
我们分两类综述相关研究。第一类是概述之前对基于视频的人体运动捕捉
的方法，它们的重点是生物力学应用。第二类是关于步态相关健康问题分类的
最新方法的概述。
A.基于视频的人体动作捕捉
基于视频的人体运动捕捉在过去几十年里得到了大量的研究，各种计算机
视觉和机器学习方法被提出用于三维人体运动跟踪和姿态估计[2-4]。为了解决
传统人体动作捕捉系统存在的设备复杂、准备时间过长、运动障碍和受控环境
要求等问题，研究人员对这些方法在生物力学和临床应用中的适用性进行了研
究[5,6]。特别是，Corazza 等人开发了一种基于视频的步态关节点运动学评估
方法。他们使用了 8 台摄像机来捕捉受试者的多视角图像，并通过背景减法将
这些图像数据转换成可视的外壳。在此基础上，利用身体部分割和最小二乘优
化方法，将预先定义好的三维体模型拟合到可视的外壳上。基于同样的想法，
开发了一种基于水下视频的动作捕捉系统，用于分析爬泳[8]时手臂的运动。尽
管这些方法的准确性很高，但它们严重依赖于背景消除法，这需要一个可控的
环境和照明条件。此外，需要大量的摄像机来构建一个精确的可视外壳表面，
这在家庭使用中并不具备完全的可行性。
随着深度学习技术的出现和进步，采用 DNN 的方法已经成为人脸识别
[9,10]、人体运动识别[11,12]、人体运动跟踪和姿态估计[13-15]等领域视觉
任务的标准。DNNs 由输入层和输出层之间的几个隐藏层组成，能够通过从数据
中学习高级的语义特征来建模复杂的非线性关系。虽然目前基于 DNN 的三维人
体姿态估计方法主要集中在单视图和具有挑战性的设置上[4,16 - 19]，但在本
研究中，我们开发了一种基于 DNN 的多视图图像三维人体姿态估计方法，这是
生物力学分析实验中常见的设置。我们的方法不需要复杂的图像预处理，如背
景消除法，只使用两台摄像机记录步态的矢状面视频就可以得到精确的结果。
B.与步态有关的健康问题分类
在临床步态分析的背景下，诸如支持向量机（ SVM ），人工神经网络
（ANN）和 Logistic 回归之类的机器学习方法在识别特定的步态模式并将其分
类为相关健康问题中得到了应用。之前的研究利用新技术，例如运动捕捉系统
[20]，测力板平台[21、22]，惯性测量单元（IMU）[23]以及它们的组合[24]来
收集步态数据并结合手工特征来识别异常的步态模式。特别是，Pogorelc 等人
[20]使用基于标记的运动捕捉系统来捕捉身体运动，并根据医学专家的知识定
义了 13 种手工特征。然后，应用了包括 k 近邻和 SVM 在内的几种机器学习算法
将用户的步态分类为正常，偏瘫，帕金森氏病，背部疼痛和腿部疼痛。由于无
法获得实际具有目标健康问题的测试对象，因此一些数据是通过要求健康对象
模仿那些异常步态获取的。在 Shetty 等人[22]的另一项研究中，原始数据是通
过位于受试者脚下的测力板收集的，然后从原始数据中提取出各种步态特征，
例如步幅，挥杆和双支撑间隔，并应用 SVM 将帕金森氏病与其他神经系统疾病
区分开来。此外，许多研究开发了帕金森氏病的计算模型，以研究深部脑刺激
对帕金森氏病患者步态功能障碍的影响[25-27]。这些研究证明了机器学习方法
用于步态相关健康问题分类的可行性。他们需要特征工程从输入的时间序列数
据中提取有用的信息。特征工程依赖于临床医生的经验，并要求在正常和病理
步态方面有丰富的知识。当患者处于疾病的早期阶段并且他们的行走方式看起
来与正常步态相似时，挑战就变得更大。此外，从输入时间序列中提取手工特
征会导致丢弃大量由整个时间序列表示的潜在有意义的信息。因此，在这项研
究中，我们提出了一种 DNN 方法来从输入数据时间序列中提取语义特征并对用
户的步态进行分类。我们的方法不需要特征工程，并且整个时间序列都可以输
入到网络中，并具有从中学习和提取所有有用信息的能力。
3 方法和材料
A.数据获取
我们的数据集包括 23 位帕金森氏病患者，22 位体位中风患者，25 位骨科疾

病患者的步行模式记录，以及 25 位健康对照者的记录。用两个数码相机记录
他们的步态，并使用同步运动捕捉系统直接测量他们的身体运动，让受试者在
跑步机上行走约一分钟。数码相机位于拍摄对象的两侧（矢状面），分辨率为
480×640 像素。8 个反射标记附着在脖子，胸部，左/右臀部，左/右膝盖和左/
右脚踝，通过运动捕捉系统以 100 Hz 的采样率进行追踪。
图 1 提出的系统的概述。系统的输入是受试者从矢状面记录的视频。姿态估计器网络对视频的每一帧进
行三维人体姿态估计，并构造相应的时间序列。另一方面，分类器网络以估计时间序列作为输入，并将其
分为四个预定义组之一。
B.方法
我们提出的系统的目的是从步态视频中检测与步态有关的健康问题。图 1
显示了所提出系统的概述，该系统由两个 DNN 组成。第一个 DNN（姿势估计
器）将视频作为输入，并为每个帧估计相应的 3D 人体姿势，以构建 24 个（3 个
方向×8 个关节）时间序列。每个时间序列表示一个关节在三个方向（x，y 和
z）之一中的位置。第二个 DNN（分类器）将估计的时间序列作为输入，并将其
分类为四个预定义组之一。
1）姿势估计器网络
3D 人体姿势能够使用我们提出的基于 DNN 的方法从视频中进行估算。图 2

说明了网络体系结构。我们首先在相机坐标中针对每个视图分别估算 3D 人体姿
势。然后，将估计的 3D 人体姿势转换为全局坐标，并在视图之间融合以提高
结果的准确性。
第一步，将视频分成帧（图像），并使用 Hourglass Network [13]估算相
应的 2D 关节坐标。Hourglass Network 已经在用于 2D 姿态估计的大规模人体姿
态数据集上实现了最先进的性能，并且包括编码器和解码器。编码器使用卷积
和合并层处理输入图像以生成低分辨率特征图，而解码器使用上采样和卷积层
处理低分辨率特征图以为每个关节构造高分辨率热图。热图中的每个值表示在
相应坐标处观察特定关节的概率。我们选择概率最高的坐标作为估计的 2D 关节
坐标。然后，在一系列由全连接层， ReLU 激活函数 [28] ，批处理归一化
[29]，dropout[30]和残差连接[31]组成的一系列块中处理估计的 2D 关节坐标，
以估计 3D 关节坐标（图 2）。块的体系结构类似于 Martinez 等人 [16]用于根
据单眼图像估算 3D 人体姿势的工作。在下一部分中，我们将解释我们提出的技
术，以修改其网络设计以处理多视图设置。
2）多视图融合
多视图融合的目的是提高估计的 3D 人体姿势的准确性。如前所述，姿势估
计器网络的输出是相机坐标中 3D 关节的位置。给定摄像机的位置（旋转和平移
矩阵），可以将估计的 3D 关节位置转换为全局坐标，如下所示：
Pgi =R−1
i Pi + T i
其中， Ri 和T i分别是摄像机 i 的旋转和平移矩阵。 Pi和 Pi 分别代表相机坐标

g
i 和全局坐标中的估计 3D 人体姿势。设 x i , j， y i , j， y i , j表示视图 i 中关节 j 的
g g g
x，y 和 z 坐标， x i , j， y i , j， z i , j表示从视图 i 中计算出的关节 j 的 x，y 和 z 全局
坐标，则 Pi和 Pi 是大小为 3×J 的向量，其中 J 是关节的总数（在本研究中 J 为

g
8）：
Pi=[x i , 1 , y i ,1 , z i ,1 , … , xi , J , y i ,J , z i ,J ]
g g g g g g g
Pi =[ x i ,1 , y i , 1 , z i ,1 , … , x i , J , y i , J , z i , J ]
理想情况是，对于所有视图而言，在全局坐标中估计的 3D 人体姿势完全相
g g g
同，即 P1 =P2 =…=P n，其中 n 是摄像机数量。但是，由于误差与估计的 3D 关
节位置有关，因此通常这种情况不会发生。最直观的融合视图以在全局坐标中
g g g g g g g
（ P =[ x 1 , y 1 , z1 , … , x J , y J , z J ]）获得最终的 3D 人体姿态的方法是通过取各视图
g
Pi 的平均值。但是在我们的研究中，我们提出了加权平均技术，该技术考虑了
估计的 2D 姿态的准确性。换句话说，我们计算𝑃𝑔如下：
n
1
x gj , y gj , z gj = ∑ wi , j × [ x gi , j , y gi , j , z gi , j ]
n i=1
∑ wi , j=1 , 其中 j=1,2 , … , J
i=1
其中w i , j等于从视图 i 的热图获得的二维空间中估计关节 j 的置信概率。换

句话说，对于每个关节，我们将更大的权重分配给估算 2D 姿态有较高置信度的
视图。
3）分类器网络
一旦获得 3D 人体姿势时间序列，最后阶段就是对这些时间序列进行分类以
检测健康问题。为代替繁重的数据预处理和特征工程，我们将原始时间序列直
接输入到分类器网络，并使网络自动学习复杂的特征表示。我们的网络架构如
图 3 所示，其灵感来自 Wang 等[32]的工作。它由充当特征提取器的完全卷积的
块组成，并包括卷积层，批处理归一化[29]和 ReLU 激活函数[28]。卷积运算由
一个全连接层完成，并以 Softmax 层结束以生成最终标签。
图 2 “人体姿态估计器”网络的网络架构。它从 Hourglass 网络[13]开始，该网络根据输入图像估算 2D

人体姿势，然后通过一系列由全连接层，ReLU 激活函数，批处理归一化，dropout 和残差连接组成的块。
这些块重复四次。每个完全连接层下的数字表示神经元的数量。每个视图的 DNN 共享相同的体系结构和参
数，然后融合在一起以估计 3D 人体关节在全局坐标中的位置。
由于视频序列不等，时间序列的时间长度不同，但我们设计的 DNN 需要固
定大小的输入。为了解决这个问题，我们采用了“窗口切片”技术。让
TS=[ts1 , … ,ts L ]表示一个长度为𝐿的时间序列。切片是原始时间序列的片段，具
有预定长度𝑙（𝑙<𝐿）和随机选择的开始（start），如下所示：
Si= [tsi , tsi+1 , … ,tsi +l−1 ] .
我们重复切片 50 次，并将每个时间序列转换为 50 个固定长度的子序列，这

些子序列可能有重叠。所有的子序列都是独立分类的，为了在整个时间序列上
产生最终的标记，采用了“多数投票”技术。切片的另一个优点是数据扩充。
通过执行切片，我们使数据集大了 50 倍，这有助于避免过度拟合和提高泛化能
力。切片的长度设置为 100 帧(2 秒)，大约覆盖步态周期，然后向下采样到 20
帧。
图 3 “分类器”网络的网络结构。它以由 1 维卷积层、batch 归一化和 ReLU 激活函数组成的一系列全卷

积块开始，以全连接层和 Softmax 层结束，产生最终的标签。每个层下的数字表示卷积层的 feature map
的大小(通道数×分辨率)，全连接层的神经元数量。
4)实现细节
本研究使用的深度学习平台为 Pytorch，在一台使用 NVIDIA Tesla K40c 和
12gb RAM 的机器上进行训练和测试。使用 L2 损失函数并使用自适应矩估计
（Adam）[33]作为优化方法，以完全监督的方式训练网络（𝛽1 = 0.9，𝛽2 =
0.999）。为了评估该系统的性能，进行了 5 次交叉验证，其中分配%80 的数据
用于培训，%20 的数据用于测试，并重复 5 次以获得整个数据集的结果。
我们在数据集上对预先训练的沙漏模型 [13] 进行了微调，学习率为
0.00025，最小批处理大小为 6，迭代次数为 20,000 次。然后我们从零开始训练
姿态估计器网络。我们提出了一个两阶段的训练策略，其中只有两个块的网络
首先训练一个单一的视图输入，初始学习率为 0.001 ，指数衰减为 200 个
epoch。在第二阶段，对具有 4 个 block 的网络(图 2)进行进一步训练，多视图
作为输入，学习率为 0.0001 共训练 5 个 epoch。分类器网络也是从零开始训练，
学习率为 0.01 共 5 个 epoch。
四实验结果
通过 5 折交叉验证获得了实验结果，并且实验的重点有两个方面：
 通过将结果与基于标记的运动捕捉系统进行比较来分析 3D 姿态估计的准确
性。
 分析提出的健康问题检测系统的分类精度。
A.三维姿态估计精度
通过将结果与从基于标记的运动捕获系统（真相）获得的结果进行 3D 姿态
误差比较，可以测量姿势估计器网络的准确性。基于估计的 3D 关节坐标与所
有关节的对应真实数据之间的欧式距离平均值，计算 3D 姿势误差。在整个数
据集上，平均 3D 姿态误差为 36.12±17.41 mm。表 1 分别显示了每个对象和组
的 3D 姿势误差。健康组和中风后组的平均 3D 姿势误差分别最低。
1）与其他实验比较
为了能够将我们的结果与 3D 人体姿势估计的最新方法进行比较，我们将我
们的方法应用于公共数据集（ Human3.6M [34] ）。研究人员通常使用
Human3.6M 进行 3D 人体姿势估计。它由 7 个对象和 15 种不同的动作（例如步行，
坐着，摆姿势等）组成。四个 RGB 摄像机记录了对象的活动，一个同步的运动
捕捉系统测量了他们的运动，提供了 3D 真关节的坐标。我们遵循数据集的标准
协议进行公平比较，并使用对象 1、5、6、7 和 8 进行训练，使用对象 9 和 11 进
行测试。结果列于表 2。据作者所知，Pavlakos 等[35]是唯一报告了 Human36M
数据集上多视图 3D 姿态估计的结果的工作。如表 2 所示，我们可以与它们取得
可比的结果。然而，帕夫拉科斯等[35]使用整个 2D 姿态热图来估计 3D 关节坐
标，而我们仅使用具有最高概率的坐标（第三节），该坐标具有较低的维数，
并使总体训练时间和模型参数显着减小。表 2 所示的其他最新方法是用于单视
图 3D 姿态估计的，我们的方法比所有方法都具有更好的性能。与马丁内斯等人
的工作相比 [16]，对于单视图 3D 人体姿势估计，使用相同的网络设计（只是
他们的卷积块块数为 2，而不是 4），我们利用我们提出的多视图融合技术平均
将 3D 姿势误差降低了约 9 mm（第三节）。
B.健康问题分类的准确性
本节给出了从估计的三维人体姿态时间序列中自动检测健康问题的结果。
表 3 列出了每个类别的混淆矩阵和召回（敏感度）值。值得注意的是，对健康
受试者进行分类是该系统最简单的任务，其召回率明显高于其他类别。仅发生
了 1 例假阳性和 1 例假阴性的病例，分别对应其中一名帕金森氏病患者被错误
分类为健康患者，而另一名正常受试者被错误分类为中风患者。提出的自动检
测系统中假阳性和假阴性非常少，显示了该系统非常适合患者和老人的家庭步
态监测。此外，检测健康问题类型的准确性为 62.9％（70 位患者中有 26 位错
误分类）。所有患者之间都发生了错误分类，但是骨科和中风类别的分类错误
率最高，其中 25 名有骨科问题的患者中有 8 名被错误分类为中风，而 22 名中
风患者中有 5 名被错误分类为骨科患者（表 3）。
为了研究有关健康问题严重性的分类准确性，我们使用了功能性移动类别
（FAC）级别。FAC 通过确定患者步行所需的支撑来评估患者的移动能力，其中
0 代表无法行走或需要两个或更多人支撑的患者，5 代表可以在任何地方独立行
走的患者。由于并非所有患者都可以获得 FAC 值，因此本次研究仅包括那些具
有 FAC 信息的患者。如图 4 所示，在正确分类和错误分类的患者中，FAC 的平均
值均在同一范围内，因此未观察到分类准确性与健康问题严重性之间的相关性。
表1
分别为每个受试者和组平均 3D 姿态平均误差(MM)，
其中 H =健康，P =帕金森病，S =卒中后，O =骨科。
图 4 关于健康问题严重程度的分类准确性。纵轴表示功能性移动类别(FAC)水平。
表 2 我们的方法与最先进的方法在 HUMAN3.6M 数据集上的比较。数字是以毫米为单位的平

均三维人体姿态。三维人体姿态中每个动作最低误差以粗体显示。
1)估计的 3D 姿态对分类精度的影响
为了研究估计的 3D 姿势精度对健康问题分类准确性的影响，我们使用了真
实的 3D 姿势时间序列（而不是估计的 3D 姿势时间序列），并将其输入到分类
器网络中。结果在表 4 中给出。和报告了以估计的三维姿态序列为输入的结果
的表 3 相比，假阳性率没有变化，但假阴性率有所增加。此外，降低了健康问
题组之间的错误分类。特别是，检测健康问题类型的准确性提高到 70％（70 位
患者中有 21 位分类错误），与使用估计的 3D 人体姿势时间序列作为输入相比，
这意味着 11％的改善。
2) DNN vs SVM
为了研究 DNN 对步态相关健康问题的分类能力，我们将其分类结果与步态

分类最常用的机器学习方法之一 SVM 的分类结果进行对比[20,22,23]。支持向

量机是一种基于特征的分类器，它通过最大化不同类之间的边界来构造超平面
边界。我们重复同样的实验，使用估计的三维人体姿态时间序列作为支持向量
机模型的输入特征。结果如表 5 所示，假阳性和假阴性病例均从 1 例增加到 7
例和 6 例。此外，健康问题组之间的错误分类显著增加，在 70 例患者中只有 33
例被正确分类(准确率 47.1%)。这表明了该神经网络的分类能力，这是因为该
网络能够从输入时间序列中学习语义和高级特征，而无需进一步的特征工程。
五讨论
在这项研究中，我们开发了一个自动系统用于检测步态相关的健康问题，
以连续监测自然生活环境下的患者。使用基于 DNN 的方法从视频中估计用户 3D
人体姿态的时间序列。然后，分析估计的三维人体姿态时间序列，提取语义和
高层次特征来检测特定的健康问题。
表 3 从估计的三维人体姿态时间序列中得到的分类器网络的混淆矩阵，其中 H =健康，P =
帕金森氏病，S =中风，O =骨科。数字代表分类样本的数量。
表 4 真实的三维人体姿态时间序列分类器网络的混淆矩阵，其中 H =健康，P =帕金森病，

S =中风，O =骨科。这些数字表示分类样本的数量。
表 5 预估三维人体姿态时间序列中 SVM 分类器的混淆矩阵，其中 H =健康，P =帕金森病，

S =中风，O =骨科。这些数字表示分类样本的数量。
该系统不需要复杂的设备和较大的实验室空间，不需要特征工程领域的医
学知识。结果显示，该系统能从仅由两个数码相机上拍摄的视频中检测出高可
信度和安全性的健康问题(很少出现假阳性和假阴性)。这显示了该系统在病人
和老年人家庭步态监测方面的潜力。
尽管有大量文献致力于临床应用的二元步态分类 (健康步态与非健康步态)
[21,24,36]，但多类步态分类的研究还不够深入。与二元步态分类相比，多类步态分类更
具挑战性，因为它不仅需要识别异常步态模式，还需要能够区分异常。这并不是一项简单
的任务，因为影响步态模式的神经系统疾病在步态异常方面具有相似性，包括步频短、腿
部僵硬和步态[37]受损。一些研究探索了机器学习领域,提出了多层次步态分类方法以从步
态模式检测健康问题,但这些方法通常需要高端设备如光学运动捕捉系统[20]和[23]IMU 传
感器捕捉身体构成时间序列, 这使其在家庭中不实用。
在本研究中，DNN 无需复杂的设置和数据处理过程，只需使用两台数码相机，就可以
实现精确的三维人体姿态估计。与其他最新的 3D 人体姿势估计方法相比，我们通过采用我
们提出的多视图融合技术（第 III 节）在 Human3.6M 数据集上得到了相当或更高的准确性
[34]。此外, 我们的步态数据集的结果表明，所提出的方法能够高精度估计 3D 人体姿势以
适合临床应用。不同组的 3D 人体姿态误差平均值在 29.2 mm 至 44.4 mm 之间，其中健康组
的误差最小。这在某种程度上是一个预期的结果，因为异常的身体姿势和患者更高的受试
者内异性使得网络更难估计他们的身体姿势。
表 3 和表 4 的比较结果表明，提高 3D 姿态估计精度可提高分类性能。因为从图像中估
计三维人体姿态可能存在噪声和误差，影响了分类精度，但是，从估计的 3D 人体姿态与真
实的 3D 人体姿态相比，分类性能的下降并不显着，这证明了所提出的分类器对于一定程度
的噪声的鲁棒性。
与以前使用传统的机器学习方法（例如 SVM）进行步态分类[20，23]的研究相比，我
们提出的基于 DNN 的分类器不需要对人体姿态时间序列进行特征工程。为了评估提出的分
类器的性能，我们将结果与从 SVM 获得的结果进行比较，后者是步态分类的最常见机器学
习方法之一。结果表明，通过应用基于 DNN 的分类器，分类准确性显着提高（表 5）。与
传统的机器学习算法相比，DNN 具有从时间序列中学习语义和高级特征的能力，而传统的
机器学习算法需要特征工程来定义手工特征，并且通常伴随丢弃大量可能有意义的信息。
此外，对结果的分析表明，健康组的分类准确率最高，而其余组（即中风后，帕金森
和骨科）的可比性均相当，远低于健康组。除 1 个假阴性和 1 个假阳性病例外，所有错误
分类均发生在三个病理组之间。发生这种情况的原因是，不同病理之间的步态模式变化可
能相似，并且由于受伤而导致的步态变化可能会受到步态中各种事件的明显影响。此外，
在分类准确度和健康问题严重性之间未发现相关性。具有可用 FAC 值的患者数量有限，可
用 FAC 值的范围很小（大多数为 3 和 4），这意味着对这些结果的推广应该谨慎。
六总结
在这项研究中，我们提出了一种自动识别步态相关健康问题的系统。利用
先进的深度学习技术，允许移除高端设备和实验室空间的要求，使提出的系统
适合家庭使用。总体分类准确率为 71％。大多数错误分类发生在病理学组之间，
仅观察到一个假阳性和假阴性病例。我们研究的最终目标是通过利用 DNN 的优
势，为居家环境中的患者和老年人的步态监测提供一种环境辅助的生活工具。
本研究可以被视为沿着该方向进行研究的起点，并且可以作为深度学习在临床
步态分析和病理性步态诊断中未来应用的基础。未来的工作将集中于通过纳入
其他病理学人群来扩大工作范围，提高分类精度，增加关节动力学时间序列的
分类输入。
七参考文献
[1] A. Muro-De-La-Herran, B. Garcia-Zapirain, and A. Mendez-Zorrilla. (2014). Gait analysis methods: An overview of
wearable and nonwearable systems, highlighting clinical applications," Sensors, 14, pp. 3362-3394.
[2] S. Amin, M. Andriluka, M. Rohrbach, and B. Schiele, "Multi-view Pictorial Structures for 3D Human Pose Estimation," in
Bmvc, 2013.
[3] L. Bo and C. Sminchisescu. (2010). Twin gaussian processes for structured prediction," International Journal of Computer
Vision, 87, p. 28.

[4] X. Zhou, M. Zhu, S. Leonardos, K. G. Derpanis, and K. Daniilidis, "Sparseness meets deepness: 3D human pose estimation
from monocular video," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 4966-
4975.
[5] R. Mehrizi, X. Peng, D. N. Metaxas, X. Xu, S. Zhang, and K. Li. (2019). Predicting 3-D Lower Back Joint Load in Lifting: A
Deep Pose Estimation Approach," IEEE Transactions on Human-Machine Systems, 49, pp. 85-94.
[6] R. Mehrizi, X. Peng, X. Xu, S. Zhang, and K. Li. (2019). A Deep Neural Network-based method for estimation of 3D lifting
motions," Journal of biomechanics, 84, pp. 87-93.

[7] S. Corazza, L. Muendermann, A. Chaudhari, T. Demattio, C. Cobelli, and T. P. Andriacchi. (2006). A markerless motion
capture system to study musculoskeletal biomechanics: visual hull and simulated annealing approach," Annals of biomedical
engineering, 34, pp. 1019-1029.

[8] E. Ceseracciu, Z. Sawacha, S. Fantozzi, M. Cortesi, G. Gatta, S. Corazza, et al. (2011). Markerless analysis of front crawl
swimming," Journal of biomechanics, 44, pp. 2236-2242.

[9] S. M. Iranmanesh, A. Dabouei, H. Kazemi, and N. M. Nasrabadi. (2018). Deep cross polarimetric thermal-to-visible face
recognition," arXiv preprint arXiv:1801.01486,

[10] S. M. Iranmanesh, H. Kazemi, S. Soleymani, A. Dabouei, and N. M. Nasrabadi. (2018). Deep Sketch-Photo Face
Recognition Assisted by Facial Attributes," arXiv preprint arXiv:1808.00059,

[11] M. Baccouche, F. Mamalet, C. Wolf, C. Garcia, and A. Baskurt,"Sequential deep learning for human action recognition," in
International Workshop on Human Behavior Understanding, 2011,pp. 29-39.
[12] J. Yang, M. N. Nguyen, P. P. San, X. Li, and S. Krishnaswamy, "Deep Convolutional Neural Networks on Multichannel
Time Series for Human Activity Recognition," in IJCAI, 2015, pp. 3995-4001.
[13] A. Newell, K. Yang, and J. Deng, "Stacked hourglass networks for human pose estimation," in European Conference on
Computer Vision,2016, pp. 483-499.
[14] S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh, "Convolutional pose machines," in Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition, 2016, pp. 4724-4732.
[15] R. Mehrizi, X. Peng, Z. Tang, X. Xu, D. Metaxas, and K. Li, "Toward Marker-free 3D Pose Estimation in Lifting: A Deep
Multi-view Solution," in Automatic Face & Gesture Recognition (FG 2018),2018 13th IEEE International Conference on, 2018,
pp. 485-491.
[16] J. Martinez, R. Hossain, J. Romero, and J. J. Little, "A simple yet effective baseline for 3d human pose estimation," in
International Conference on Computer Vision, 2017, p. 5.
[17] S. Park, J. Hwang, and N. Kwak, "3D human pose estimation using convolutional neural networks with 2D pose
information," in European Conference on Computer Vision, 2016, pp. 156-169.
[18] G. Pavlakos, X. Zhou, K. G. Derpanis, and K. Daniilidis, "Coarse-to-fine volumetric prediction for single-image 3D human
pose," in Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on, 2017, pp. 1263-1272.
[19] B. Tekin, P. Marquez Neila, M. Salzmann, and P. Fua, "Learning to fuse 2d and 3d image cues for monocular body pose
estimation," in International Conference on Computer Vision (ICCV), 2017.
[20] B. Pogorelc, Z. Bosnić, and M. Gams. (2012). Automatic recognition of gait-related health problems in the elderly using
machine learning,"Multimedia Tools and Applications, 58, pp. 333-354.
[21] R. LeMoyne, W. Kerr, T. Mastroianni, and A. Hessel, "Implementation of machine learning for classifying hemiplegic gait
disparity through use of a force plate," in Machine Learning and Applications (ICMLA), 2014 13th International Conference on,
2014, pp. 379-382.
[22] S. Shetty and Y. Rao, "SVM based machine learning approach to identify Parkinson's disease using gait analysis," in
Inventive Computation Technologies (ICICT), International Conference on, 2016, pp. 1-5.
[23] A. Mannini, D. Trojaniello, A. Cereatti, and A. M. Sabatini. (2016). A machine learning framework for gait classification
using inertial sensors: Application to elderly, post-stroke and huntington’s disease patients," Sensors, 16, p. 134.
[24] H. H. Manap, N. M. Tahir, A. I. M. Yassin, and R. Abdullah, "Anomaly gait classification of parkinson disease based on
ann," in System Engineering and Technology (ICSET), 2011 IEEE International Conference on, 2011, pp. 5-9.
[25] M. Daneshzand, M. Faezipour, and B. D. Barkana. (2017). Computational Stimulation of the Basal Ganglia Neurons with
Cost Effective Delayed Gaussian Waveforms," Frontiers in computational neuroscience, 11, p. 73.
[26] M. Daneshzand, M. Faezipour, and B. D. Barkana. (2018). Towards frequency adaptation for delayed feedback deep brain
stimulations,"Neural regeneration research, 13, p. 408.
[27] M. Daneshzand, S. A. Ibrahim, M. Faezipour, and B. D. Barkana,"Desynchronization and energy efficiency of Gaussian
neurostimulation on different sites of the basal ganglia," in 2017 IEEE 17th International Conference on Bioinformatics and
Bioengineering (BIBE), 2017, pp. 57-62.
[28] V. Nair and G. E. Hinton, "Rectified linear units improve restricted boltzmann machines," in Proceedings of the 27th
international conference on machine learning (ICML-10), 2010, pp. 807-814.
[29] S. Ioffe and C. Szegedy. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate
shift," arXiv preprint arXiv:1502.03167,
[30] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R.Salakhutdinov. (2014). Dropout: a simple way to prevent
neural networks from overfitting," The Journal of Machine Learning Research, 15, pp. 1929-1958.
[31] K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE conference
on computer vision and pattern recognition, 2016, pp. 770-778.
[32] Z. Wang, W. Yan, and T. Oates, "Time series classification from scratch with deep neural networks: A strong baseline," in
Neural Networks (IJCNN), 2017 International Joint Conference on, 2017, pp. 1578-1585.
[33] D. P. Kingma and J. Ba. (2014). Adam: A method for stochastic optimization," arXiv preprint arXiv:1412.6980,
[34] C. Ionescu, D. Papava, V. Olaru, and C. Sminchisescu. (2014). Human3.6m: Large scale datasets and predictive methods for
3d human sensing in natural environments," IEEE transactions on pattern analysis and machine intelligence, 36, pp. 1325-1339.
[35] G. Pavlakos, X. Zhou, K. G. Derpanis, and K. Daniilidis. (2017).Harvesting multiple views for marker-less 3d human pose
annotations," arXiv preprint arXiv:1704.04793,
[36] J. Ajay, C. Song, A. Wang, J. Langan, Z. Li, and W. Xu, "A pervasive and sensor-free Deep Learning system for
Parkinsonian gait analysis,"in Biomedical & Health Informatics (BHI), 2018 IEEE EMBS International Conference on, 2018, pp.
108-111.
[37] H. Stolze, J. P. Kuhtz-Buschbeck, H. Drücke, K. Jöhnk, M. Illert, and G.Deuschl. (2001). Comparative analysis of the gait
disorder of normal pressure hydrocephalus and Parkinson's disease," Journal of Neurology, Neurosurgery & Psychiatry, 70, pp.
289-297
四、外文原文
毕业论文（设计）文献综述和开题报告考核
对文献综述、外文翻译和开题报告评语及成绩评定
文献综述开题报告外文翻译

成绩比例占（10%）占（15%）占（5%）
分值
开题报告答辩小组负责人（签名）
年月日

杨涛 文献综述和开题报告

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

杨涛 文献综述和开题报告

Uploaded by

Copyright:

Available Formats

基于深度学习的步态识别算法研究

年级与专业 2016级 测控技术与仪器

在 Cunado 等人的基础上，在 2004 年，Urtasun 等人将方法扩展到三维空间，提

在非模型方法方面，目前最为流行的是 2006 年 Han J 提出的步态能量图

图 4 GaitSet 的框架。 “ SP”代表集合池。 梯形代表卷积和池块，并且同一列中的梯形

2.2.2 PyTorch 深度学习框架

PyTorch 是 Facebook 的 AI 研究团队开发的一个用于深度学习的 Python 工

人体姿态估计算法中比较出名的有 OpenPose 和 AlphaPose,他们都可以对图

OpenPose 和 AlphaPose 都是 2D 姿态估计，在对人体姿态进行分析时，2D 不

图 2 Dario 等人实现的 3D 人体姿态估计效果

能力的神经网络，其结构如图十所示。从图中可以看出， RNN 的输出不仅和当

LSTM 长短期记忆网络，同样被用来序列建模，它是 RNN 的一种变体。与 RNN

View Gait Recognition. arXiv preprint arXiv:1811.06186.

我们的数据集包括 23 位帕金森氏病患者，22 位体位中风患者，25 位骨科疾

3D 人体姿势能够使用我们提出的基于 DNN 的方法从视频中进行估算。图 2

其中， Ri 和T i分别是摄像机 i 的旋转和平移矩阵。 Pi和 Pi 分别代表相机坐标

i 和全局坐标中的估计 3D 人体姿势。 设 x i , j， y i , j， y i , j表示视图 i 中关节 j 的

坐标，则 Pi和 Pi 是大小为 3×J 的向量，其中 J 是关节的总数（在本研究中 J 为

其中w i , j等于从视图 i 的热图获得的二维空间中估计关节 j 的置信概率。换

图 2 “人体姿态估计器”网络的网络架构。它从 Hourglass 网络[13]开始，该网络根据输入图像估算 2D

Si= [tsi , tsi+1 , … ,tsi +l−1 ] .

我们重复切片 50 次，并将每个时间序列转换为 50 个固定长度的子序列，这

图 3 “分类器”网络的网络结构。它以由 1 维卷积层、batch 归一化和 ReLU 激活函数组成的一系列全卷

表 2 我们的方法与最先进的方法在 HUMAN3.6M 数据集上的比较。数字是以毫米为单位的平

为了研究 DNN 对步态相关健康问题的分类能力，我们将其分类结果与步态

分类最常用的机器学习方法之一 SVM 的分类结果进行对比[20,22,23]。支持向

表 4 真实的三维人体姿态时间序列分类器网络的混淆矩阵，其中 H =健康，P =帕金森病，

表 5 预估三维人体姿态时间序列中 SVM 分类器的混淆矩阵，其中 H =健康，P =帕金森病，

们提出的多视图融合技术（第 III 节）在 Human3.6M 数据集上得到了相当或更高的准确性

[34]。此外, 我们的步态数据集的结果表明，所提出的方法能够高精度估计 3D 人体姿势以

适合临床应用。不同组的 3D 人体姿态误差平均值在 29.2 mm 至 44.4 mm 之间，其中健康组

们提出的基于 DNN 的分类器不需要对人体姿态时间序列进行特征工程。为了评估提出的分

类器的性能，我们将结果与从 SVM 获得的结果进行比较，后者是步态分类的最常见机器学

习方法之一。结果表明，通过应用基于 DNN 的分类器，分类准确性显着提高（表 5）。与

和骨科）的可比性均相当，远低于健康组。除 1 个假阴性和 1 个假阳性病例外，所有错误

在分类准确度和健康问题严重性之间未发现相关性。具有可用 FAC 值的患者数量有限，可

用 FAC 值的范围很小（大多数为 3 和 4），这意味着对这些结果的推广应该谨慎。

Vision, 87, p. 28.

motions," Journal of biomechanics, 84, pp. 87-93.

engineering, 34, pp. 1019-1029.

swimming," Journal of biomechanics, 44, pp. 2236-2242.

recognition," arXiv preprint arXiv:1801.01486,

Recognition Assisted by Facial Attributes," arXiv preprint arXiv:1808.00059,

文献综述 开题报告 外文翻译

You might also like

杨涛文献综述和开题报告

杨涛文献综述和开题报告

年级与专业 2016级测控技术与仪器

图 4 GaitSet 的框架。 “ SP”代表集合池。梯形代表卷积和池块，并且同一列中的梯形

i 和全局坐标中的估计 3D 人体姿势。设 x i , j， y i , j， y i , j表示视图 i 中关节 j 的

文献综述开题报告外文翻译