You are on page 1of 20

第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展 综 述

基于深度学习的人体姿态估计方法综述
卢健,杨腾飞􀆽,赵博,王航英,罗毛欣,周嫣然,李哲
西安工程大学电子信息学院,陕西 西安 710048

摘要 全面综述了基于深度学习的人体姿态估计方法的研究进展。在比较分析 各 类 单 人 姿 态 估 计 方 法 的 基 础 上,
从自上而下和自下而上两个方法角度总结了多人 姿 态 估 计 算 法。 在 自 上 而 下 方 法 中,着 重 介 绍 了 局 部 区 域 重 叠、
关节点混淆、人体非典型部位关节点难以检测等问题的解决方案;在自下而上的 方 法 中,重 点 关 注 聚 类 方 法 对 关 节
点检测的贡献。对目前公共数据集上取得优异性能 的 代 表 性 方 法 进 行 了 对 比 和 分 析。 这 样 做 的 目 的 是 使 研 究 者
了解和熟悉该领域已有的研究成果,拓展研究思路和方法,并展望未来可能出现的研究方向。
关键词 机器视觉;深度学习;人体姿态估计;关节点检测;公共数据集
中图分类号 41;
TP391. TP183 文献标志码 A i:10.
do 3788/LOP202158.
2400005

Rev
iew ofDeepLearn
ing
-Based Human PoseEs
tima
tion
LuJ
ian YangTeng
fei ZhaoBo Wang Hangy
ing Luo Maox
in Zhou Yanr
an L
iZhe
􀆽

Scho
olo
fEl
ect
roni
csandInf
orma
tion Xi􀆶
anPo
lyt
echni
cUni
ver
sit
y Xi􀆶 i710048 Ch
an Shaanx ina

Abs
tra
ct Ther e
sear
ch pr
ogr
esso
fhuman poseest
imat
ion method ba
sed on de
epl e
arningi
sc omprehensi
vel
y
summari
zed Onthebas
isofc
ompa
ris
onandana
lys
isofvar
iouss
ingle
-personposeest
imati
on me
thods ava r
ietyof
mu
lti
-pe
rsonpo
see
stima
tiona
lgo
rit
hmsa
resumma
riz
edf
romt
het
op-
downandbo
ttom-upapp
roa
che
sInt
het
op-
downapp r
oach thes
olut
ionst oloc
ala re
a ove
rlap art
icu
lat
ion po
intconfus
ion and di
ffi
cul
tyin det
ecti
ngt
he
ar
ticu
lat
ion po
intofat i
ypcal par
tso f human body a
re mainl
yi ntr
oduc
ed I nt he bo
ttom-up app
roach t
he
c
ont
ribu
ti fc
ono l
ust
eri
ng me
thodt
oar
ticu
lat
ionpo
intde
tec
tioni
sempha
siz
ed Rep
res
ent
ati
ve me
thodst
oach
ieve
exc
ell
entpe
rfo
rmanc
eoncu
rren
tpub
licda
tas
etsa
rec
ompa
red and ana
lyz
ed Ther
evi
ew enab
lesr
ese
arche
rst
o
unde
rst
andandf
ami
li
ari
zet
hems
elve
s wi
tht
heex
ist
ingr
ese
archr
esu
ltsi
nth
isf
iel
d expandr
ese
archi
dea
sand
methods andlookforwardtotheposs
ibl
erese
archd
irec
tionsinthefu
tu r
e
Keywo r
ds ma chi
nev i
sion deepl
ear
ning humanposeestima
tion a
rticul
ati
onpo
intde
tec
tion pub
licda
tas
et
OCIScode s 150 1135 110 2970

节,相关研究受 到 广 泛 关 注。 传 统 的 人 体 姿 态 估 计
1 引 言
方法 [7]依赖于人 工 标 注 特 征,将 姿 态 估 计 问 题 看 作
人体姿态估计(humanpo see
stimat
ion)是一种 回归问题,直 接 回 归 出 关 节 点 的 坐 标,估 计 精 度 不
以人体骨骼关节点 为 研 究 对 象,通 过 检 测 关 节 点 的 高。其主要缺点有两方面:一方面局限于站立、静坐
位置信息,估计关节 点 之 间 的 联 系 进 而 重 构 人 体 肢 等单帧简单姿态,对摔倒、弯腰等复杂连续姿态的鲁
干的 方 法,是 完 成 人 体 行 为 识 别 [
1-
、姿 态 跟 踪
2] [
3-

4]
棒性较差;另一方面,所使用的回归模型可扩展性较
[
5] [
6]
人物图像生成 和人机交互 等高级任务的基础环 差,很难适应人 体 图 像 的 多 尺 度 变 化。 随 着 深 度 学

收稿日期:2020
-11
-16;修回日期:2021
-02
-06;录用日期:2021
-03
-03
61971339,61471161)、陕 西 省 自 然 科 学 基 金 (
基金项目:国家自然科学基金( 2018JQ4016)、西 安 市 碑 林 区 应 用 技 术 研 发
GX2007)
项目(
通信作者:􀆽
1062021763@qq.
com

2400005
-1
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

习广泛应用于人体 姿 态 估 计 领 域,以 沙 漏 模 型 及 其 姿态估计处理单人 和 多 人 问 题 进 行 了 综 述,整 合 并


变体为代表 的 卷 积 神 经 网 络 (
CNN) 在 处 理 人 体
[
8]
摘要人体姿态估计 领 域 内 已 知 的 研 究 成 果,并 重 点
姿态估计问题时表现卓越。相关综述类报告总结了 介绍了姿态估计中 突 破 性、开 创 性 以 及 具 有 里 程 碑
姿态估计方法,研究人员 初 步 地 了 解 相 关 研 究 的 基 意义的工作。目的是使研究者了解和熟悉所要研究
本 方 法 和 进 展 ,但 是 未 考 虑 相 关 文 献 之 间 的 关 问题的已有研究成果,拓展研究思路和研究方法,并
联性。 展望未来可能出现的研究方向。表 1 展示了多个常
本文 按 照 时 间 顺 序 从 方 法、模 型 层 面 系 统 地 对 用的人体姿态估计数据集的基本信息。
表 1 国内外数据集信息
Tab
le1 I
nfo
rma
tiono
fdome
sti
candf
ore
ignda
tas
ets

Numbe
rof Numbe
rof
Type Da
tas
etname Da
tas
our
ce S
tat
uso
fus
e
s
amp
les node
s

Mu
lti
playe
r/S
ing
le MPI
IHumanPo
se
[
9]
Ex
tra
ctf
rom YouTubev
ide
o >250000 16 Re
sea
rchda
tas
et

Mu
ltilaye
r Yahoo Web Al
bums >300000 18 Re
sea
rchda
tas
et
[
10]
p CommonOb
jec
tsi
nCon
tex
t

Mu
lti
playe
r AICha
llenge Pr
ovi
dedby Me
itu >270000 14 Compe
tit
ionda
tas
et

Mu
lti
playe
r MSCOCO Pr
ovdedby Mi
i cro
sof
t >300000 18 Re
sea
rchda
tas
et

Mu
lti
playe
r Po
seTr
ack Pr
ovi
dedbyt
hePo
seT
rac
kte
am >1356 15 La
tes
tda
tas
et

S
ing
le 30 Ho
llywood mov
ies >20000 9 Ba
sicdep
rec
ati
on
[
11]
Fr
ame
sLabe
ledi
nCi
nema

S
ing
le Spo
rtspe
opl
eonF
lickr >20000 14 Ba
sicdep
rec
ati
on
[
12]
Le
edsSpo
rtsPo
seda
tas
et

行更高精度的坐标计算。虽然级联网络提高了姿态
2 单人姿态评估方法 估计回归网络的精 准 度,但 是 并 不 适 用 于 输 入 图 像
对于 单 人 姿 势 估 计,传 统 的 机 器 学 习 方 法 主 要 分辨率比较小的 情 况。 同 时,由 于 采 用 了 级 联 的 方
采用线性判别函数,往 往 难 以 在 大 量 复 杂 相 似 的 样 法,对于每一张输入图 像,多 次 使 用 CNN 进 行 卷 积
[
15]
本上取得好的检测效果。而深度学习凭借强大的自 操作时计算复 杂 度 过 高。 针 对 De
epPo
se 在姿势
主学习能力和高度 的 非 线 性 映 射 特 性,可 以 得 到 语 估计中不考虑局部 外 观,难 以 估 计 复 杂 的 人 体 姿 势
[
17]
义信息更为丰富的 特 征,能 够 获 得 不 同 感 受 野 下 多 Fan 等 提出 了 一 种 基 于 双 源 深 度 卷 积 神
等问题,
尺度多类型的人体关节点特征向量和每个特征的全 DS
经网络( -CNN)的 人 体 姿 态 估 计 方 法,该 方 法 将
con
部上下文( tex
t l)信息,摆脱对部件模型结构设
ua -CNN,为
原始的单 源 R-CNN 扩 展 为 双 源 模 型 DS
计的依赖。 研究人员提供了整体视图姿势估计。DS
-CNN 采用
2.
1 基于卷积神经网络的姿态估计 从输入图像中检测到的一组与类别无关的图像块进
使用 CNN 进行人体姿态估计的方法可以分为 行训练,与许多以前 的 人 体 姿 势 估 计 方 法 中 用 作 输
基于检 测 [13-14]和 基 于 回 归 [15-16]的 方 法。 基 于 检 测 入的滑动窗口或完 整 图 像 相 比,图 像 块 可 以 在 多 个
he
的方法用一种概 率 分 布 图 即 热 图( tmap)的 方 式
a 尺度上捕获具有更好语义含义的局部身体部位。作
来表示关节点位置,估 算 图 像 中 每 一 个 像 素 所 对 应 者将局部(身体)部位图像和每个局部部位的整体视
的概率值,像素越 接 近 真 实 关 节 点,概 率 值 就 越 大, 图作为单独的输入,共同 输 入 到 DS
-CNN 中 统 一 学
反之则越小。而基于回归的方法以二维坐标的形式 习,以实现联合检测,确定图像块是否包含人体关节
表示关节点的位置,通 过 学 习 从 身 体 特 征 到 身 体 部 及关节位置,找 到 图 像 块 中 关 节 点 的 确 切 位 置。 最
位位置的映 射,训 练 网 络,直 接 得 到 每 个 关 节 点 的 后,对来自所有图像块的这些联合检测/定位结果进
坐标。 行组 合,以 实 现 更 准 确 的 人 体 姿 势 估 计。Pf
ist
er
[
15]
To
shev 等 exNe
使用 Al t作为基本网络结构 等 [18]提出了一 种 在 深 度 卷 积 网 络 中 使 用 光 流 进 行
对关节坐标进行回 归,通 过 设 计 的 级 联 网 络 初 步 计 关节点定位的新方 法,该 方 法 将 姿 态 估 计 看 作 是 检
算得到一个关节点的坐标,然后根据这个坐标,重新 测问题,以热图的 形 式 进 行 输 出,通 过 使 用 光 流,在
在原始图片中获得 局 部 图 片,利 用 局 部 图 像 信 息 进 多个帧中组合信息,以达到从上下文中受益的目的。

2400005
-2
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

如图 1 所示,将给定 帧t 及 上 下n 帧 时 间 邻 域 图 像 2)网 络 输
的失败过程和可视化 网 络 的“思 维”过 程;
Spa
作为一组输入帧,通过空间卷积( tia t)分别回
lNe 出多个空间位置的 置 信 度,而 不 是 只 考 虑 单 个 位 置
归每组输入帧的热 图,然 后 使 用 密 集 的 光 流 将 每 组 的置信度,使 得 学 习 更 加 立 体。 在 BBC pos
e数 据
热图单独翘 曲 (
waped)至 当 前 帧t,将 翘 曲 的 热 图
r Pf
集中, i
ste
r等
[
18]
提 出 的 方 法 成 效 显 著,特 别 是 对
汇集到每个关节上 形 成 单 个 热 图,取 其 中 置 信 度 最 手腕识别的精准度,当 定 位 的 关 节 位 置 与 真 值 位 置
大的热图来进行姿态估计。回归热图而不是直接回 的距离在标定的联 合 中 心 的 6 个 像 素 距 离 内 时,提
x,
归坐标( y)的 好 处:
1)可 以 充 分 理 解 关 节 点 定 位 出的方法的精准度超过之前最佳方法 [16]的 10% 。

图 1 时态姿态估计网络 [18]
F
ig 1 Tempo
ralpo
see
stima
tionne
two
rk
18

在人体姿态估 计 问 题 中,对 于 被 遮 挡 身 体 部 位 在同一区域中存在多个人体部位使得关节点位置难


Bu
的位置 估 计 是 一 个 较 难 解 决 的 问 题。 因 此, l
at 以预测的问题,文献[ 19]遵循文献[ 20]的方法,将真
等 [
19]
提 出 了 一 种 检 测-跟 随-回 归 的 级 联 网 络,如 值位 置 周 围 特 定 半 径 内 的 信 息 设 置 为 1,剩 余 的 背
图 2 所示。该网络通过两个子网络组成的级联网络 景设 置 为 0,得 到 一 种 每 个 人 体 部 位 都 对 应 一 个 标
对人体遮挡/被遮挡的关节点进行检测,其中部件检 签信息的二进制映 射,使 得 关 节 点 与 人 体 之 间 能 够
rk) 用来检测身体各
[
20]
pa
测网络( r
tde
tec
tionne
two 正确关联。检测网络仅使用可见的身体部位进行训
个关节位置,并输出各关节点位置的热图。但是,输 练。使用内核大小为 1 的卷积层对 VGG-
16 网络的
[
21]
出的被遮 挡 的 关 节 点 热 图 的 置 信 度 普 遍 较 低。 因 全连接层 进 行 替 换,并 加 入 Re
sNe
t-152 网 络 作
此,将原始图像与部 件 检 测 网 络 输 出 的 热 图 一 起 堆 为部件检测基础网络进行实验,结果证明,这种使用
r
叠并输入到深度 回 归 网 络(eg
res
sionne rk)中,
two 残差网络作为网络架构的方 法 在 MPI I数 据 集 上 可
通过回归被遮挡关节点真实位置附近的一组置信度 以对被遮 挡 关 节 点 达 到 最 高 检 测 精 准 度。Li
fshi
tz
图来预测被遮挡关 节 点 的 位 置,进 一 步 提 高 检 测 器 等 [10]提出一种 使 用 深 度 卷 积 神 经 网 络 进 行 关 节 点
在检测特定人体部件被遮挡时的鲁棒性。为了解决 投票而不是关节点 检 测 的 新 方 法 ,每 个 身 体 部 位 的

图 2 检测-跟随-回归的 CNN 结构 [19]


F
ig 2 CNNs
truc
tur
eofde
tec
tion
-fo
llowi
ng-
reg
res
sion
19

2400005
-3
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

位置都是由多个位置的投票信息通过卷积聚合来确 中每层沙漏网络输 入 不 同 分 辨 率 的 图 像,使 得 各 结


定的。与关节点检 测 方 法 相 比,关 节 点 投 票 方 法 具 构间的输出产生尺 度 上 的 差 异,得 到 代 表 不 同 尺 度
1)通 过 随 机 利 用 被 检 测 图 像 的 人 体 区
有以下优势: 特征的热图。底层堆栈( st
ack1~s tck4)通过整体
a
域内的多个像素点 进 行 投 票,产 生 可 靠 的 关 节 点 预 注意力 模 型 (
hol
ist
ica
ttent
i l)得 到 图 像 的
on mode
2)人体图像的 任 何 位 置 信 息 都 可 能 为 检 测 多 个
测; s
全局注意力图;高 层 堆 栈(ta
ck5~s
tack8)通 过 分
不同的关节点做 出 贡 献。 如 图 3 所 示,给 定 一 个 像 层注意力机制对人 体 局 部 关 节 点 进 行 缩 放 处 理,以
素点 y 并 在 其 周 围 划 分 50 个 对 数 极 化 分 组 (
log
- 得到人体局部注意力图。通过学习的全局注意力图
po
larb
ins),通过关节点所落入分组 的 位 置,预 测 每 来区分背景区域与 人 体 区 域,然 后 在 不 考 虑 背 景 的
一个关节点 相 对 于 像 素 点 y 的 方 位,以 此 类 推,由 情况下,基于人体区 域 来 得 到 人 体 关 节 点 的 局 部 注
多个像素点投票得出表示每个关节点在每个位置概 意 力 图;通 过 注 意 力 图,网 络 关 注 难 样 本 (
har
d
率的热图,最后将这 些 投 票 出 的 热 图 组 合 成 单 人 姿 nega
tives
amp
les),最 后 通 过 沙 漏 堆 栈 网 络 得 出 人
态估计结果。 体关节点 热 图,进 而 估 计 人 体 姿 态。 依 靠 CNN 进
行人体姿态估计的 方 法 着 重 于 关 节 的 检 测,通 过 探
索目标图像中关节之间的几何形状来进行姿态的估
计,缺点是需要独立 的 分 支 来 检 测 框 架 中 人 类 目 标
[
23]
的边界框。Ar ta cho 等 基于“瀑布式”萎缩空间池
架构(WASP)[24],提 出 统 一 的 人 体 姿 态 估 计 框 架
(
Uni
Poe)。作为对以前工作的改进,
s Uni
Pos
e 不需
要单独的分支来进 行 边 界 框 和 关 节 检 测,结 合 上 下
文分割和联合定位功能,既确定了关节点的位置,又
确定了用于人体检测的边界框,采用单阶段,在不依

图 3 对数极化分组
赖统计后处理方法 的 情 况 下,高 精 度 地 估 计 人 体 姿

F
ig 3 Loga
rit
hmi
cpo
lar
iza
tiong
roup
ing 势。该 框 架 主 要 组 成 部 分 是 wa
ter
fal
lat
rous
[
22]
Chu 等 首
对于背景杂乱和自我 遮 挡 等 问 题, spa
tia
lpoo
ling(WASP)模 块,得 益 于 WASP 模 块,
次提出 多 语 境 注 意 力 (mu
lti
-con
tex
tat
ten
tion)模
将空洞卷 积 的 级 联 方 法 与 从 空 洞 空 间 金 字 塔 池 化
型,该模型将图像分 为 人 体 和 人 体 局 部 关 节 两 个 部 (
ASPP)模 块
[
25]
的并行结构中获得的较大视野
分,通 过 堆 栈 沙 漏 网 络 (s tacked hourl
gas
s (
FOV)相 结 合;使 用 上 下 文 信 息 来 预 测 关 节 的 位
ne rks)生 成 具 有 不 同 分 辨 率 特 征 的 注 意 力 图
two 置,包含整个框架的信息,不需要基于统计或几何方
(
att
ent
ion maps),不同分辨率特征对应着不同的语 法的 后 分 析。 此 外,相 关 文 献 将 此 方 法 已 扩 展 到
义。将多语境注意力机制整合到 CNN,通过端到端 Un
iPo
se-LSTM 以进行多 帧 处 理,并 在 视 频 姿 势 估
进行 人 体 姿 势 估 计 。网 络 整 体 框 架 如 图4所 示 ,其 计中获得了较优的结果。

图 4 多语境注意力机制框架 [22]
F
ig 4 Mu
lti
-con
tex
tat
ten
tion me
chan
ismf
ramewo
rk
22

2400005
-4
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

2.
2 基于生成对抗网络的姿态估计 平衡导致过拟合的问题,作者使用变量kt 来控制发
针 对 人 体 姿 态 估 计 缺 乏 有 效 特 征 表 示 等 问 题, 生器和鉴别器之间的平衡。自适应项kt 可表述为
kt+1 =kt +λk (γLreal -Lfake), (
1)
[
26]
Chou等 提出了一种使用生成对抗网络( e
gnera
tiv
e
adve
rsa
ria
lne
tworks)的 解 决 方 法。 其 建 立 了 生 成 式中: kt 表 示 对 Lfake 的 重 视 程 度; t 为 迭 代 次 数;γ
器和鉴别 器 两 个 具 有 相 同 架 构 的 堆 栈 沙 漏 网 络 框 和λk 为超参 数。 当 Lfake <γLreal 时,说 明 生 成 器 生
架,如图 5 所示。 生 成 器 网 络 是 一 个 具 有 残 差 块 的 成的热图足够 真 实,可 以 欺 骗 鉴 别 器,因 此 kt 值 将
全卷积网络,输入图像通过生成器向前馈送后,得到 增加使Lfake 更 受 重 视。 同 时 对 鉴 别 器 进 行 更 多 的
一组代表每个关节点在每个位置的置信度得分的热 训练以识别生成的 热 图,其 中 训 练 的 速 度 取 决 于 鉴
图。将生成器网络生成的热图和真实热图馈送到鉴 别器与 生 成 器 之 间 的 距 离,即 γLreal -Lfake 值。 同
别器网络,重建两组热图,以分别计算出鉴别器的输 样,当鉴 别 器 优 于 生 成 器 时,即 Lfake >γLreal 时,
kt
出与真实热图及其与生成器生成的热图之间的损失 将减小以放慢对网 络 的 训 练,以 便 生 成 器 的 输 出 可
Lreal 和 Lfake。为了解决生成器与鉴别器之间训练不 以跟上鉴别器输出。

图 5 生成对抗网络的框架 [26]
F
ig 5 Fr
amewo
rko
fgene
rat
iveadve
rsa
ria
lne
two
rks
26

估计被周围人的身体部位重度遮挡或看起来与 型由三部分组成:姿态生成网络 G、姿态鉴别网络 P


身体部位相似背景 遮 挡 的 身 体 部 位 时,必 须 考 虑 人 和置信鉴别网络 C。姿态生成网络输入 RGB 图像,
体关节结构的先 验 模 型,如 图 6 所 示。 解 决 这 个 问 针对每张输 入 图 像,输 出 每 张 输 入 图 像 的 32 个 热
题的关键是从大量的训练数据中学习真实的身体关 图,其中一半姿态热图针对 16 个关节点的姿态进行
节点分布。但是,直 接 学 习 这 种 结 构 先 验 有 时 会 产 估计,而另一半闭塞热图针对相应的遮挡进行预测,
0,
1]范围内的置信度分数。
[
27]
生生物学上难以理 解 的 估 计 姿 态。Chen 等 结合 每个热图中的值都代表[
人体结构先验知识,提 出 了 一 种 结 构 感 知 卷 积 网 络 姿态鉴别器网络 P 有两个作用:1)判别预测的姿态
来估计被遮挡的人 体 部 位,并 且 运 用 一 种 具 有 两 个 2)判 别 预 测 姿 态 热 图 的
在人体几何学上的合 理 性;
鉴别器的新 型 条 件 对 抗 网 络 (
adve
rsa
ria
lPos t)
eNe 置信度得分。由于实际预测的热图往往不是高斯分
来训练姿态生成 器。 如 图 7 所 示,条 件 对 抗 网 络 模 布的,因此作者通过设计的置信鉴别网络 C,将低的

图 6 网络训练期间使用人体结构先验和不使用的结果对比 [27]
F
ig 6 Compa
ris
ono
fther
esu
ltswi
thand wi
thou
thumans
truc
tur
epr
iordu
ringne
two
rkt
rai
ning
27

2400005
-5
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

[
27]
图 7 Adve
rsa
ria
lPo
seNe
t模型结构
F
ig 7 Adve
rsa
ria
lPo
seNe
tmode
lst
ruc
tur
e
27

置信度值预测和高 的 置 信 度 值 预 测 区 分 开,采 用 具 点正确估计的比例)性 能 下,相 较 之 前 的 方 法,此 方


有高、低置信度分数 的 热 图 作 为 姿 态 鉴 别 器 P 网 络 法的精准度平均提高了 2.4% 。在 MPI
I数据集中,
的输入。当预测部 位 存 在 遮 挡 时,姿 态 生 成 网 络 G 此方法获得了当时 92.
1% 的最佳 PCKh 得分。
会产生置信度低的热 图,置 信 鉴 别 网 络 C 会 将 这 些 所谓 尺 度 不 稳 定 性,来 自 人 体 检 测 器 的 输 入 边
热图设置为赝品,同时逼迫姿 态 生 成 网 络 G 产 生 更 界框的轻微扰动,导 致 姿 态 估 计 结 果 改 变。 对 于 人
高置信度的热图,从 而 提 升 对 遮 挡 部 分 定 位 的 精 准 体姿态估计尺度不 稳 定 问 题,一 般 的 沙 漏 结 构 方 法
度。对于原始 RGB 输入图像,作者以目标人物为中 会在特定尺度下过 度 拟 合 身 体 关 节 点,导 致 单 一 尺
心对图像进行裁剪,并将图像块调整到 256×256 像 度“统治”。解决方法是在不同尺度下进行多次重复
素大小。 通 过 对 图 像 进 行 旋 转 (+/-30
°)和 缩 放 训练,进行姿态估 计,并 输 出 准 确 度 最 高 的 结 果,但
(
0. 25),训练网络 对 不 同 尺 度 和 方 向 的 图 像
75~1. 是这种方法缺乏一致的比 例 表 示。Yang 等 [28]也 注
更具鲁棒性。实验结果表明,此网络对人体的遮挡、 意到了人体形状变 化 和 视 角 改 变,身 体 部 位 的 比 例
重叠和扭曲问题更具鲁棒性,即使网络出现故障,输 不一致,导致身体部 位 检 测 器 难 以 正 确 定 位 身 体 部
出也更接 近 人 眼 的 真 实 预 测,而 不 是 “机 器 ”预 测。 位 关 节 的 问 题,提 出 了 一 种 金 字 塔 残 差 模 型
2 的 PCK(关 键
LSP 数 据 集 中,在 归 一 化 距 离 为 0. (
PRM ),如 图8所 示 ,采 用 堆 栈 沙 漏 网 络 作 为 基 本

图 8 PRM 结构 [28]
F
ig 8 PRM s
truc
tur
e
28

2400005
-6
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

网络结构,构建具有学习功能的多尺度特征金字塔, 间的关系,定位 被 遮 挡 的 关 节 点。 在 多 尺 度 监 督 网
[
11]
以实现增强网络尺度 不 变 性 的 目 的。Ke 等 提出 络中,在每个反卷积层上添加分层丢失项,以允许对
了一种基于多尺度 结 构 感 知 神 经 网 络 的 方 法,该 方 网络中每层特定比例的特征进行监督。这种方法可
法将多尺度监督网络(MSS -Net)与多尺度回归网络 以有效地帮助模型多尺度地学习人体关节点的局部
(MSR-Ne )
t 结 合,以 匹 配 多 尺 度 的 特 征,提 高 关 节 特征,促进网络对多尺度特征有效的学习,更好地捕
点定位的鲁棒性。 获人体关节点的 局 部 特 征。 此 外,沿 着 分 辨 率 金 字
多尺度监督网络和多尺度回归网络都使用结构 塔由粗到细的解卷积也遵循类似于注意力机制的方
感知损失,从多尺度特征中学习人体骨骼结构特征, 法,关注局部关节点 的 定 位 并 且 对 关 节 点 之 间 的 匹
这些特征可以为恢复复杂场景下被遮挡身体部位提 配进行改进。多尺度回归网络从多尺度监督网络堆
供强大先验。而这种将多尺度监督与回归网络紧密 栈中获取输入,通过 融 合 多 个 关 节 点 热 图 来 确 定 姿
结合的方法有效地 使 用 多 尺 度 特 征 定 位 关 节 点,通 态输出,从而进行 全 局 关 节 点 回 归。 从 文 献 [
29]可
过多个关节点之间 的 结 构 关 系 进 行 全 局 姿 态 估 计。 以看出,尽管沙漏堆栈越深姿态估计结果越好,但是
多尺度结构感知网 络 如 图 9 所 示,通 过 微 调 网 络 来 越深的沙漏堆栈越容易导致网络训练过程中出现梯
生成有效的训练样 本,重 点 放 在 复 杂 场 景 中 被 遮 挡 度消失问题。为此,文 献 [
11]引 入 了 一 个 人 体 骨 架
的关节点上。该方法相较于深度卷 积 沙 漏 模 型 有 4 图来定义结构感 知 损 失。 如 图 9 左 下 图 所 示,根 据
1)组合不同尺度特征的热图,加强身体
个关键改进: 人类骨骼图确定出 结 构 上 相 互 连 接 的 关 节 点,可 以
关节点的特征学习;2)通过多尺度回归网络,全局优 更好地捕获人体中 关 节 点 的 物 理 连 通 性,从 而 获 得
3)在 中 间 监 督 和 回 归 中
化多尺度特征的结构 匹 配; 结构先验。该 方 法 在 FLIC 数 据 集 中 的 PCK 达 到
使用结构感知损失,改善各相邻关节点之间的匹配, 2% (其中肘部、手腕为 97.
99. 3% ),在 MPI
I数据集
4)通 过 相 邻 关 节 点 之
以推断出更高阶的匹 配 模 型; 中取得了 92.
1% 的精准度。

图 9 多尺度结构感知网络 [11]
F
ig 9 Mu
lti
-sc
ales
truc
tur
e-awa
rene
two
rk
11

2.
3 基于组合模型的姿态估计 常多,由此形成的更 高 级 别 部 件 的 状 态 空 间 可 能 呈
在过 去 的 十 年 中,组 合 模 型 已 经 在 多 个 人 体 姿 指数增长,这对 于 计 算 和 存 储 的 要 求 都 很 苛 刻。 为
[ 32] [
33]
Tang 等
30-
态估计方法 中被采用。人体组合模型意味着将 了最大可能 地 解 决 这 一 问 题, 提出一种
整个人体表示为部 分 和 子 部 分 的 层 次 结 构,并 且 满 通过学习人体复杂的结构关系以进行姿态估计的深
足一些关节约束,这 种 层 次 结 构 能 够 捕 捉 人 体 各 部 度学习成分模 型 (
DLCM),同 时 还 提 出 了 一 种 基 于
件之间的结构关系。组合模型使用一组离散型变量 人体骨骼组 成 的 空 间 本 地 信 息 摘 要 ( S)表 示 模
SLI
来模拟部件之间的 兼 容 性,不 仅 包 括 部 件 的 方 向 和 型,精确编码每个 部 件 的 比 例、方 向 和 形 状,以 避 免
比例信息,还包括跨语义类(如直臂和弯屈臂)信息。 出现错误的部件组 合 方 式,分 别 包 括 16、
12 和 6 个
由于部件的不同类型与其所有子部件类型的组合非 部分的三种语义级别的组合模型。与先前的姿态估

2400005
-7
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

计网络相比,DLCM 具有跨多个语义级别的分层 结 个人体进行检测,多 人 姿 态 估 计 需 要 检 测 出 图 像 中


构,并且针对人体姿 态 的 估 计 具 有 类 似 于 多 人 姿 态 的所有人体,并且存在人与人之间彼此遮挡、截断等
估计的自下 而 上/自 上 而 下 网 络 阶 段。在 此 之 前 所 问题,同时被检测出 来 的 所 有 关 节 均 需 要 与 正 确 的
有的基于 CNN 的人体姿 态 估 计 结 构 模 型 都 没 有 将 人体相关联。多人 姿 态 估 计 一 般 有 两 种 方 法:一 种
实体分解为有意义 和 可 重 用 的 层 次 结 构,也 没 有 在 是自上而下的方 法 [35-37],即 首 先 使 用 人 体 检 测 器 检
不同的语义级别之间进行推断。文献[30]中的方法 测出图像中的所有 单 个 人 体,然 后 对 检 测 出 的 单 个
1)网络更具层次性;
与它们的不同之处在于: 2)学习 人体分别进行关节 点 检 测,进 而 估 计 出 每 个 人 的 姿
3)拥 有 包 括 跨 越 多 个
了身体部位之间的成 分 关 系; 态;另外一种是自下而上的方法 [38-40],即先检测出图
4)利
语义级别的自下而上 和 自 上 而 下 的 网 络 阶 段; 像中所有人体关节 点,根 据 人 体 结 构 先 验 对 检 测 出
用新颖的部件表示来监督网络的训练。 的关节点进行重新 组 合,使 得 人 体 与 自 身 关 节 点 正
DLCM 通过网 络 来 学 习 身 体 部 位 之 间 的 成 分 确匹配,进而实 现 对 每 个 人 的 姿 态 估 计。 通 常 情 况
关系。它具有分 层 组 合 架 构 和 自 下 而 上/自 上 而 下 下,自上而下方法只 需 对 图 像 中 被 检 测 出 的 单 个 人
的推理阶段。在自 下 而 上 阶 段,目 标 关 节 点 的 热 图 体进行姿态估计,不 需 要 区 分 身 体 部 件 和 解 决 关 节
直接从图像中回归,通 过 人 体 关 节 子 节 点 递 归 出 更 点在全图中的归属问题,相比较自下而上的方法,更
高级别部件的热 图。 在 自 上 而 下 阶 段,较 低 级 别 部 加容易实现。但是,正 因 为 自 上 而 下 方 法 的 这 一 特
分的热图使用与其关联的父关节得分图以及自下而 性,当图像中人体出现相互遮挡时,更容易出现重复
上阶段 的 自 身 得 分 图 进 行 递 归 细 化 描 述;使 用 文 检测和错误估计等问题。
34]中应用 的 均 方 误 差 (MSE)损 失 来 区 分 预 测
献[ 3.
1 自上而下的评估方法
的热图与真实热图,以 引 导 网 络 学 习 身 体 部 位 之 间 对于多人图像中存在的人体相互遮挡或被截断
的正确 连 接 关 系。 在 FLIC 数 据 集 上,
DLCM 在 手 问题,一般方法分为 人 体 检 测 和 姿 态 估 计 两 个 阶 段
腕识别 上 的 精 准 度 较 文 献 [
11]提 升 了 1.
5% 。 在 来解决。此 类 方 法 依 赖 于 简 单 的 人 体 几 何 部 位 关
MPI
I数据 集 上,分 别 在 踝 关 节,膝 关 节,髋 关 节,腕 系,强 调 个 体 间 的 分 割 与 检 测。 比 如 文 献 [
38,
41-
关节 和 肘 关 节 的 精 准 度 提 升 了 2.6% ,2.0% , 43]都是首先检测出单个人体,然后再独立估计出单
7% , 4% 。在这 两 个 数 据 集 中,该 方 法
[
44]
1. 1.6% 和 1. 人的姿态。Iqba
l等 提 出 了 一 种 进 行 多 人 姿 态 估
的精准度超越了之 前 最 先 进 方 法 的 精 准 度,同 时 与 计的新思路,将多人 姿 态 估 计 视 为 人 体 局 部 关 联 问
[
31] [
28]
8 层沙 漏 堆 栈 模 型 及特征金字塔模型 相 比, 题,通过使用人体检测器检测出图像中的人体,生成
3 级 DLCM 具有 明 显 更 少 的 参 数 量 和 更 低 的 计 算 一组联合候选框。 对 于 每 个 检 测 到 的 人 体,使 用 卷
复杂性。 积姿态机(CPM)分 别 对 每 个 候 选 框 进 行 单 个 人 体
基于深度学习的单人姿态估计方法更多的是作 姿态的估 计。 但 是 在 单 独 对 每 个 候 选 框 进 行 估 计
为人体姿态估计的基础方法。基于回归的方法通过 时,都不会考虑人体之间相互遮挡或截断的问题,这
多分辨率提取图像特征学习从身体特征到身体部位 使得估计的关节点 不 能 与 正 确 的 人 体 相 关 联,从 而
位置的映射,利用多 阶 段 网 络 直 接 得 到 每 个 关 节 点 导致错误的估计。 因 此,为 了 将 每 个 关 节 与 正 确 的
的坐标,进而估 计 人 体 姿 态。 但 是 这 种 直 接 回 归 关 人体相关联并且移 除 错 误 的 候 选 框,该 方 法 使 用 整
节点坐标的方法不能很好地学习到人体关节点之间 数线性规划(ILP)在 每 个 人 的 完 全 连 通 图 上 进 行 推
的结构信息。基于输出热图的方法通过构建概率图 断,以得出最终的姿态估计结果,具体方法过程如图
模型或者利用多尺度感受野学习到了关节点的结构 10 所示。给定图像I 中的人,定义其姿态 为 一 个 集
信息,通过设计的级联网络得出精确的关节点坐标。 Xj }
合 χ= { J,
j=1,… , 其 中 J 为 14 个 人 体 关 节,用 向
由于这种方法能充 分 理 解 关 节 点 定 位 的 失 败 过 程, 量 Xj ∈χ 表示图像 中 第j 个 a 关 节 的 位 置 (
u,v)。
网络输出多个空间 位 置 的 置 信 度,而 不 是 只 考 虑 单 网络中的 CPM 由多阶段 CNN 架构,每个阶段的多
个位置的置信度,使 得 学 习 更 加 立 体。 因 此 主 流 的 标签分类器 ϕt (
X )为 每 个 关 节 j 提 供 置 信 度St
j

R ,其中 w 和h 分 别 是 图 像 的 宽 度 和 高 度,
w ×h
姿态估计都是采用基于热图检测的方法的。 t表
示第t 个阶段。网络第一阶段使用局部图像特征来
3 多人姿态评估方法 提供置信度分数:
相比于单人姿态估计只需对被检测图像中的单 φt =1(
X I)→ {
sj1(
Xj =X )} J+1 。
j=1,… ,
(
2)

2400005
-8
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

图 10 联合人体关联具体过程 [44]
F
ig 10 Spe
cif
icp
roc
esso
fjo
inthumanbodya
sso
cia
tion
44

所有后续阶段都利用前一阶段的上下文信息产 过热图和弥补图的融合得到关节点的精确定位。其
生新的置信度得分: 中弥补图代表热图的每个像素位置到正确关节点位
φt >1[ X I,
ψ( X,St-1)]→ 置的偏移(每个弥补图对应一个通道,分别表示关节
{st (
j
Xj =X )} J+1 ,
j=1,… ,
(
3) 点的 x 和y 坐标),然后对三个 通 道 进 行 融 合,从 预
w ×h× (
J+1)
St ∈R
式中: 对应于所有身体关节的置信度 测的偏移 量 中 投 票 出 真 实 的 关 节 点 位 置。 融 合 方

ψ(
得分图和阶 段t 的 背 景; X,
St-1 )表 示 从 置 信 度 式为
图 St-1 到位置 x 的 特 征 映 射。 由 于 假 设 所 有 关 节 1
xi)= ∑
fk ( [ ( ) ] ( ),
2G xj +Fk xj -xi hk xj
点在图像中都是可见的,忽略了隐形关节点,可能错 j πR
误地将其 他 人 的 关 节 与 当 前 人 体 相 关 联。 因 此 文 (
4)
44]不 采 取 置 信 度 分 数 的 最 大 值,而 是 从 每 个 推
献[ G(
式中: ·)为双 线 性 内 插 算 法;
hk 是 输 出 的 热 图 通
断得分图 Stj
中 抽 取 N 个 候 选 者,通 过 ILP 解 决 人 道。计算出热图上所有位置相对于 xi 的距离,再除
体关节之 间 的 关 联 以 及 错 误 连 接 的 去 除 问 题。 在 去一个 πR2 ,之所以除去 πR2 是 假 设 网 络 的 预 测 特
[38]
MPI
I数 据 集 上,该 方 法 的 精 准 度 比 De
epCut 提 别准,那么 除 了 在 以 真 正 关 节 点 为 圆 心,半 径 为 R
8% ,并 且 运 算 时 间 从 57995 s 提 升 到 了
高了 0. 的圆内应该有值的话,其余地方都 是 0,所 以 才 只 除
10s。为了评估人体检测器的检测 精 度 对 姿 态 估 计 去 πR2 而不是除去整个热 图 的 大 小,不 然 会 分 散 真
的影响,当 给 出 检 测 人 体 的 真 实 位 置 时,精 确 度 从 正有值的地方的值。该过程先预测单独的热图和弥
49. 9% ,表 明 更 好 的 人 体 检 测
3% 显着提高到了 76. 补图,并将二者融 合,产 生 高 度 本 地 化 的 激 活 图,从
器将进一步改善人体姿态估计结果。 而可 以 提 高 关 节 点 定 位 的 精 准 度。 作 者 在 基 于
ResNet101 的 Fa s
ter
-RCNN 上 利 用 空 洞 卷 积
[
45]
Papand
reou 等 在没有提供人体的真实位置
或比例的情况下,重新审视了自上而下的方法,并表 (a
trousc onvo
lut
ion)对卷积操作进行了修改。空洞
明它可以有效解决更具挑战性的基于“野外”场景下 卷积的卷积核是稀疏的,其有效性基于如下假设:紧
的姿势估计问题。 该 方 法 分 为 两 个 阶 段:在 第 一 阶 密相邻的像素点的 属 性 几 乎 相 同,将 其 全 部 纳 入 计
段,使用 Fa
ste
r-RCNN 检 测 出 图 像 中 的 多 个 人 体, 算则过于冗余,不如跳 H (空洞尺寸)个 像 素 取 一 个
由于检测出的人体 边 界 框 大 小 不 同,在 保 持 人 体 纵 像素进行卷积计算,如 图 11 所 示,为 普 通 卷 积 到 空
横比为 1.
37 的情况下对每个人体边界框进行裁剪, 洞卷积的 变 化 过 程。 空 洞 卷 积 减 小 了 卷 积 核 的 大
得到的裁剪图 像 大 小 为 353×257;在 第 二 阶 段,采 小,起到节省内 存 和 缩 短 运 算 时 间 的 作 用。 为 了 重
f
用全卷积残差网络(ul
lyconvo
lut
iona
lre
snet)预测 点解决关节点被遮挡以及复杂背景下多人姿态估计
t),通 问 题, [
46]
每个人体边界框中人体的热图和弥补图( off
se Chen等 提 出 了 一 种 新 型 级 联 金 字 塔 网 络

2400005
-9
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

图 11 空洞卷积示意图
F
ig 11 Schema
tico
fdi
lat
edc
onvo
lut
ion

(
CPN),整体框架采用从上而下的检测策略,首先使 义信息较多,但 分 辨 率 较 低。 因 此 通 过 不 同 倍 率 的
用人体检测框架得出人体候选框,然后使用 CPN 对 上采样对底层特征 与 其 上 一 层 特 征 进 行 相 加,实 现
每一个人体候选框 中 的 人 体 关 节 点 进 行 回 归,进 而 不同尺度特征的融 合,再 对 融 合 后 的 四 层 特 征 进 行
得出 人 体 姿 态。 网 络 整 体 结 构 如 图 12 所 示,
CPN 通道转换并进行上 采 样,一 方 面 用 于 计 算 该 阶 段 的
Gl
包含两个子网络:全球金字塔网络( oba t)和金
lNe L2l
oss,另一 方 面 作 为 Re
fineNet 的 输 入。 一 些 被
字塔精炼网络(Re
fi t)。Gl
neNe obalNe
t是一个功能 遮挡或不可见的关节点在 Gl oba
lNet中的输出误差
金字塔网络,可以定 位 “简 单”关 节 点,如 眼 睛 和 手, 会比 较 大,因 此 需 要 通 过 Re f
ineNe
t 将 Gl
obalNe
t
但无法精确识别被遮挡或不可见的关节点。它采用 得 到 的 所 有 层 次 的 特 征 融 合 到 一 起,以 实 现 对
残差网络作为基础 网 络 提 取 特 征,不 同 的 卷 积 特 征 Gl
oba t的预测结果 进 行 修 正 的 目 的。 文 献 [
lNe 43]
的最后一个残差模块分别为 4 个不同分辨率的特征 中探讨了可能影响 多 人 姿 态 估 计 性 能 的 各 种 因 素。
图 C2,
C3,
C4 和 C5。其 中 C2 和 C3 的 特 征 图 分 辨 在 Re
fineNe
t中 选 取 M 个l oss 反 馈 至 Gl
obalNe
t
率 较 大 ,但 语 义 信 息 较 少 ,而C4和C5的 特 征 图 语 中进 行 训 练 ,从 图13(
a)可 以 看 出 ,不 同 的M 值 下 ,

图 12 CPN 整体结构 [46]


F
ig 12 CPN ove
ral
lst
ruc
tur
e
46

图 13 影响多人姿态估计性能的各种因素实验结果对比 [46]
F
ig 13 Compa
ris
ono
fexpe
rimen
talr
esu
ltso
fva
riousf
act
orsa
ffe
cti
ngt
hepe
rfo
rmanc
eofmu
lti
-pe
rsonpo
see
stima
tion
46

2400005
-10
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

会得到不同的精准度 AP 值;从 图 13(


b)可 以 看 出, 测到的人体边界框,无论正确与否,都会得到一种人
在 CPN 中,采 用 不 同 的 l
oss形 式 会 带 来 不 同 的 检 体姿态估计,因此会 出 现 单 个 人 体 存 在 多 个 姿 态 的
测 效 果。 当 Gl
oba
lNe
t中 采 用 L2l
oss 时,
Ref
ineNe
t 问题。为了解决以上 问 题,文 献 [
47]提 出 了 一 种 区
中采用 L2l
oss* ,精准度最高。 域多人姿势估计(RMPE)框架。该框架由三部分组
虽然 以 上 方 法 有 较 高 的 精 准 度,但 是 前 提 是 要 SSTN)、参 数 姿 势 非 最
成,包括对称空间 变 换 网 络(
有正 确 的 人 体 检 测。Fang 等 [47]使 用 基 于 Fa
ste
r- 大抑制( NMS)和姿态引导建议生成器( PGPG)。将
RCNN 的人体检 测 器 和 沙 漏 堆 栈 网 络 模 型
[
31]
对这 设计的 SSTN 结 合 SPPE,从 不 准 确 的 边 界 框 中 提
些问题进行解释并加以优化。因为单个人的姿态估 取高质量的 单 人 区 域,引 入 NMS 来 比 较 姿 态 之 间
计对被检测出的人 体 框 位 置 很 敏 感,无 论 被 检 测 出 的相似性,以消除冗余姿势。通过 PGPG,学习人体
的人体框是否正确,都 会 对 每 个 人 体 框 进 行 姿 态 估 检测器对不同姿态 的 输 出 分 布,模 拟 人 体 边 界 框 的
计,这种重复检测产生了冗余姿态。图 14 分别说明 生成,产生大量的训练样本数据,以实现增强训练样
了边界框定位错误问题和冗余检测问题。在图 14(
a) 本的目的。虽然该 方 法 针 对 单 个 人 体 的 姿 态 估 计,
I
中,虚线框是真实边界框,实 线 框 是 交 并 比(oU)大 但是在 多 人 姿 态 估 计 中 也 显 示 出 不 错 的 效 果,在
于 0.
5 的边界框,即使实线框被视为“正确”检测,也 I(多人)数据 集 上 实 现 了 76.
MPI 7% 的 平 均 精 度 均
未能得到人体姿 态。 如 图 14(
b)所 示,对 于 每 个 检 值(mAP)。

图 14 人体检测问题 [47]
F
ig 14 Humande
tec
tionp
rob
lem
47

但是随着检测人 数 的 增 多,文 献 [
47]中 的 方 法 态,并对 人 体 遮 挡 情 景 具 有 良 好 的 适 应 性。SPLP
所花费的计算时间 也 变 得 更 长,此 类 问 题 也 是 自 上 模型使用 两 个 网 络 分 支。 其 一,使 用 CNN 提 取 身
而下方法的通病,对于每次检测,都要运行单人姿势 体部位候选区,将每 一 个 候 选 区 域 所 对 应 的 一 个 关
估计器,其中检测的人数越多,计算成本就越高。 节点作为一个节点,所 有 的 这 些 候 选 节 点 组 成 一 幅
3.
2 自下而上的评估方法 完整的节点 图,如 图 15(
a)所 示。 以 各 节 点 之 间 的
尽管 近 年 来 检 测 器 精 度 得 到 了 很 大 的 提 升,检 关联性作为权重,将 关 节 之 间 的 关 联 问 题 看 作 是 一
测错误的发生还是 不 可 避 免 的,比 如 边 界 框 定 位 错 个整数线性规划问 题 ,通 过 数 学 方 法 求 解 正 确 的 连
误以及检测冗余等,会 严 重 地 阻 碍 自 上 而 下 方 法 精
度的提升。与自上 而 下 的 方 法 不 同,自 下 而 上 方 法
摆脱了自上而下方法对个体进行精确检测这一要求
的依赖。首先检测 出 图 像 中 所 有 的 人 体 关 节 点,对
这些关节点进行聚类,使之与正确的人体匹配,最终
[38]
实现人体的姿态估计。P ishchu
lin 等 采用自下而
上方法解决图像中 多 人 人 体 姿 态 估 计 问 题,提 出 了
联合子集划分 和 标 记 (
SPLP)模 型。 与 自 上 而 下 先
检测出 人 体 再 进 行 姿 态 估 计 的 两 阶 段 方 法 不 同, 图 15 SPLP 网络姿态估计过程 [38]
SPLP 模型可以同时检 测 出 图 像 中 的 人 体 数 量 和 姿 F
ig 15 Po
see
stima
tionp
roc
esso
fSPLPne
two
rk
38

2400005
-11
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

接关系,将属于同一个人的关节点归为一类,则每一 了部件亲和域场( PAFs),在保证关节点检测精度的


个人成为一个单 独 的 类。 其 二,对 检 测 出 来 的 节 点 前提 下 进 一 步 缩 短 了 运 行 时 间。 先 利 用 VGG-
19
进 行 标 记,确 定 节 点 属 于 人 体 的 哪 一 个 部 分,如 网络的前 10 层对原始图像进行处理得到特征图,通
图 15(
b)所示。最 后,通 过 网 络 对 属 于 同 一 人 体 的 过改进的 CPM 网 络 对 特 征 图 进 行 多 阶 段 处 理,每
关 节 点 和 各 关 节 点 的 标 记 类 型 进 行 结 合,如 个阶 段 的 输 出 分 别 为 部 件 置 信 度 图 (
PCM )和
图 15(
c)所示。在适 用 于 多 人 姿 态 估 计 的 WAF 数 PAFs。其中,PCM 关 注 人 体 关 节 点,例 如 头、肩 膀
据集上, SPLP 模 型 的 精 准 度 比 传 统 的 两 阶 段 方 法 等;而 PAFs关注 肢 体 段,例 如 大 臂、大 腿 等。 双 分
提高了 30% 。但是,所 采 取 的 改 进 Fa
stR-CNN 结 支多级 CNN 的网络结构 如 图 16 所 示,将 得 到 的 图
合ILP 的方法 增 加 了 算 法 复 杂 度,运 算 时 间 达 到 了 像特征图 F 作为 Stage1 的 输 入,输 出 原 始 图 像 对
57995s。 针 对 这 一 问 题, 应的部件置 信 度 图 PCM 和 PAFs;将 S
[
39]
Ins
afutd
inov 等 在文 tage1 的 输
献[38]工作的基础上,提出了 De eperCu
t算法,最主 出和原始图像的 特 征 图 F 作 为 S
tage2 的 输 入,输
要的改进为: 1)使 用 残 差 网 络 (
ResNe
t-50、Re
sNet
- 出对应 的 PCM 和 PAFs;
Stage3 及 其 后 面 各 个 阶
152) 进 行 身 体 部 件 的 提 取;2)使
[
31]
101 和 Re
sNe
t- 段的网络结 构 及 功 能 和 S
tage2 相 似,这 样 反 复 迭
用图像条件成 对 术 语 (
ICPT)方 法 将 得 到 的 丰 富 的 代,直到网络收敛。图 17(
a)为输入图像,图 17(
b)为
候选区域节点压缩 至 一 定 数 量,以 减 少 全 连 接 网 络 检测的关节 点 的 置 信 度 图,图 17(
c)代 表 人 体 躯 干
的运算时间。在 MPI
I数据集上, Deepe
rCut的精准 的 PAFs。在 PAFs的帮助下,把 PCM 检 测 出 的 关
38]中的方法提 升 了 12.
度相较于文献[ 1% ,运 行 时 节点坐标连接起来,实 现 一 段 躯 干 与 两 端 关 节 的 快
间减少到 230s。但是从时间效率上看,还是不令人 速匹配,从而形 成 人 体 姿 态 骨 架。 为 了 防 止 训 练 时
CPM)提 出 出现梯度消失的问 题 ,在 每 个 阶 段 中 间 加 入 了 中 层
[
48]
Cao 等
满意。因此, 基于卷积姿态机(

图 16 双分支多级 CNN 体系结构 [48]


F
ig 16 Two
-br
anch mu
lti
-st
ageCNNa
rch
ite
ctu
re
48

图 17 PAFs方法示意图 [48]
F
ig 17 Schema
tico
fPAFs me
thod
48

2400005
-12
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

损失以加强 反 向 传 播。 在 MPI
I 数 据 集 测 试 中,该 指标。
方法的 mPA 比 De
epe
rCut提升了 13% 。相比于自 3)AP
上而下方法,自下而上方法具有更好的稳健性,更适 在整 个 测 试 数 据 集 上,每 一 关 节 点 检 测 结 果 的
合解决图像中复杂场景下的人体姿态估计问题。 AP)为
平均准确率(

4 方法技术指标及对比分析 ∑δ(O OKS >s)


AP =
p
, (
6)
4.
1 评价指标 ∑p 1

1)PCK 式中:s 为 OKS 阈值。


关节点正确估计的比例( PCK)是指检测关节点 4)mAP
与其相对应的真 实 标 注 数 据 (
groundt
ruh)间 的 归
t mAP 是指在不同阈值下,将每一关节点的检测
一化距离小于设定阈值的比例。 AP 都单独 “拎”出 来,再 计 算 所 有 关 节 点 AP 的 均

2)OKS 值 。计算方式为
[49]

目标关节 点 相 似 度 (OKS)在 关 节 点 检 测 中 用 an{


P mAP =me AP@s(0.50:0.05:
0.95)}, (7)
oU,计算关节点位置的加权欧氏距离,对检
来代替I 在给定 阈 值s 下,AP 为 每 一 关 节 点 在 整 个 测 试 数
测关节点与其对应的真实标注数据间的相似性进行 据集上检测结果的平均准确率。
评估,具体评估方式为 5)IoU
IoU 是一个作为目 标 检 测 算 法 性 能 mAP 计 算
∑exp{-d /2spδi }
δ(vpi =1)
22 2
pi

,( 的 非 常 重 要 的 函 数。I
oU 表 示 产 生 的 候 选 框
5)
i
O OKS,p =
∑δ(
i
vpi =1) (
cand
ida
tebound)与原标记框(
groundt
ruhbound)的
t
式中:p 为检测人体框编号; i 为数据集标注时各 关 交叠率,也就是它们的交集与并集的比值。

dpi
节点 编 号; 为 测 试 时 检 测 关节点位置与数据标 4.
2 对比分析
注关节点位置的欧氏距离; sp 为 检 测 人 体 框 面 积 的 在人体姿态估计中,由于人体比较灵活,人体关
平方根(人体尺度因 子);
δi 为 骨 骼 关 节 点 归 一 化 因 节点通常 存 在 可 见、不 可 见、不 在 图 内 (不 可 推 测 )
子(人工标注关节点位置偏移的标准差);
vpi 指编号 3 种状态,还存 在 不 同 部 位 的 关 节 点 的 检 测 难 易 程
为 p 的人的第i 个关节点的状态(可见、不可见或者 度差异、部位相似使得关节点区分性较差等问题,数
不在框内等); δ(vpi =1)为克罗内克函数。( 5)式中 据图像中关节点选择数量和关节点位置对模型训练

v =1)计 入 对 姿 态 评 估 的 评 价
只将可 见 关 节 点 ( 效 果 有 直 接 的 影 响 。图18、图19及 图20分 别 对 比

LSP)
图 18 单人姿态估计实验对比结果(
F
ig 18 Compa
ris
onr
esu
ltso
fsi
ngl
epe
rsonpo
see
stima
tionexpe
rimen
ts LSP

2400005
-13
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

I)
图 19 单人姿态估计实验对比结果(MPI
F
ig 19 Compa
ris
onr
esu
ltso
fsi
ngl
epe
rsonpo
see
stima
tionexpe
rimen
ts MPI
I

I)
图 20 多人姿态估计实验对比结果(MPI
F
ig 20 Compa
ris
onr
esu
ltso
fmu
lti
-pe
rsonpo
see
stima
tionexpe
rimen
ts MPI
I

了不同姿态估计方法在 MPI
I和 LSP 数据集上的实 法 [38],
Deepe
rCu
[
39]
t方法 通过残 差 网 络 提 取 身 体 部
验结 果。 在 图 18 中,从 Pa
rthe
atmap Reg
res
sion 件,并采用图像条件 成 对 术 语 方 法 将 候 选 区 域 大 量
[
19]
方法 的实验结果可以看出,采用残 差 网 络 进 行 回 的节点 数 压 缩 到 较 少 数 量,使 得 网 络 运 算 时 间 从
归的方法的整体精准度 要 比 采 用 VGG 网 络 架 构 进 57995s降低到了 230s,同 时 网 络 精 准 度 也 提 升 了
行回归的方 法 高 出 7% ,相 比 于 VGG,残 差 网 络 可 0.7% ,对数据量要求降低的同时提高精准度。在图
以进一步减小网络加深过程中出现的梯度消失和梯 19 中,各种姿态估计方法的检测精 度 在 典 型 关 节 点
度爆炸等 问 题 所 带 来 的 损 失。 相 比 于 De
epCu
t方 He
ad处达到 了 93% 以 上,但 在 非 典 型 关 节 点 Ank
le

2400005
-14
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

[
38]
处的检测精度却都处在 90% 之下,其中 De
epCu
t 用,比如 COCO 数据 集、MPI
I数 据 集 和 FLIC 数 据
[
19]
和 Pa
rthe
atmap Reg
res
s方 法 在 Ank
ion le处 的 集等,但是这些数据集中大都是一些如站立、静坐等
检测精度甚至低于 70% ,说明各 种 姿 态 估 计 方 法 在 简单姿态图像,缺乏摔倒、翻越等复杂姿态。随着深
典型关节点和非典型关节点的检测精度上存在较大 度学习在解决人体 姿 态 估 计 问 题 中 的 广 泛 应 用,利
[
50]
差距。 虽 然 Ca
scade Fe
atu
re Agg
rega
tion 方 法 用这些数据集进行训练的人体姿态估计模型对于简
对典型关节点的检测精度与其他方法相比并没有展 单人体姿 态 的 估 计 水 平 已 经 到 达 较 高 的 水 平。 比
[
50]
现出较大的优势,但 是 对 于 非 典 型 关 节 点 的 检 测 效 Su 等
如, 通 过 级 联 特 征 聚 合 方 法,在 MPI
I数 据
果要比其他对比方 法 更 加 突 出,甚 至 在 Ank
le上 的 集上将单 人 姿 态 估 计 的 检 测 精 度 提 升 至 93. 9% 。
19]高出 20% ,对 于 非 典 型 关 节 点
检测精度比文献[ 但是,由于缺乏日常生活中的复杂姿态数据,模型难
的正确检测将更有助于提高人体姿态估计的整体检 以适应如智能安防、智 能 交 通 以 及 智 慧 城 市 等 环 境
测精度。从图 20 可以看出,相比于单人人体姿态估 下所要求的实际场景。研究如何在实际场景中有效
计方法在各个关节 点 上 的 平 均 检 测 精 度,多 人 人 体 估计人体复杂姿态具有很好的实用价值。
姿态估计各种方法 的 平 均 检 测 精 度 普 遍 较 低,特 别 2)人体检测器存在缺陷
是对于 非 典 型 关 节 点 的 检 测 精 度,二 者 平 均 相 差 由于 存 在 人 体 尺 度 不 同、相 互 遮 挡 以 及 背 景 重
20% 。由此也可以 看 出,图 像 中 需 要 检 测 的 关 节 点 叠等问题,容易出现 边 界 框 定 位 错 误 和 检 测 冗 余 现
数量和各关节点之间位置关联关系的复杂性会增加 象。姿态估 计 算 法 对 被 检 测 出 的 人 体 框 位 置 很 敏
检测难度。相较于关节点标注个数为 14 的 LSP 数 感,无论被检测出的人体框是否正确,都会对每个框
据集,MPII数 据 集 增 加 了 Pe l
vis(骨 盆 )和 Thorax 中的人体进行姿态 估 计,而 重 复 的 检 测 会 产 生 冗 余
(胸部)两 个 难 以 检 测 的 关 节 点,通 过 图 18 和 图 19 姿态,错误检测会降低姿态估计模型的性能。
的对比可以看出,相同人体姿态估计方法在 LSP 数 3)算法的时效性不高
据集上的检测精度要略高于 在 MPI I数 据 集 上 的 检 虽然基于深度学习的人体姿态估计方法的检测
测精度,由此可以看 出 关 节 点 位 置 对 模 型 训 练 效 果 精度不断提高,但是 这 些 方 法 都 要 构 建 复 杂 的 网 络
有直接的影 响,并 且 越 难 区 分 的 关 节 点,检 测 精 度 结构,训练相关 网 络 时 需 要 花 费 大 量 时 间。 对 于 自
越低。 上而下方法,由于对 检 测 到 的 每 一 个 人 体 都 需 要 进
行一次姿态估计,因 此 随 着 检 测 人 数 的 增 加 所 花 费
5 未来工作展望 的计算时间也变得更长。虽然自下而上检测方法不
根据近年来的相关研究以及各研究之间的关联 需要对图像中的人 体 依 次 进 行 检 测,但 是 当 拥 挤 场
性,综述了各类姿态估计方法,总结了从各个方面提 景下各类需要检测 的 关 节 点 数 目 呈 爆 炸 式 增 长 时,
升性能和精度的相 关 模 型,具 体 包 括 基 于 堆 栈 沙 漏 算法的时效性也会明显下降。为了提高模型的时效
网络、注 意 力 机 制、残 差 网 络 (
Re t)和 生 成 对 抗
sNe 性,研究人员通过减 小 网 络 规 模 设 计 了 一 些 轻 量 级
网络的姿态估 计 模 型。 在 单 人 姿 态 估 计 的 基 础 上, 网络,但是牺牲 了 一 定 的 精 度。 如 何 保 证 在 高 精 度
从自上而下和自下而上两个方法角度总结了多人姿 检测的前提下提高时效性是一个值得重视的问题。
态估计算法,对多人 人 体 姿 态 估 计 方 法 中 待 检 测 人 4)视觉角度和环境的影响
数与模型检测精度 之 间 的 权 衡 关 系 进 行 了 分 析,并 基于 目 前 的 研 究 方 法 可 以 看 出,无 论 是 在 非 正
着重介绍了局部区域重叠、关节点混淆、人体非典型 常角度如俯视或者 侧 视 角 度 下,还 是 当 受 到 光 照 变
部位关节点难以检 测 等 问 题 的 解 决 方 案,以 及 在 自 化、遮挡等环境因素影响时,人体关节点检测过程中
下而上方法中聚类方法对关节点检测的贡献。由于 都会存在关节点误 判 或 遗 漏 等 问 题,使 得 人 体 姿 态
人体姿态估计作为 人 体 行 为 识 别、行 人 重 识 别 等 机 的识别率明显偏低。
器视觉问题研究的 基 础 性 方 法,相 关 研 究 在 受 到 广 基于 对 以 上 限 制 因 素 的 分 析,考 虑 现 实 应 用 需
泛关注的同时,还存在很多瓶颈性制约因素,限制了 求,未来的工作可从如下几方面开展。
其发展。最后对人体姿态估计未来的发展趋势进行 1)针对非典型关节点的检测
了展望。 无论是自上而下还是自下而上的人体姿态估计
1)缺乏与实际场景更匹配的训练数据 方法,非典型的人体 关 节 点 的 检 测 精 准 度 普 遍 低 于
虽然目前有多个人体姿态估计数据集可供使 典型人体关节点的 精 准 度,如 图 18 所 示,无 论 哪 种

2400005
-15
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

方法,对头、肩膀的 检 测 精 度 都 高 于 对 手 腕、脚 踝 的 实现了可以 在 CPU 上 实 时 运 行 的 人 体 姿 态 估 计。


精度。人体姿态估计方法的精度可以通过对非典型 可以 考 虑 利 用 一 些 包 括 蒸 馏 法 [57]、分 组 卷 积 [58]以
关节点的准确检测得到进一 步 提 升 [
50]
。例 如,可 以 及逐点卷积 [52]等轻量化网络算法来 简 化 网 络 结 构,
通过引入注意力机制获取人体中需要重点关注的目 将这些轻量级网络 结 构 用 于 人 体 姿 态 估 计,将 进 一
标关节区域,之后对这一区域投入更多注意力资源, 步降低算法的落地门槛。
以获取更多需要关 注 的 非 典 型 关 节 点 的 细 节 信 息, 4)基于视频的人体姿态估计
在提高非典型关节点的检测精度的同时也提高了人 目前主流的人体姿态估计还是通过单帧图像特
体姿态估计的整体精度。如何通过准确估计非典型 征提取到人体各个 关 节 点 信 息 完 成 人 体 姿 态 估 计。
的人体关节点来进一步提升人体姿态估计精度是一 在现实需求中,从提升精度和鲁棒性的角度考虑,在
个重要的研究方向。 连续多帧图像序列中识别人体姿态将更有效。基于
2)提高对复杂场景的适应性 视频的人体姿态估计的核心环节是考虑帧与帧之间
人体 姿 态 估 计 方 法 发 展 至 今,无 论 是 单 人 姿 态 的关联性,利用人体 连 续 动 作 或 人 体 持 续 姿 态 等 特
估计还是多 人 姿 态 估 计,无 论 是 2D 姿 态 估 计 还 是 点,可以将一些失真姿态恢复成真实姿态,能够解决
3D 姿态估计,能 够 有 效 检 测 的 人 数 一 般 不 会 太 多, 单帧图像中存在的 遮 挡、背 景 干 扰 和 比 例 失 调 等 所
主要是缺乏针对拥挤场景高效的人体检测算法。当 带来的模型精度 下 降 问 题。 例 如,通 过 光 流 法 来 估
图像中人数增多时,会出现人与人之间相互遮挡、相 计视频中人体姿态,使 用 光 流 在 连 续 的 多 个 帧 中 组
互截断以及复杂背 景 干 扰,这 将 导 致 检 测 器 出 现 漏 合信息,通过连续多 帧 图 像 的 上 下 文 信 息 还 原 当 前
检、误检和多检等问题,将会影响后续的姿态估计结 人体姿态。
果。未来可以利用 多 视 角 信 息 融 合 方 法,通 过 多 路 5)模型向半监督、甚至无监督模式发展
[
51]
匹配算法 对多视角中二维位姿进 行 聚 类,然 后 利 现有主流的人体姿态估计模型需要大量的标注
用不同视角下的互补信息来解决复杂场景下人体相 好的训练数据。手工标注是一项非常耗时耗力的工
互遮挡、相互截断等问题。从实际应用的角度来看, 作,尤其针对基于视频的人体姿态数据集,现有的做
人体姿态估计不能 只 局 限 于 简 单 的 场 景,如 何 提 高 法是对每一帧图像 都 进 行 标 注,整 个 过 程 不 仅 耗 时
对复杂场景的适应性已经是迫在眉睫的问题。 耗力,而且人工标注的数据存在一定的局限性,降低
3)简化运算参数 了模型的 泛 化 能 力。 可 以 采 用 稀 疏 注 释 [59]的 方 法
随着 人 体 姿 态 估 计 在 实 际 中 的 逐 步 应 用,降 低 对视频序列中每隔 k 个 帧 进 行 一 次 标 注,利 用 光 流
运算成本开始成为科研工作者努力的方向之一。卷 法对视频序列中标注的帧和未标记的帧的特征进行
积神经网络是人体 姿 态 估 计 工 作 的 核 心 组 件,绝 大 翘曲,通过标记帧的 人 体 姿 态 预 测 结 果 来 反 向 优 化
多数计算量集中在 卷 积 操 作 上,因 此 高 效 的 卷 积 层 未标记帧的预测结果。还可以在无标签数据中加入
设计是降低网络复杂度的关键。虽然关于卷积模型 少量标注好的样本,同 一 簇 中 的 无 标 签 数 据 与 有 标
的 研 究 层 出 不 穷,产 生 了 如 VGG[19]、Re t 、
sNe
[
21] 签的数据共用同一 标 签,在 减 少 标 注 数 据 工 作 量 的
[ ] [ ]
Xc
epti
on 和 Re sNeXt 等性能优异的网络结构,
52 53 条件下明显提升模型的泛化能力。甚至可以采取无
并在多个视觉任务上超过了人类水平,然而,这些成 监督训练方法,采用无标签训练数据,通过聚类算法
功的模型往往伴随 着 巨 大 的 计 算 复 杂 度,模 型 的 训 训练模型,省略对数 据 标 注 这 一 工 作 的 同 时 提 升 模
练无法在移动端进 行,只 能 依 赖 高 性 能 的 服 务 器 集 型对场景的适应性。如何基于弱监督、半监督、甚至
群。本着在保证一 定 的 识 别 精 度 条 件 下,尽 可 能 减 无监督模式形成高精度的人体姿态估计模型将会成
少网络规模的思想,一 些 轻 量 级 卷 积 网 络 结 构 被 提 为未来的重点方向。
[
54]
Zhang 等 提 出 的 Shu
出。例如, f
fleNet是 一 种 针
参 考 文 献
对移动端低功耗设 备 的 更 为 高 效 的 卷 积 模 型 结 构,
其在 Re
sNe
t的设计思 想 基 础 上 做 出 了 一 系 列 改 进 1 WangC Y Wang Y Z Yu
ill
e A L Anapp
roa
cht
o
po
se-ba
sed a
cti
on r
ecogn
iti
on C ∥2013 IEEE
来提升模型的效率,在 大 幅 降 低 模 型 计 算 复 杂 度 的
Con
fer
enc
e on Compu
ter Vi
sion and Pa
tte
rn
同时仍然保持了较 高 的 识 别 精 度,使 得 网 络 可 以 在
Re
cogn
iti
on June 23
-28 2013 Po
rtl
and OR
[
55]
CPU 上高 效 运 行。 Osok
in 在 OpenPo se算 法 的 USA New Yo
rk IEEE Pr
ess 2013 915
-922
[19] [
56]
基础上,将 VGG 替换 为 Mob i
leNe
t 网 络 结 构, 2 L
iang Z J Wang X L Huang R e
tal An

2400005
-16
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

exp
res
sivede
ep mode
lfo
rhumana
cti
onpa
rsi
ngf
rom 12 J
ohns
on S Eve
ringham M Cl
ust
ered po
se and
a s
ing
le image C ∥2014 IEEE I
nte
rna
tiona
l non
line
ar appe
aranc
e mode
ls f
or human po
se
Con
fer
enc
eon Mu
ltimed
iaand Expo ICME Ju
ly e
stima
tion C ∥Pr
oced
ings o
fthe Br
iti
sh Ma
chi
ne
14
-18 2014 Chengdu Ch
ina New Yo
rk IEEE Vi
sion Con
fer
enc
e 2010 Augus
t 31
-Sep
tembe
r3
Pr
ess 2014 2010 Abe
rys
twy
th Br
iti
sh Br
iti
sh Ma
chi
ne Vi
sion
3 Cho N G Yu
ill
e A L Le
eS W Adap
tiveo
ccl
usi
on As
soc
iat
ion 2010
s
tat
ees
tima
tionf
orhumanpo
set
rack
ingunde
rse
lf- 13 ChenXJ Yu
ill
eA L Ar
ticu
lat
edpo
see
stima
tionby
o
ccl
usi
ons J Pa
tte
rn Re
cogn
iti
on 2013 46 3 ag
raph
ica
l mode
l wi
th image dependen
t pa
irwi
se
649
-661 r
ela
tions C ∥Advanc
es i
n Neu
ral I
nfo
rma
tion
4 Ni
eB X Xi
ong C M Zhu S C J
oin
tac
tion Pr
oce
ssi
ngSy
stems27 Annua
lCon
fer
enc
eonNeu
ral
r
ecogn
iti
onandpo
see
stima
tionf
rom v
ide
o C ∥2015 I
nfo
rma
tion Pr
oce
ssi
ng Sy
stems2014 De
cembe
r8-
IEEE Con
fer
enc
e on Compu
ter Vi
sion and Pa
tte
rn 13 2014 Mon
tre
al Quebe
c Canada New Yo
rk
Re
cogn
iti
on CVPR June 7
-12 2015 Bo
ston Cu
rran As
soc
iat
es 2014 1736
-1744
MA USA New Yo
rk IEEE Pr
ess 2015 1293
- 14 Va
rame
sh A Tuy
tel
aar
s T Mi
xtu
re dens
e
1301 r
egr
ess
ion f
or ob
jec
t de
tec
tion and human po
se
5 Huang Y W ZhaoP You Y D Po
se-
gui
dedhuman e
stima
tion C ∥ Pr
oce
edi
ngs o
fthe IEEE CVF
image syn
the
sis ba
sed on f
usi
on f
eat
uref
eedba
ck Con
fer
enc
e on Compu
ter Vi
sion and Pa
tte
rn
me
chan
ism J La
ser & Op
toe
lec
tron
ics Pr
ogr
ess Re
cogn
iti
on June13
-19 2020 Se
att
le WA USA
2020 57 14 141011 New Yo
rk IEEE Pr
ess 2020 13086
-13095
黄友文 赵朋 游亚东 融合反馈机制的姿态 引 导 人 15 To
she
v A Sz
egedy C De
epPo
se human po
se
物图像 生 成 J 激 光 与 光 电 子 学 进 展 2020 57 e
stima
tionv
iade
epneu
ralne
two
rks C ∥2014IEEE
14 141011 Con
fer
enc
e on Compu
ter Vi
sion and Pa
tte
rn
6 Sho
ttonJ F
itz
gibbon A Cook M e
tal Re
al-
time Re
cogn
iti
on June 23
-28 2014 Co
lumbus OH
human po
ser
ecogn
iti
oni
n pa
rtsf
rom s
ing
le dep
th USA New Yo
rk IEEE Pr
ess 2014 1653
-1660
image
s C ∥2011 IEEE Con
fer
enc
e on Compu
ter 16 Pf
ist
erT S
imonyan K Cha
rle
sJ e
tal De
ep
Vi
sionandPa
tte
rnRe
cogn
iti
on CVPR June20
-25 c
onvo
lut
iona
l neu
ral ne
two
rks f
ore
ffi
cien
t po
se
2011 Co
lor
ado Sp
rings CO USA New Yo
rk e
stima
tioni
nge
stu
rev
ide
os M ∥Cr
eme
rsD Re
idI
IEEE Pr
ess 2011 1297
-1304 Sa
ito H e
tal Compu
ter v
isi
on-ACCV 2014
7 I
one
scu C L
i F X Smi
nch
ise
scu C La
ten
t Le
ctu
reno
tesi
ncompu
ters
cienc
e Cham Sp
ringe
r
s
truc
tur
ed mode
lsf
or human po
see
stima
tion C ∥ 2015 9003 538
-552
2011I
nte
rna
tiona
lCon
fer
enc
e on Compu
ter Vi
sion 17 FanX C ZhengK L
inY W e
tal Comb
ini
ngl
oca
l
Novembe
r6-
13 2011 Ba
rce
lona Spa
in New Yo
rk appe
aranc
eandho
lis
ticv
iew dua
l-s
our
cede
epneu
ral
IEEE Pr
ess 2011 2220
-2227 ne
two
rksf
orhumanpo
see
stima
tion C ∥2015IEEE
8 LeCunY Ra
nza
to M De
epl
ear
ning M Camb
ridg
e Con
fer
enc
e on Compu
ter Vi
sion and Pa
tte
rn
Camb
ridgeUn
ive
rsi
tyPr
ess 2011 Re
cogn
iti
on CVPR June 7
-12 2015 Bo
ston
9 P
ishchu
linL And
ril
uka M Geh
lerP e
tal Po
sel
et MA USA New Yo
rk IEEE Pr
ess 2015 1347
-
c
ond
iti
oned p
ict
ori
al s
truc
tur
es C ∥2013 IEEE 1355
Con
fer
enc
e on Compu
ter Vi
sion and Pa
tte
rn 18 Pf
ist
er T Cha
rle
s J Z
iss
erman A F
lowi
ng
Re
cogn
iti
on June 23
-28 2013 Po
rtl
and OR ConvNe
tsf
orhumanpo
see
stima
tioni
nvi
deo
sC ∥
USA New Yo
rk IEEE Pr
ess 2013 588
-595 2015 IEEE I
nte
rna
tiona
l Con
fer
enc
e on Compu
ter
10 L
ifsh
itz I Fe
taya E Ul
lman S Human po
se Vi
sion ICCV De
cembe
r7-
13 2015 San
tiago
e
stima
tionus
ingde
epc
ons
ensusvo
ting M ∥Le
ibeB Ch
ile New Yo
rk IEEE Pr
ess 2015 1913
-1921
Ma
tas J Sebe N e
tal Compu
terv
isi
on-ECCV 19 Bu
latA Tz
imi
ropou
los G Human po
see
stima
tion
2016 Le
ctu
re no
tesi
ncompu
ters
cienc
e Cham v
iac
onvo
lut
iona
lpa
rthe
atmapr
egr
ess
ion M ∥Le
ibe
Sp
ringe
r 2016 9906 246
-260 B Ma
tasJ Sebe N e
tal Compu
terv
isi
on-ECCV
11 KeL P Chang M C Qi H G e
tal Mu
lti
-sc
ale 2016 Le
ctu
re no
tesi
ncompu
ters
cienc
e Cham
s
truc
tur
e-awa
rene
two
rkf
or human po
see
stima
tion Sp
ringe
r 2016 9911 717
-732
M ∥Fe
rra
riV Hebe
rt M Smi
nch
ise
scu C e
tal 20 Zhang N She
lhame
rE Gao Y e
tal F
ine
-gr
ained
Compu
terv
isi
on-ECCV 2018 Le
ctu
re no
tesi
n po
sep
red
ict
ion no
rma
liz
ati
on andr
ecogn
iti
on EB
c
ompu
ters
cienc
e Cham Sp
ringe
r 2018 11206 OL 2015
-11
-22 2020
-11
-10 h
ttps ∥a
rxi
vor
g
731
-746 abs1511 07063

2400005
-17
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

21 HeK M ZhangX Y RenS Q e


tal De
epr
esi
dua
l Pe
rona P e
tal Compu
terv
isi
on-ECCV 2012
l
ear
ning f
or image r
ecogn
iti
on C ∥2016 IEEE Le
ctu
re no
tesi
n c
ompu
ters
cienc
e He
ide
lbe
rg
Con
fer
enc
e on Compu
ter Vi
sion and Pa
tte
rn Sp
ringe
r 2012 7576 256
-269
Re
cogn
iti
on CVPR June27
-30 2016 La
sVega
s 31 Ro
thr
ockB Pa
rkS ZhuS C I
nteg
rat
ingg
ramma
r
NV USA New Yo
rk IEEEPr
ess 2016 770
-778 ands
egmen
tat
ionf
or human po
see
stima
tion C ∥
22 ChuX Yang W Ouyang W L e
tal Mu
lti
-con
tex
t 2013 IEEE Con
fer
enc
e on Compu
ter Vi
sion and
a
tten
tionf
orhumanpo
see
stima
tion C ∥2017IEEE Pa
tte
rn Re
cogn
iti
on June 23
-28 2013 Po
rtl
and
Con
fer
enc
e on Compu
ter Vi
sion and Pa
tte
rn OR USA New Yo
rk IEEE Pr
ess 2013 3214
-
Re
cogn
iton CVPR
i Ju
ly21
-26 2017 Hono
lul
u 3221
HI USA New Yo
rk IEEE Pr
ess 2017 5669
- 32 Pa
rk S Zhu S C At
tri
but
ed g
ramma
rsf
orj
oin
t
5678 e
stima
tiono
fhumana
ttr
ibu
tes pa
rtandpo
seC ∥
23 Ar
tachoB Savak
isA Un
iPo
se un
ifi
edhumanpo
se 2015 IEEE I
nte
rna
tiona
l Con
fer
enc
e on Compu
ter
e
stima
tioni
nsi
ngl
eimage
s and v
ide
os C ∥2020 Vi
sion ICCV De
cembe
r7-
13 2015 San
tiago
IEEE CVF Con
fer
enc
e on Compu
ter Vi
sion and Ch
ile New Yo
rk IEEE Pr
ess 2015 2372
-2380
Pa
tte
rn Re
cogn
iti
on CVPR June 13
-19 2020 33 Tang W YuP WuY De
epl
yle
arnedc
ompo
sit
iona
l
Se
att
le WA USA New Yo
rk IEEE Pr
ess 2020 mode
lsf
orhuman po
see
stima
tion C ∥Fe
rra
riV
7033
-7042 Hebe
rt M Smi
nch
ise
scu C e
tal Compu
terv
isi
on-
24 Ar
tacho B Savak
is A Wa
ter
fal
lat
rous spa
tia
l ECCV 2018 Le
ctu
re no
tesi
ncompu
ters
cienc
e
poo
ling a
rch
ite
ctu
re f
or e
ffi
cien
t s
eman
tic Cham Sp
ringe
r 2018 11207 197
-214
s
egmen
tat
ion J Sens
ors 2019 19 24 5361 34 Tomps
onJJ J
ain A LeCun Y e
talJ
oin
ttr
ain
ing
25 Chen L C Papand
reou G Kokk
ino
sI e
tal o
fac
onvo
lut
iona
lne
two
rkandag
raph
ica
lmode
lfo
r
De
epLab s
eman
tic image s
egmen
tat
ion wi
th de
ep human po
see
stima
tion C ∥ Advanc
esi
n Neu
ral
c
onvo
lut
iona
l ne
ts a
trous c
onvo
lut
ion and f
ull
y I
nfo
rma
tion Pr
oce
ssi
ng Sy
stems 27 Annua
l
c
onne
ctedCRFs J IEEE Tr
ans
act
ionson Pa
tte
rn Con
fer
enc
e on Neu
ral I
nfo
rma
tion Pr
oce
ssi
ng
Ana
lys
isand Ma
chi
ne I
nte
ll
igenc
e 2018 40 4 Sy
stems 2014 De
cembe
r8-
13 2014 Mon
tre
al
834
-848 Quebe
c Canada New Yo
rk Cu
rran As
soc
iat
es
26 ChouC J Ch
ien J T Chen H T Se
lfadve
rsa
ria
l 2014 1799
-1807
t
rai
ningf
orhuman po
see
stima
tion C ∥2018 As
ia- 35 Gk
ioxa
riG Ha
riha
ran B Gi
rsh
ick R e
tal Us
ing
Pa
cif
icS
igna
landI
nfo
rma
tionPr
oce
ssi
ng As
soc
iat
ion k
-po
sel
etsf
or de
tec
ting pe
opl
e and l
oca
liz
ing t
hei
r
Annua
lSummi
t and Con
fer
enc
e APS
IPA ASC keypo
int
s C ∥2014IEEE Con
fer
enc
eon Compu
ter
Novembe
r12
-15 2018 Hono
lul
u HI USA New Vi
sionand Pa
tte
rn Re
cogn
iti
on June23
-28 2014
Yo
rk IEEE Pr
ess 2018 17
-30 Co
lumbus OH USA New Yo
rk IEEE Pr
ess
27 Chen Y Shen C H We
iX S e
tal Adve
rsa
ria
l 2014 3582
-3589
Po
seNe
t as
truc
tur
e-awa
rec
onvo
lut
iona
lne
two
rkf
or 36 Chen X J Yu
ill
e A Pa
rsi
ng o
ccl
uded pe
opl
e by
humanpo
see
stima
tion C ∥2017IEEEI
nte
rna
tiona
l f
lex
ibl
ecompo
sit
ions C ∥2015IEEE Con
fer
enc
eon
Con
fer
enc
e on Compu
ter Vi
sion ICCV Oc
tobe
r Compu
terVi
sionand Pa
tte
rn Re
cogn
iti
on CVPR
22
-29 2017 Ven
iceI
tal
y New Yo
rk IEEEPr
ess June7
-12 2015 Bo
ston MA USA New Yo
rk
2017 1221
-1230 IEEE Pr
ess 2015 3945
-3945
28 Yang W L
iS Ouyang W L e
tal Le
arn
ingf
eat
ure 37 YanF T Wang P LüZ G e
tal Re
al-
time mu
lti
-
r
pyami
dsf
orhumanpo
see
stima
tion C ∥2017IEEE pe
rson v
ide
o-ba
sed po
see
stima
tion J La
ser &
I
nte
rna
tiona
l Con
fer
enc
e on Compu
ter Vi
sion Op
toe
lec
tron
icsPr
ogr
ess 2020 57 2 021006
ICCV Oc
tobe
r22
-29 2017 Ven
ice I
tal
y New 闫芬 婷 王 鹏 吕 志 刚 等 基 于 视 频 的 实 时 多 人 姿
Yo
rk IEEE Pr
ess 2017 1290
-1299 态估计 方 法 J 激 光 与 光 电 子 学 进 展 2020 57
29 Newe
ll A Yang K Y Deng J S
tacked hou
rgl
ass 2 021006
ne
two
rksf
orhuman po
see
stima
tion M ∥Le
ibe B 38 P
ishchu
linL I
nsa
fut
dinov E Tang S Y e
tal
Ma
tas J Sebe N e
tal Compu
terv
isi
on-ECCV De
epCu
tjo
intsubs
etpa
rti
tionandl
abe
lingf
or mu
lti
2016 Le
ctu
re no
tesi
ncompu
ters
cienc
e Cham pe
rsonpo
see
stima
tion C ∥2016IEEECon
fer
enc
eon
Sp
ringe
r 2016 9912 483
-499 Compu
terVi
sionand Pa
tte
rn Re
cogn
iti
on CVPR
30 Ti
an Y D Z
itn
ick C L Na
ras
imhanS G Exp
lor
ing June 27
-30 2016 La
s Vega
s NV USA New
t
hespa
tia
lhi
era
rchy o
f mi
xtu
re mode
lsf
or human Yo
rk IEEE Pr
ess 2016 4929
-4937
po
see
stima
tion M ∥F
itz
gibbon A La
zebn
ikS 39 I
nsa
fut
dinov E P
ishchu
linL And
resB e
tal

2400005
-18
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

De
epe
rCu
t a de
epe
r s
tronge
r and f
ast
er mu
lti
- Yo
rk IEEE Pr
ess 2017 2353
-2362
pe
rsonpo
see
stima
tion mode
l M ∥Le
ibeB Ma
tasJ 48 Cao Z S
imon T We
iS H e
tal Re
alt
ime mu
lti
-
SebeN e
tal Compu
terv
isi
on-ECCV2016 Le
ctu
re pe
rson2D po
see
stima
tion us
ing pa
rta
ffi
nit
yfi
elds
no
tesi
ncompu
ters
cienc
e Cham Sp
ringe
r 2016 C ∥2017IEEE Con
fer
enc
eonCompu
terVi
sionand
9910 34
-50 Pa
tte
rn Re
cogn
iti
on CVPR Ju
ly 21
-26 2017
40 Cheng B W Xi
ao B Wang J D e
t a
l Hono
lul
u HI USA New Yo
rk IEEE Pr
ess
Hi
ghe
rHRNe
t s
cal
e-awa
rer
epr
esen
tat
ion l
ear
ning 2017 1302
-1310
f
or bo
ttom-up human po
see
stima
tion C ∥2020 49 L
in T Y Ma
ire M Be
long
ieSJ e
tal Mi
cro
sof
t
IEEE CVF Con
fer
enc
e on Compu
ter Vi
sion and COCO c
ommon ob
jec
tsi
ncon
tex
t M ∥F
lee
tD
Pa
tte
rn Re
cogn
iton CVPR
i June 13
-19 2020 Pa
jdl
a T Sch
iel
eB e
tal Compu
terv
isi
on-ECCV
Se
att
le WA USA New Yo
rk IEEE Pr
ess 2020 2014 Le
ctu
re no
tesi
ncompu
ters
cienc
e Cham
5385
-5394 Sp
ringe
r 2014 8693 740
-755
41 P
ishchu
lin L J
ain A And
ril
uka M e
t a
l 50 SuZ H Ye M Zhang G H e
tal Ca
scadef
eat
ure
Ar
ticu
lat
ed pe
opl
e de
tec
tion and po
see
stima
tion agg
rega
tion f
or human po
see
stima
tion EB OL
r
eshap
ingt
hef
utu
re C ∥2012IEEE Con
fer
enc
eon 2019
-02
-21 2020
-11
-10 h
ttps ∥a
rxi
vor
g abs
Compu
ter Vi
sionand Pa
tte
rn Re
cogn
iti
on June16
- 1902 07837
21 2012 Pr
ovi
denc
e RI USA New Yo
rk IEEE 51 DongJ T J
iang W Huang Q X e
tal Fa
stand
Pr
ess 2012 3178
-3185 r
obus
tmu
lti
-pe
rson3Dpo
see
stima
tionf
rom mu
lti
ple
42 Sun M Sava
res
eS Ar
ticu
lat
edpa
rt-ba
sed mode
lfo
r v
iews C ∥2019IEEE CVF Con
fer
enc
eonCompu
ter
o
jin
tob
jec
tde
tec
tionand po
see
stima
tion C ∥2011 Vi
sionand Pa
tte
rn Re
cogn
iti
on CVPR June15
-
I
nte
rna
tiona
l Con
fer
enc
e on Compu
ter Vi
sion 20 2019 LongBe
ach CA USA New Yo
rk IEEE
Novembe
r6-
13 2011 Ba
rce
lona Spa
in New Yo
rk Pr
ess 2019 7784
-7793
IEEE Pr
ess 2011 723
-730 52 Cho
lle
tF Xc
ept
ion de
epl
ear
ning wi
th dep
thwi
se
43 HuangJJ ZhuZ GuoF e
tal Thede
vili
sint
he s
epa
rab
lec
onvo
lut
ions C ∥2017IEEE Con
fer
enc
eon
de
tai
ls de
lvi
ng i
nto unb
ias
ed da
tap
roc
ess
ing f
or Compu
terVi
sionand Pa
tte
rn Re
cogn
iti
on CVPR
human po
se e
stima
tion C ∥2020 IEEE CVF Ju
ly21
-26 2017 Hono
lul
u HI USA New Yo
rk
Con
fer
enc
e on Compu
ter Vi
sion and Pa
tte
rn IEEE Pr
ess 2017 1800
-1807
Re
cogn
iti
on CVPR June 13
-19 2020 Se
att
le 53 Xi
eS N Gi
rsh
ick R Do
llá
rP e
tal Agg
rega
ted
WA USA New Yo
rk IEEE Pr
ess 2020 5699
- r
esi
dua
ltr
ans
forma
tions f
or de
ep neu
ral ne
two
rks
5708 C ∥2017IEEE Con
fer
enc
eonCompu
terVi
sionand
44 I
qba
lU Ga
llJ Mu
lti
-pe
rson po
see
stima
tion wi
th Pa
tte
rn Re
cogn
iti
on CVPR Ju
ly 21
-26 2017
l
oca
ljo
int
-to
-pe
rsona
sso
cia
tions M ∥Hua G J
égou Hono
lul
u HI USA New Yo
rk IEEE Pr
ess
H Compu
terv
isi
on-ECCV2016 wo
rkshops Le
ctu
re 2017 5987
-5995
no
tesi
ncompu
ters
cienc
e Cham Sp
ringe
r 2016 54 ZhangX Y ZhouX Y L
inM X e
tal Shu
ffl
eNe
t
9914 627
-642 an ex
treme
lye
ffi
cien
tconvo
lut
iona
l neu
ral ne
two
rk
45 Papand
reou G ZhuT Kana
zawaN e
tal Towa
rds f
ormob
ilede
vic
es C ∥2018IEEE CVF Con
fer
enc
e
a
ccu
rat
e mu
lti
-pe
rson po
see
stima
tion i
nthe wi
ld on Compu
ter Vi
sion and Pa
tte
rn Re
cogn
iti
on June
C ∥2017IEEE Con
fer
enc
eonCompu
terVi
sionand 18
-23 2018 Sa
ltLakeC
ity UT USA New Yo
rk
Pa
tte
rn Re
cogn
iti
on CVPR Ju
ly 21
-26 2017 IEEE Pr
ess 2018 6848
-6856
Hono
lul
u HI USA New Yo
rk IEEE Pr
ess 55 Os
oki
nD Re
al-
time2D mu
lti
-pe
rsonpo
see
stima
tion
2017 3711
-3719 onCPU l
igh
twe
igh
t OpenPo
se C ∥Pr
oce
edi
ngso
f
46 Chen Y L Wang Z C Peng Y X e
tal Ca
scaded t
he 8
th I
nte
rna
tiona
l Con
fer
enc
e on Pa
tte
rn
r
pyami
d ne
two
rkf
or mu
lti
-pe
rson po
see
stima
tion Re
cogn
iti
on App
lic
ati
onsand Me
thods Feb
rua
ry19
-
C ∥2018 IEEE CVF Con
fer
enc
e on Compu
ter 21 2019 Pr
ague Cz
ech Repub
lic Sou
thamp
ton
Vi
sionand Pa
tte
rn Re
cogn
iton June18
i -23 2018 Sc
ienc
e and Te
chno
logy Pub
lic
ati
ons 2019 744
-
Sa
ltLakeC
ity UT USA New Yo
rk IEEE Pr
ess 748
2018 7103
-7112 56 Howa
rd A G Zhu M L ChenB e
tal Mob
ileNe
ts
47 Fang H S Xi
eS Q Ta
iY W e
tal RMPE e
ffi
cien
tconvo
lut
iona
l neu
ral ne
two
rks f
or mob
ile
r
egi
ona
lmu
lti
-pe
rsonpo
see
stima
tion C ∥2017IEEE v
isi
onapp
lic
ati
ons EB OL 2019
-04
-17 2020
-11
-
I
nte
rna
tiona
l Con
fer
enc
e on Compu
ter Vi
sion 10 h
ttps ∥a
rxi
vor
g abs1704 04861
ICCV Oc
tobe
r22
-29 2017 Ven
ice I
tal
y New 57 Zhang F Zhu X T Ye M Fa
st human po
se

2400005
-19
综 述 第 58 卷 第 24 期/2021 年 12 月/激光与光电子学进展

e
stima
tion C ∥2019 IEEE CVF Con
fer
enc
e on 2017
-07
-10 2020
-11
-10 h
ttps ∥a
rxi
vor
g abs
Compu
terVi
sionand Pa
tte
rn Re
cogn
iton CVPR
i 1707 02725
June15
-20 2019 Long Be
ach CA USA New 59 Be
rta
sius G Fe
ich
tenho
fer C Tr
an D e
tal
Yo
rk IEEE Pr
ess 2019 3512
-3521 Le
arn
ing t
empo
ral po
see
stima
tion f
rom spa
rse
ly-
58 ZhangT QiG J Xi
ao B e
talI
nte
rle
aved g
roup l
abe
ledv
ide
os EB OL 2019
-06
-06 2020
-11
-10
c
onvo
lut
ions f
or de
ep neu
ral ne
two
rks EB OL h
ttps ∥a
rxi
vor
g abs1906 04016

2400005
-20

You might also like