Professional Documents
Culture Documents
《激光与光电子学进展》网络首发论文
题目: 基于注意力机制和稀疏图卷积的行人轨迹预测
作者: 陈敏,曾凯,沈韬,朱艳
网络首发日期: 2022-07-17
引用格式: 陈敏,曾凯,沈韬,朱艳.基于注意力机制和稀疏图卷积的行人轨迹预测
[J/OL].激光与光电子学进展.
https://kns.cnki.net/kcms/detail/31.1690.TN.20220714.1256.303.html
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间:2022-07-17 15:28:29
网络首发地址:https://kns.cnki.net/kcms/detail/31.1690.TN.20220714.1256.303.html
基于注意力机制和稀疏图卷积的行人轨迹预测
陈敏,曾凯*,沈韬,朱艳
昆明理工大学信息工程与自动化学院,云南省计算机技术应用重点实验室 云南 昆明
650500
摘 要 行人轨迹预测能够有效降低行人轨迹突变造成的碰撞风险,进而在智能交通及监控
系统等领域有着广泛应用。目前已有的研究大多利用无向图卷积网络对行人间的社会交互
关系进行建模,这种方法缺少对行人隐藏状态关联性的考虑,容易产生行人间的冗余交互。
针对这一问题,本文提出基于注意力机制和稀疏图卷积的行人轨迹预测模型(DASGCN),
通过构建深度注意力机制,捕捉行人间运动隐藏状态的关联性,从而准确的提取行人运动
状态特征。本文进一步提出了自调节稀疏方法,减少了冗余信息带来的运动轨迹偏差,解
决了行人密集无向交互的问题。本文模型在 ETH 和 UCY 数据集上进行了验证,FDE 和
ADE 分别达到了 0.36 和 0.63。实验结果表明,DASGCN 对行人轨迹的预测能力要优于传
统算法。
关键词 深度注意力;图卷积神经网络;轨迹预测;稀疏交互
中图分类号 TP391.4 文献标志码 A
基金项目:国家自然科学基金(No. 61971208),云南省中青年学术技术带头人后备人才(沈韬,
2019HB005),云南省万人计划青年拔尖人才(沈韬, 朱艳,云南省人社厅 No. 2018 73),云南省重大科技
专项(202002AB080001-8)
通信作者:*E-mail:zengkailink@sina.com
1 引 言
行人轨迹预测能够有效降低行人轨迹变化造成的潜在碰撞事故风险,进而在智能交通
[1-6]
系统及高级监控系统等领域有着广泛的应用 。行人轨迹预测的复杂性来自于不同的社会
[7]
行为,如与他人并行行走、群体内行走和避免碰撞等 。另一方面,运动随机性同样增加了
预测的复杂性。行人预期路径未知性往往放大了行人轨迹预测的偏差。当前对基于社会属
性交互的行人轨迹预测研究仍存在以下两个问题:
1)目前主流方法是通过对行人的潜在状态捕捉其运动轨迹,进一步合并近邻行人潜在
[8-10]
状态模拟行人间交互。社会池化 通过池化合并潜在状态,但这种方式平等对待邻里区
[7, 11, 12]
域内的行人,无法重点突出不同行人间的关系。注意机制 能够突出相邻行人在轨迹
预测中的不平等重要性,在一定程度上缓解了上述问题。然而,当前使用的注意机制仅简
单的融合行人运动隐藏状态,无法深度模拟人与人之间的互动,从而缺少行人轨迹在隐藏
状态内获取关联性的考虑。
接矩阵中对行人间的社会交互进行有效建模。通过无向图建模行人间的社会关系,会导致
[13]
密集交互问题即行人之间的冗余交互。SGN 提出的稀疏有向图卷积能缓解冗余交互的问
题,此方法需要固定参数进行阈值设定,无法适应不同场景的切换,从而缺乏对复杂场景
中行人交互关系的动态捕捉。
行人社会关系的内在关联,获得行人隐藏状态的深层特征,使得行人间的社会交互关系得
到准确表达。本文进一步提出了自调节稀疏方法,其参数根据行人的密集交互关系进行自
动调整,减小了冗余信息带来的运动轨迹偏差,更适应复杂场景下多行人交互关系的捕捉。
2 相关工作
[8]
在本节中,对轨迹预测在行人间交互的相关研究进行简要回顾。Social-LSTM 是较早
关注行人轨迹预测的深度模型之一,其通过循环网络捕捉行人运动状态,使用池机制聚合
[14]
循环输出来达到预测轨迹。Peek Into The Future (PIF) 通过视觉特征和新的池机制扩展提
高了预测精度。SR-LSTM[15] 通过一个加权机制来衡量每个行人对其他人的贡献。Social-
[16] [9]
BiGAT 使用图注意力机制提取行人间交互作用的轨迹特征相对权重。Social-GAN 基于
行人轨迹遵循多模态分布的假设,将 Social-LSTM[8]扩展为基于递归神经网络(RNN)的生成
[17]
模型。GI-GAN 基于 GAN 基础及注意力模块来计算轨迹影响行人个体运动信息和群体
[18]
交互信息。Sophie 使用 CNN 从整个场景中提取特征,对每个行人使用双向注意机制,将
环网络搭建行人运动模型。
注意力模型近年来被广泛应用于图像处理、语音识别和自然语言处理等不同类型任务
中,其目的是从大量信息中选择当前任务的关键信息。注意力模型对轨迹预测偏差有所改
[21]
善。Social-attention[20]提出注意力模块为行人的邻居隐藏状态分配权重。朱江平等人 表明
[22]
注意力机制基于特征信息可以在不同维度获取上下文信息。Fernando T 等人 提出组合注
[23]
意力模块,该模块使用软注意力和硬连线注意力来捕获来自邻居的轨迹信息。Li X 等人
提出时间域的注意力模型来衡量目标在不同时刻的位置,并对不同目标的时间间隔进行对
[16]
齐。Social-BiGAT 使用图注意力机制提取行人间交互作用的轨迹特征相对权重。本文设
计深度关系注意力模块来衡量目标行人与周围行人交互关系的内在关联。
[16] [24]
Social-BiGAT 依赖于图形注意力网络来模拟行人间的社交互动。Social-STGCNN
直接将行人轨迹建模为一个图。从图中提取空间和时间信息,创建一个合适的嵌入,对嵌
[25]
入操作来预测行人轨迹。STAR 通过时空图 Transformer 捕捉行人间交互,为轨迹预测任
[13]
务提供了一个简洁高效的解决方案。SGCN 在图卷积神经网络基础上提出稀疏定向相互
作用和运动趋势模型,以建模行人交互。图卷积网络是用于图的机器学习的神经网络体系
结构,其利用节点和图结构从本地图邻居聚合特征信息,并通过相邻矩阵图节点之间的消
[26]
息传递来捕获图的依赖性。PointNet 提出图卷积根据邻域点的信息有效提取局部特征。
在轨迹预测问题中,场景中行人看作图上的节点,而行人间复杂的交互作用看作边,行人
的运动特征决定边的权值。本文提出自调节稀疏方法去掉冗余的行人交互信息,其涉及到
的图卷积网络(GCNs)根据稀疏邻接矩阵对节点进行聚合。
针对上述方法可以得出行人交互缺少在运动隐藏状态内的关联性考虑和图卷积产生的
冗余交互问题。本文基于上述两个问题开展研究。
3 模 型
3.1 行人轨迹预测问题描述
行人轨迹预测根据行人前几帧的历史轨迹预测出后几帧的轨迹,行人位置用 2D 笛卡
( t t
)
尔坐标表示,即 xn , yn 。历史轨迹如公式(1),预测轨迹如公式(2)
trnp = ( x , y ) | t (T
t
n
t
n obs
+ 1, Tobs + 2,..., Tpred ) (2)
3.2 模型架构
图 1 为本文模型总体框架图。首先,将行人轨迹构建时间图和空间图两个输入。深度
密集交互图,以此获取行人间隐藏状态内的关联性信息;其次自调节稀疏模块(Self-tuning
sparse module)可以得到时间和空间的稀疏矩阵,其能够有效表示行人交互关系,从而去掉
冗余的行人交互信息。同时嵌入向量和关系交互图通过图卷积可以得到行人的运动轨迹特
征表示;最后通过时间神经网络中的估计双高斯分布参数对行人的未来轨迹进行预测。模
型中的深度注意力机制和自调节稀疏模块针对本文研究问题所提出。具体细节在后几节中
详细介绍。
Spatial dense interaction graph
Spatial sparse matrix
Spatial
embed
ding
vector
Time
embed
ding
vector
图 1 模型总体框架
Fig. 1 Overall framework of the model
3.3 运动信息编码
启发于 SGCN[13],在实际场景中行人行走的趋势不仅受周围相邻行人影响还会与行人
自身运动趋势有关系,其中空间图是建模行人与行人的交互,时间图是表示行人运动趋势。
因此将轨迹以时间和空间进行建模比单纯空间建模的效果好。本文编码是将行人运动轨迹
人的帧与帧之间的关系。
3.4 深度注意力机制
深度注意力机制在自注意力机制基础上进行改进,其作用主要包括两点:第一获取当
前行人与周围行人的交互关系信息,交互关系程度影响着当前行人下一帧行走的方向;第
二获取当前行人前一帧与后一帧之间的信息关系,帧之间的信息可以得到行人的运动趋势。
adjacent matrix
q k q k
图 2 深度注意力机制
Fig. 2 Deep attention mechanism
其主要结构如图 2 所示,对时间图和空间图的输入分别得到相应的嵌入向量,嵌入向
量中获取行人间的交互关系与行人时间帧之间的信息表示特征,最后通过两层自注意力机
制获取行人交互之间的关联信息。具体公式如下:
E = ( G, WE )
Q = ( E ,WQ ) (7)
K = ( E ,WK )
R=
( Q K )( Q K )
1
T
1 2
T
2
(8)
d
( Q3 K3T )
R = Soft max R
'
(9)
d
式中: ( ,
) 表示线性变化; E 表示图嵌入; Q 和 K 表示自注意力机制的查询与关键
字; WE , WQ , WK 表示线性变化的权重矩阵; d 保持数值稳定的比例因子。
3.5 自调节稀疏模块
当前行人受周围人影响的关系为交互关系。在模型中,周围行人出现在定义范围内就
会被纳入到当前行人的交互关系中。本文提出的自调节稀疏模块能合适选取行人间的交互
关系和行人在时间帧之间的信息关系,该模块主要根据行人密集交互矩阵计算出合适阈值,
通过阈值筛选出行人之间冗余的交互信息,因此行人运动轨迹的预测不会出现冗余信息带
来的轨迹预测偏差。具体如下式所示:
1
= mean 2
(10)
1+ x
M = ( F ) (11)
A = (M + ) R 's-t (12)
3.6 轨迹预测模块
时间卷积神经网络(TCN)提出以堆叠的顺序数据作为输入,并预测序列作为一个整体。
这可以减轻循环神经网络在连续预测中累积错误的问题,而且时间神经网络更加节省计算
机算力资源。受到时间卷积神经网络的启发,在图卷积网络后得到了行人轨迹特征表示。
本文采用时间卷积神经网络来预测行人未来轨迹,选择时间卷积网络是它能解决传统循环
卷积神经网络中存在的梯度消失和计算成本高的问题。Social-LSTM 提出该方法通过将负
对数似然损失最小化来进行训练。因此本方法也选用负对数似然损失函数。其公式如下:
节点; 表示激活函数。
负对数似然损失公式如下所示:
( )
Tpred
4 实验和分析
4.1 评估数据集
为了验证本文提出方法的有效性,本文使用了广泛应用公共数据集,即 ETH[27] 和
4.2 评价指标
本文采用平均位移误差(ADE)和最终位移误差(FDE)两个指标来评价预测结果。ADE
测量方法得到的是预测轨迹点与真实未来轨迹点之间的平均距离;FDE 测量方法得到的是
最终预测目的地与实际未来轨迹点目的地之间的距离。其公式如下:
nN tTp
pˆ tn − ptn
n
ADE = (16)
N Tp
pˆ tn − ptn
n
FDE = nN
, t = Tp (17)
N
4.3 定量分析
[8] [9]
为了评估本文方法的准确性,选取了多种对比算法,分别是 Social LSTM 、SGAN 、
[18] [14] [11] [16] [24] [25]
Sophie 、 PITF 、 GAT 、 Social-BIGAT 、 Social-STGCNN 、 STAR 及
[13]
SGCN ,上述所有算法均抽取 20 个样本。本文算法与其它算法在数据集中的 5 个场景上
的预测精度比较结果见表 1,其中数据越小越接近真实轨迹,黑色加粗表示最好预测结果。
表 1 不同方法在 ETH/UCY 数据集场景下的 ADE/FDE
Table 1 ADE/FDE of different methods in ETH/UCY data set scenario
加强了行人之间的深层交互。利用自调节的有向稀疏图来过滤掉冗余交互信息,使得行人
避免冗余信息形成预测偏差,从而在数据集中表现出良好的鲁棒性。经上述讨论,本文算
较高。
4.4 消融实验
的对比结果如表 2 所示。
表 2 DA 与 SP 验证结果(ADE/FDE)
Table 2 Verification results of DA and SP (ADE/FDE)
如表 2 所示,增加深度注意力模块(DA)有效利用行人间交互的关系,使得预测模型
有更好的预测精度。加入了自调节稀疏模块(SP)来评估所提出的稀疏图的有效性。本文
既考虑到了行人间运动隐藏状态内的关联性又去除了行人间的冗余交互信息。
表明本文的深度注意力机制和自调节稀疏模块对行人轨迹预测的最终准确性具有提升作用。
信息带来的轨迹偏差。
4.5 可视化
为了精确且直观的显示出本文模型 SP 和 DA 两个模块对轨迹预测准确性的提升,本文
关系,预测效果不论是在行人稀疏还是密集场景下都优于模型 SR-LSTM。
预测方向相近,说明本文模型在稀疏的行人场景中预测结果准确。图 3(b)所示,从左向
右移动的行人受相向的两个行人影响时,SR-LSTM 的预测结果与实际轨迹差距明显,而
模行人间的交互关系。
Observation Ground-Truth DASGCN SR-LSTM
DASGCN
SR-LSTM
本文模型在不同场景下行人预测的可视化如图 4 所示,其中实线箭头表示行人的观察
轨迹,实线表示行人真实轨迹,虚线表示行人的预测轨迹。图 4 从第一列到第五列的场景
果也是很贴近真实轨迹。目标行人可以根据周围多个行人的社会交互关系来确定下一步走
向。则表明本文模型可以很好的提取行人间交互关系,并依据内在关联预测出轨迹。在稀
疏的行人情况下目标行人并未因周围行人受到影响而维持其原有的走向。本文模型可以去
掉周围行人冗余信息从而更加准确预测出行人运动轨迹。实验表明,本文提出的预测轨迹
模型适用于多目标交互的场景。
Observation Ground-Truth Prediction
图 4 不同场景行人轨迹预测可视化
Fig. 4 Visualization of pedestrian trajectory prediction in different scenes
5 结 论
在本文中提出的基于注意力机制和稀疏图卷积的行人轨迹预测模型,考虑了行人信息
利用不足和多行人场景中的密集交互带来的轨迹偏差问题。从行人间社会关系的内在关联
性和交互的稀疏性角度出发,设计了深度注意力机制和自调节稀疏模块,进而构建了行人
测效果,进而验证了本文模型的有效性。
参考文献
[1] Luo Y, Cai P, Bera A, et al. Porca: Modeling and planning for autonomous driving among many
pedestrians [J]. IEEE Robotics and Automation Letters, 2018, 3(4): 3418-3425.
[2] Raksincharoensak P, Hasegawa T, Nagai M. Motion planning and control of autonomous
driving intelligence system based on risk potential optimization framework [J]. International
Journal of Automotive Engineering, 2016, 7(AVEC14): 53-60.
[3] Ridel D, Rehder E, Lauer M, et al. A literature review on the prediction of pedestrian behavior
in urban scenarios [C]//Proceedings of 2018 21st International Conference on Intelligent
Transportation Systems (ITSC),2018:IEEE,3105-3112.
[4] Musleh B, García F, Otamendi J, et al. Identifying and tracking pedestrians based on sensor
fusion and motion stability predictions [J]. Sensors, 2010, 10(9): 8028-8053.
[5] Yasuno M, Yasuda N, Aoki M. Pedestrian detection and tracking in far infrared images
[C]//Proceedings of 2004 Conference on Computer Vision and Pattern Recognition
Workshop,2004:IEEE,125-125.
[6] Luber M, Stork J A, Tipaldi G D, et al. People tracking with human motion predictions from
social forces [C]//Proceedings of IEEE International Conference on Robotics and
Automation,2010:IEEE,464-469.
[7] Rudenko A, Palmieri L, Herman M, et al. Human motion trajectory prediction: A survey [J].
The International Journal of Robotics Research, 2020, 39(8): 895-935.
[8] Alahi A, Goel K, Ramanathan V, et al. Social lstm: Human trajectory prediction in crowded
spaces [C]//Proceedings of Proceedings of the IEEE conference on computer vision and pattern
recognition,2016, 961-971.
[9] Gupta A, Johnson J, Fei-Fei L, et al. Social gan: Socially acceptable trajectories with generative
adversarial networks [C]//Proceedings of Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition,2018, 2255-2264.
[10] 孔玮, 刘云, 李辉, 等. 基于深度学习的行人轨迹预测方法综述 [J].控制与决策, 2021,
36(12): 2841-2850.
Kong W, Liu y, Li h, et al. Survey of pedestrian trajectory prediction methods based on deep
learning [J]. Control and Decision, 2021, 36(12): 2841-2850.
[11] Huang Y, Bi H, Li Z, et al. Stgat: Modeling spatial-temporal interactions for human trajectory
prediction [C]//Proceedings of Proceedings of the IEEE/CVF International Conference on
Computer Vision,2019, 6272-6281.
[12] Ivanovic B, Pavone M. The trajectron: Probabilistic multi-agent trajectory modeling with
dynamic spatiotemporal graphs [C]//Proceedings of Proceedings of the IEEE/CVF
International Conference on Computer Vision,2019, 2375-2384.
[13] Shi L, Wang L, Long C, et al. SGCN: Sparse Graph Convolution Network for Pedestrian
Trajectory Prediction [C]//Proceedings of Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition,2021, 8994-9003.
[14] Liang J, Jiang L, Niebles J C, et al. Peeking into the future: Predicting future person activities
and locations in videos [C]//Proceedings of Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition,2019, 5725-5734.
[15] Zhang P, Ouyang W, Zhang P, et al. Sr-lstm: State refinement for lstm towards pedestrian
trajectory prediction [C]//Proceedings of Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition,2019, 12085-12094.
[16] Kosaraju V, Sadeghian A, Martín-Martín R, et al. Social-bigat: Multimodal trajectory
forecasting using bicycle-gan and graph attention networks [J]. arXiv preprint
arXiv:190703395, 2019,
[17] 欧阳俊, 史庆伟, 王馨心, 等. 基于 GAN 和注意力机制的行人轨迹预测 [J].激光与光电子
学进展, 2020, 57(14): 141016.
Ouyang J, Shi Q, Wang X, et al. Pedestrian Trajectory Prediction Based on GAN and Attention
Mechanism [J]. Advances in Laser and Optoelectronic, 2020, 57(14): 141016.
[18] Sadeghian A, Kosaraju V, Sadeghian A, et al. Sophie: An attentive gan for predicting paths
compliant to social and physical constraints [C]//Proceedings of Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition,2019, 1349-1358.
[19] Li J, Ma H, Tomizuka M. Conditional generative neural system for probabilistic trajectory
prediction [C]//Proceedings of 2019 IEEE/RSJ International Conference on Intelligent Robots
and Systems (IROS),2019:IEEE,6150-6156.
[20] Vemula A, Muelling K, Oh J. Social attention: Modeling attention in human crowds
[C]//Proceedings of 2018 IEEE international Conference on Robotics and Automation
(ICRA),2018:IEEE,4601-4607.
[21] 朱江平, 王睿珂, 段智涓, 等. 基于多尺度注意力机制相位展开的三维人脸建模 [J].光学学
报, 2022, 42(1): 0112005.
Zhu J, Wang R, Duan Z, et al. Three-Dimensional Face Modeling Based on Multi-Scale
Attention Phase Unwrapping [J]. Acta Optica Sinica, 2022, 42(1): 0112005.
[22] Fernando T, Denman S, Sridharan S, et al. Soft+ hardwired attention: An lstm framework for
human trajectory prediction and abnormal event detection [J]. Neural networks, 2018, 108(2):
466-478.
[23] Li X, Liu Y, Wang K, et al. A recurrent attention and interaction model for pedestrian trajectory
prediction [J]. IEEE/CAA Journal of Automatica Sinica, 2020, 7(5): 1361-1370.
[24] Mohamed A, Qian K, Elhoseiny M, et al. Social-stgcnn: A social spatio-temporal graph
convolutional neural network for human trajectory prediction [C]//Proceedings of Proceedings
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020, 14424-14432.
[25] Yu C, Ma X, Ren J, et al. Spatio-temporal graph transformer networks for pedestrian trajectory
prediction [C]//Proceedings of European Conference on Computer Vision,2020:Springer,507-
523.
[26] 徐田野, 丁海勇. 基于融合图卷积的深度学习点云分类方法 [J].激光与光电子学进展,
2022, 59(2): 0228005.
Xu T, Ding H. Deep Learning Point Cloud Classification Method Based on Fusion Graph
Convolution [J]. Laser & Optoelectronics Progress, 2022, 59(2): 0228005.
[27] Pellegrini S, Ess A, Schindler K, et al. You'll never walk alone: Modeling social behavior for
multi-target tracking [C]//Proceedings of 2009 IEEE 12th International Conference on
Computer Vision,2009:IEEE,261-268.