Master'S Dissertation

硕士学位论文
MASTER’S DISSERTATION
论文题目基于孪生网络的目标跟踪算法研究
作者姓名赵明
学科类别工程硕士
指导教师李雅倩副教授
2022 年 5 月
中图分类号：TP183 学校代码：10216
UDC：004.8 密级：公开
工程硕士学位论文
（应用研究型）
基于孪生网络的目标跟踪算法研究
硕士研究生：赵明
导师：李雅倩副教授
副导师：徐春阳高工
申请学位：工程硕士
学科专业：控制工程
所在单位：电气工程学院
答辩日期： 2022 年 5 月
授予学位单位：燕山大学
A Dissertation in Control Engineering
RESEARCH ON OBJECT TRACKING

ALGORITHM BASED ON SIAMESE
NETWORK
by Zhao Ming
Supervisor: Associate professor Li Yaqian
Yanshan University
May, 2022
燕山大学硕士学位论文原创性声明
本人郑重声明：此处所提交的硕士学位论文《基于孪生网络的目标跟踪算法研
究》，是本人在导师指导下，在燕山大学攻读硕士学位期间独立进行研究工作所取得
的成果。论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研
究工作做出重要贡献的个人和集体，均已在文中以明确方式注明。本声明的法律结果
将完全由本人承担。
作者签字：日期： 2022 年 6 月 2 日
燕山大学硕士学位论文使用授权书
《基于孪生网络的目标跟踪算法研究》系本人在燕山大学攻读硕士学位期间在导
师指导下完成的硕士学位论文。本论文的研究成果归燕山大学所有，本论文的研究内
容不得以其它单位的名义发表。本人完全了解燕山大学关于保存、使用学位论文的规
定，同意学校保留并向有关部门送交论文的复印件和电子版本，允许论文被查阅和借
阅。本人授权燕山大学，可以采用影印、缩印或其它复制手段保存论文，可以公布论
文的全部或部分内容。
保密□，在年解密后适用本授权书。
本学位论文属于
不保密
(请在以上相应方框内打“√”)
作者签名：日期： 2022 年 6 月 2 日
导师签名：日期： 2022 年 6 月 2 日

摘要
摘要
近几年，目标跟踪技术更新越来越快，遇到的挑战也层出不穷。孪生网络的出现
极大推动了目标跟踪技术发展，它既能达到高精度，同时又保证了算法的实时性，但
是在遇到目标遮挡、剧烈形变、光照变化复杂场景时，跟踪器并不能很好的适应这些
挑战，容易导致跟踪失败。本文针对现有基于孪生网络目标跟踪算法的缺陷，提出了
模板池更新、分类回归互链策略等方法。
首先，提出了模板池更新机制和特征融合模块。针对目前孪生网络目标跟踪算法
使用初始帧对目标进行跟踪的问题，因此无法适应目标遮挡、相似性干扰等挑战，本
文提出一种模板池更新机制，利用模板池里面的信息生成高质量的新模板；同时针对
模板池里信息的可靠性问题，提出一种模板准确性和必要性判断机制对模板池进行
自适应更新，确保模板池中的模板保持高置信度；此外，针对目标特征提取过程中卷
积、池化操作产生的信息丢失问题，提出一种特征融合模块，使用三个并行非对称的
空洞卷积层捕捉空间信息，提高跟踪器的性能。
其次，提出了分类回归互链策略，解决目前孪生网络目标跟踪的分类与回归结果
不一致性问题，分类分支辅助回归分支精确定位，回归分支辅助分类分支提高分类得
分的可靠性；另外，推理阶段添加了一个定位评估分支，代替回归分支对分类分支进
行辅助，使得跟踪器能够更加精确地跟踪到目标；针对骨干网络在提取目标特征的过
程中忽视通道信息和空间信息的交互，使网络无法更好地关注目标本身的问题，本文
提出了一种通道注意力和轻量化的空间注意力结合的混合注意力机制，使重要的通
道和位置获得更大的权重，从而提高跟踪器的性能。
最后，对于本文提出的两种孪生网络目标跟踪算法，在 OTB100 测试平台和
VOT2018 测试平台上进行测试，验证了算法的有效性。
关键词：孪生网络；特征融合；模板池更新；注意力机制；分类回归互链策略
-I -
燕山大学工程硕士学位论文
ABSTRACT
In recent years, target tracking technology has been updated more and more rapidly
and encountered numerous challenges. The emergence of twin networks has extensively
promoted the development of target tracking technology, which can achieve high accuracy
while ensuring real-time algorithms. Still, the tracker does not adapt well to these challenges
when encountering complex scenes with target occlusion, severe deformation, and
illumination changes, quickly leading to tracking failure. This paper proposes a template
pool update and a classification regression interlinking strategy to address the shortcomings
of existing Siamese network-based target tracking algorithms.
First, a template pool update mechanism and a feature fusion module are proposed.
Aiming at the problem that the current Siamese network target tracking algorithm uses the
initial frame to track the target, so it cannot adapt to the challenges of target occlusion and
similarity interference. This paper proposes a template pool update mechanism, which uses
the information in the template pool to generate high-quality new templates; meanwhile, to
address the reliability problem of the information in the template pool, a template accuracy
and necessity judgment mechanism to adaptively update the template pool to ensure that the
templates in the template pool maintain high confidence; to address the problem of
information loss generated by convolution and pooling operations during target feature
extraction, a feature fusion module is proposed to capture spatial information using three
parallel asymmetric null convolution layers to improve the performance of the tracker.
Second, a classification-regression interlinking strategy is proposed to solve the
inconsistency problem of classification and regression results in the current Siamese
network target tracking, where the classification branch assists the regression branch to
pinpoint the target, and the regression branch assists the classification branch to improve
the reliability of the classification score; in addition, a localization evaluation branch is
added in the inference stage to assist the classification branch instead of the regression
branch, so that the tracker can track the target more accurately. In this paper, a hybrid
attention mechanism combining channel attention and lightweight spatial attention is
proposed to improve the performance of the tracker by giving more weight to the essential
- II -
Abstract
channels and locations, in response to the problem that the backbone network ignores the
interaction of channel information and spatial information in the process of extracting target
features, which prevents the network from better focusing on the target itself.
Finally, the proposed two Siamese network target tracking algorithms are tested on the
OTB100 and VOT2018 to verify the effectiveness of the algorithms.
Keywords: Siamese network; Feature fusion; Template pool update; Process parameters
optimization; Attention mechanism; Classification and regression cross-
linking strategies
-III -
目录
目录
摘要 .................................................................................................................................. I
ABSTRACT ........................................................................................................................ II
第 1 章绪论 .................................................................................................................... 1
1.1 课题研究背景及意义 ............................................................................................... 1
1.2 国内外研究现状及分析 ........................................................................................... 2
1.2.1 基于生成式模型的目标跟踪算法 .................................................................... 4
1.2.2 基于判别式模型的目标跟踪算法 .................................................................... 5
1.3 主要研究内容 ........................................................................................................... 8
1.4 论文结构安排 ........................................................................................................... 8
第 2 章目标跟踪算法理论基础 ...................................................................................... 10
2.1 引言 ......................................................................................................................... 10
2.2 目标跟踪基本框架 ................................................................................................. 10
2.3 经典骨干网络 ......................................................................................................... 10
2.3.1 AlexNet .............................................................................................................. 11
2.3.2 GoogLeNet ........................................................................................................ 11
2.3.3 ResNet ............................................................................................................... 13
2.4 经典孪生网络目标跟踪算法 ................................................................................. 14
2.4.1 孪生神经网络 ................................................................................................... 14
2.4.2 SiamFC 算法 ..................................................................................................... 15
2.4.3 SiamRPN 算法 .................................................................................................. 16
2.4.4 SiamFC++算法 ................................................................................................. 17
2.5 数据集 ..................................................................................................................... 19
2.5.1 训练集 .............................................................................................................. 19
2.5.2 测试集及评价指标 .......................................................................................... 19
2.6 本章小结 ................................................................................................................. 21
第 3 章基于模板池更新和特征融合的目标跟踪算法 .................................................. 22
3.1 引言 ......................................................................................................................... 22
3.2 网络结构 ................................................................................................................. 22
3.3 模板池更新模块 ..................................................................................................... 24
3.3.1 模板池 .............................................................................................................. 25
3.3.2 模板准确性判断 .............................................................................................. 25
3.3.3 模板必要性判断 .............................................................................................. 26
3.4 特征融合 ................................................................................................................. 27
-V -
3.5 实验结果与分析 ..................................................................................................... 28
3.5.1 实验环境 .......................................................................................................... 28
3.5.2 参数设置 .......................................................................................................... 28
3.5.3 实验结果对比分析 .......................................................................................... 28
3.5.4 消融实验 .......................................................................................................... 34
3.6 本章小结 ................................................................................................................. 34
第 4 章基于分类回归互链策略的目标跟踪算法 .......................................................... 35
4.1 引言 ......................................................................................................................... 35
4.2 基于分类与回归互链策略的目标跟踪算法 ......................................................... 35
4.2.1 Anchor-Free 目标跟踪 ...................................................................................... 35
4.2.2 分类与回归结果不一致性 .............................................................................. 36
4.2.3 分类回归互链策略 .......................................................................................... 37
4.3 混合注意力机制模块 ............................................................................................. 40
4.3.1 传统注意力机制 .............................................................................................. 40
4.3.2 通道注意力模块 .............................................................................................. 41
4.3.3 轻量化空间注意力模块 .................................................................................. 42
4.3.4 改进后的混合注意力模块 .............................................................................. 43
4.4 实验结果与分析 ..................................................................................................... 44
4.4.1 实验环境 .......................................................................................................... 44
4.4.2 参数设置 .......................................................................................................... 44
4.4.3 实验结果对比分析 .......................................................................................... 44
4.4.4 消融实验 .......................................................................................................... 49
4.5 本章小结 ................................................................................................................. 50
结论 ................................................................................................................................ 51
参考文献 ............................................................................................................................ 53
攻读硕士学位期间承担的科研任务与主要成果 ............................................................ 60
致谢 ................................................................................................................................ 61
- VI -
第1章绪论
第1章绪论
1.1 课题研究背景及意义
视觉一直作为我们从自然界获取信息的主要来源，它能便捷地获取周围的信息，
起到了将人类的行为和环境关联起来的纽带作用。在上世纪六十年代到八十年代期
间，计算机视觉从初步研究到蓬勃发展，取得了非常大的进步和重要成果。现在已经
进入信息化时代，如何获取及运用大量的数据信息成为了当下主流的研究方向，据有
关统计表明，人类大脑所获取的大量信息，其中 80%的信息量是通过视觉来捕捉，
剩余的 20%才是通过触觉和听觉等方式获取[1]，所以视觉的地位得到了极大的重视，
大量的研究人员开始涌入到计算机视觉这个领域，自此计算机视觉发展迎来了大飞
跃。自然界的信息量无穷无尽，仅仅通过人们的视觉来提取有效信息的效率十分低
下，因为人的视野和精度受到很多因素的限制。计算机视觉的技术高度融合图像处
理、模式识别等交叉学科知识[2]，通过运用这些知识来解决人类视觉的局限性问题。
a) 智能视频监控 b) 智能交通 c) 航空无人机
d) 工业机器人 e) 人机交互 f) 医学领域
图 1-1 视频目标跟踪在各个领域的应用
视频目标跟踪在 CV 领域有着举足轻重的地位，主要解决的任务是：给出一段视
频序列，通过这段视频序列中第一帧图像给定跟踪目标的大小和位置，在后续的目标
跟踪过程中，结合第一帧给定的目标大小和位置来预测后续帧数目标的大小和位置，
其中包含了尺寸和位置信息。在目标跟踪过程会遇到许多挑战，目标随着时间的推
移，大小、形状等都会发生变化，甚至目标会发生遮挡、漂移、模糊等等。这些挑战
一直制约着目标跟踪技术被广泛应用于实际工程中，为了提高跟踪效果，提高跟踪模
-1-
型的鲁棒性，目前有大量的研究人员都开始对这些挑战进行研究并提出各种解决办
法，因此视频目标跟踪技术已经得到了很大的发展。
视频目标跟踪作为计算机视觉探索较深的一个研究方向，被广泛的应用在各个
领域当中，如图 1-1 所示，应用在智能视频监控[3-5]、智能交通、航空无人机[6]、工业
机器人、人机交互[7]、医学等领域，监控摄像头在我们的日常生活在已经极为常见，
将目标跟踪技术与视频监控结合起来进行目标跟踪处理，这无论是从成本上还是从
可靠性方面都要好过人工进行检测，目标跟踪算法能够实时监控目标的状态，与常用
的监控相比无需增加额外的人工成本，并且人都会有疲劳期，但机器不存在这种问
题，可靠性得到了极大保证。随着现在生活水平的不断提升，交通的体验也成为人们
幸福感的一个重要评价指标，越来越多的私家车也促使着交通系统的升级，智能交通
系统[8]也逐渐出现在人类的视野当中，智能化的车辆行驶系统可以在无人干预的情况
下，直接实现目标车辆的检测和跟踪，其过程主要是通过车上自带摄像头不断进行视
频采集，然后对视频进行分析车辆的行为，对周围车辆进行实时跟踪，有效避免车辆
之间发生碰撞，在一定程度上减少事故的发生；智能管制系统可以利用路边的摄像头
很好的检测驾驶人在驾驶过程中的状态，如果驾驶人状态不适驾驶或者出现驾驶不
规范问题可以及时提醒，这样也可以通过预判减少事故的发生。将计算机视觉技术与
人机结合起来，使得机器能够有效的理解人的手势和姿态等，这样使得机器可以很好
的按照人的意图进行运转[10-12],更加灵活便捷的进行了人机交互；目前视频跟踪技术
在医学领域也逐渐火热起来，医学成像技术在医学领域的普遍使用，在临床诊断中扮
演着重要角色，但是在超声波和核磁共振的检查中不可避免的产生干扰，因此使用目
标跟踪技术对连续的动态目标进行实时检测分析[13-15]可以极大减少外界因素的干扰，
确保检测结果的准确性。
视频目标跟踪作为计算机视觉应用中不可缺少的组成部分，它在工业领域和视
频监控领域都充当着眼睛的作用，目前多样化的需求推动着目标跟踪技术进行不断
更新，探究如何进一步的提高目标跟踪算法的性能是非常有必要的。
1.2 国内外研究现状及分析
近些年来，人工智能在飞速的发展，理解视频中的动态目标问题已经受到了越来
越多的关注，视频目标跟踪技术能够快速且准确的理解视频目标的行为，这方面的技
术越来越完善，各种有效的算法不断地在更新换代，该技术得到了极大的发展。虽然
-2-
第1章绪论
这些年目标跟踪算法在快速发展，在理论上是满足人们的需求，但是由于实际背景复
杂多变，在跟踪过程中还是会出现跟踪目标漂移的情况，实际应用需要解决很多的问
题，如被跟踪目标的剧烈形变、旋转、尺寸、外观等变化[16]，主要面临的具体挑战有
以下几个方面：
(1) 目标遮挡
在目标跟踪过程中，跟踪目标容易被附近的物体挡住，一旦目标被遮挡物完全遮
挡，那么跟踪器在此时是无法判断跟踪结果的准确性，因为在这种情况下，附近存在
的任何一个物体的匹配得分可能都比跟踪目标要高，所以这种情况的跟踪得分是不
具备参考价值的，由于遮挡之后跟踪器获取了不可靠的目标特征，这样的错误会一直
积累到后续帧中，即便目标再次出现在视野中，跟踪器也未必能够识别到真正要跟踪
的目标，因此如何判断目标是在遮挡状态尤其关键，得知目标遮挡情况进而做出反应
可以极大地提高跟踪器的性能。
(2) 相似物干扰
在实际的目标跟踪过程中，由于复杂的环境，在被跟踪目标的周围经常会包含有
与目标相似的干扰物，例如当在水下环境时，有许多鱼在形态和大小上都是极为相似
的，此时跟踪器很难把目标与干扰物准确地区分出来，因为难以提取具有决定性的判
别信息，相关得到的最终得分并不能作为最终判别依据；在背景的信息与目标的颜色
和纹理都相似时，如蜥蜴一样很容易融入到环境当中，这就给分割出目标提高了难
度，容易使跟踪器框选出别的物体。
(3) 运动模糊
运动模糊是由于目标运动过快所导致，在目标高速运动的过程中会出现残影，这
个时候目标的特征会变得不太明显，导致跟踪器无法得到更为准确的目标特征，局部
的图像模糊，匹配得分普遍较低，跟踪目标很容易发生漂移。
(4) 目标形态剧烈变化
通常来说刚性物体是通过翻转、视野变化导致视频目标形态会发生变化，因为相
机与目标之间的距离不断发生着变化，所以目标呈现在视频序列中的大小也是在时
时刻刻在变化，其他的情况目标形态很难发生剧烈变化，但是非刚性物体是有区别
的，例如水母这种形态容易发生变化的目标，在被跟踪的过程中不断发生着尺度变
化、旋转、翻转等动作，这些因素会造成目标形态剧烈变化。目标形态剧烈变化会导
致网络中提取的目标特征与当前的目标匹配度较低，这样使得跟踪结果不准确甚至
-3-
失败。
(5) 光照变化
在实际应用场景中，目标周围的光线因时间、条件等因素时刻发生着变化，跟踪
目标由于光照的变化会导致物体表面的颜色发生改变，不同的颜色分布情况给跟踪
器提取目标特征带来了很大的挑战，识别目标的颜色特征是一个很重要的参考指标，
就如人类可以借助颜色来分辨一个物体的类别，跟踪器同样如此，光照的变化容易目
标融入到背景当中，这将为跟踪器区分前景和背景造成困难，最终导致准确性降低。
除上述之外，出视野、低分辨率这些因素为目标跟踪的应用带来挑战，同时也给
研究人员提出了更高的要求，推动了在各种挑战下也能保持高准确性、高鲁棒性的目
标跟踪器发展与进步。
目前视频目标跟踪技术越来越受到重视，许多研究人员在不断的对目标跟踪技
术进行研究与改进。常见的目标跟踪算法可以根据观测模型分为两大类：生成式模型
算法和判别式模型算法[17]。
上一个世纪六十年代首次提出了目标跟踪的基本思想，出现目标跟踪理论之后，
人们开始大多使用的是生成式模型来对视频图像信息进行处理分析，但是近些年来
基于判别式模型算法得到了大力发展，目前的跟踪器绝大多数采用的判别式模型算
法。
1.2.1 基于生成式模型的目标跟踪算法
基于生成式模型是提取目标特征之后，构建外观模型去匹配误差最小的区域[18]，
将这区域标记为目标区域。具有代表性算法包含稀疏编码[19-22]、主成分分析[23]、增量
子空间[24]、模板匹配[25-27]。Mei 等人[28]将 L1 范数运用到目标跟踪领域当中，利用范
数去进行最小化求解，求解得到结果按照大小顺序来选择候选目标，这种方法有个很
大的缺点是需要每次花费大量的时间去求解，当候选样本数量的比较多的时候，这个
时间成本是昂贵的。大部分基于生成式模型的目标跟踪方法能够适应没有剧烈形态
变化和遮挡且场景简单的任务，能够取得较为准确性和鲁棒性较高，但同时在构建外
观模型的时候会产生大量的计算，这些计算量会使得跟踪器的速率大大降低，无法满
足实际的需求，面对复杂环境且跟踪目标多变的情况，基于这种方法的跟踪器一般无
法胜任这项工作。
-4-
第1章绪论
1.2.2 基于判别式模型的目标跟踪算法
基于判别式模型的方法目前在视频跟踪领域占主导地位，基于这种方法出现了
三种主流算法，分别是传统的判别式目标跟踪算法、基于相关滤波的目标跟踪算法和
基于深度学习的目标跟踪算法，其核心思想式是判断目标的前景和背景，将得到的分
类结果按照分数的高低来对目标进行预测和分析。以下是对上述三种目标跟踪算法
进行详细介绍。
1、传统的判别式目标跟踪算法
常见的传统的判别式目标跟踪算法主要还是通过比较目标与区域之间的差异分
出前景和背景来确定目标位置和大小，Babenko 等人[29]于 2011 年提出了在线多示例
学习，由多个弱分类器代替一个强分类器对目标进行判别，提高跟踪器性能。KlalaZ
等人[30]于 2012 年将检测算法引入到目标跟踪领域，解决目标在被跟踪的过程中遇到
的一些挑战，如遮挡、形变等，检测算法本质上就是对目标进行分类，目标跟踪算法
属于区别前景和背景的二分类，将两者结合显著提高了跟踪器的稳定、鲁棒及可靠
性。ZhangK 等人[31]于 2012 年运用压缩感知的相关知识来提高跟踪器的性能，根据
一个非常稀疏的测量矩阵来对目标特征进行一定范围内的降维。张立朝等人 [32] 于
2014 年使用二值随机森林来解决压缩跟踪不能很好的解决目标在被跟踪过程中的形
态变化问题，提高算法应对目标形变、旋转的能力。SonJ 等人[33]于 2015 年提出在线
梯度提升决策树自适应建模目标外观的在线跟踪算法，通过多个目标特征来预测前
景和背景类别，
HareS 等人[34]于 2016 年使用了具有优秀概括能力的核结构输出 SVM,
然后通过一个在线学习来不断的适应目标的变化。茅正冲等人[35]于 2018 年提出了将
主成分分析、线性判别分析以及 SVM 三者结合的目标跟踪器，旨在提高跟踪器的实
时性和鲁棒性。
2、基于相关滤波的目标跟踪算法
相关滤波从信号处理领域引用而来，通过对比两个信号的相似度来判断是否为
同一个信号，这就与匹配的思想相吻合，当两个信号比较相近，那么它们相关得到的
响应就会越大。跟踪领域也是将滤波模板与当前帧的搜索区域进行相关处理，响应图
分数最大值的位置就是目标在视野内的具体位置。
Blome 等人[36]提出 MOSSE 算法，使用傅里叶变换(FFT)在频域学习迅速得到滤
波器模板 h ，将其与候选目标 x 进行相关运算操作，得到响应值 g ，其中最大值为目
标响应值，具体公式如下行：
-5-
g  xh (1-1)
但是直接运用信号处理领域简单的将滤波器模板和目标相关会导致计算量过大，
于是运用傅里叶变换(FFT)将计算过程从时域范围转为频域来计算，这样大大地减少
了运算量，提高了跟踪器的效率，也为跟踪器的改善提高了巨大潜在空间，一般视频
目标跟踪算法达到 25FPS 即可满足任务需求，转换为频域达到了 669FPS，以后的算
法可以在此基础上牺牲一定的速度来满足准确性和鲁棒性这些性能需求。只通过第
一帧来生成滤波器，这样可利用的信息比较少而不能很好的表达目标的全部特征，
Henriques 等人[37]在 2012 年提出 CSK 算法利用密集采样可以较为全面的得到样本目
标的特征信息，此外，还引入核函数将得到的解映射到非线性空间，使用高斯核来计
算近邻帧数之间的相似度，这样操作牺牲了一定的速度却提升了算法的性能。为了解
决 CSK 算法对目标特征表达较弱的问题，该算法作者在 2014 年对 CSK 算法做出改
进，提出了 KCF(Kernelized Correlation Filters)算法[38]以应对 CSK 算法灰度图像特征
表达能力弱的缺陷，该算法引入多通道特征 HOG(Histogram of Oriented Gradient)，取
消直接用灰度图像来表达特征的方法，提升了目标特征的表达能力来更好的用于目
标的匹配，这样的改进大大提高算法的鲁棒性。Martin Danelljan 等人[39]也在 MOSSE
算法基础上改进提出 DSST 算法，区别与 CSK 算法的是直接添加了一个用于感知尺
度变化的滤波器和特征融合，此算法将位置和尺度分别用两个滤波器进行估计，这样
就避免了前面算法只注重目标位置的局面，将尺度的各种变化考虑在内可以很好的
解决目标在被跟踪过程中所发生的形变问题，减少因尺度估计误差的积累，但尺度估
计带来额外计算量，因此不可避免的会降低跟踪器的速度，为了解决这个问题，该作
者在 2016 年提出了 FDSST 算法[40]，在 DSST 算法基础上做了特征压缩和尺度滤波
器加速处理，优化速度提高跟踪器的性能，SRDCF(Spatially Regularized Correlation
Filter)算法[41]在 KCF 算法的基础上添加了边界惩罚项，有效的抑制了背景信息，一
般的边界特征都不太重要，添加的惩罚项可以降低边界的权重而达到抑制背景信息
的作用。
Martin Danelljan 等人[42]于 2017 年提出了 ECO(Efficient Convolution Operators)
算法，此算法主要是改进模型更新策略来适应目标在被跟踪过程中的形态变化，另外
通过权重精简了滤波器数量，加快算法速度。Li 等人[43]提出 STRCF 算法，引入时间
正则项将时间正则化与空间正则化进行结合，可以在保证速度不减的情况下使得跟
踪器更加鲁棒。Sun 等人[44]在相关滤波算法上提出 RPCF 算法，通过约束项来实现感
兴趣的区域池化操作，能够良好的在不损失精度的情况下对模型尺寸进行压缩来提
-6-
第1章绪论
高跟踪器的鲁棒性。
3、基于深度学习的目标跟踪算法
近些年来，神经网络在飞速的发展，深度学习在视频跟踪领域的运用频率越来越
高，大数据潜力在这个互联网高度发达的时代被彻底的开发出来，近五年的计算机技
术得到了飞速发展离不开计算机硬件的提升，训练大批数据对计算机本身的性能做
出更高的要求，计算机性能提升也为神经网络快速发展提供了契机。Wang 等人[45]提
出 DLT 算法借用检测领域的分类思想将图像分为前景和背景两大类，很自然的把复
杂的跟踪问题简化为分类问题，通过离线训练获取通用图像特征，在线跟踪阶段微调
特征提取器和分类器来应对被跟踪目标的形态变化。Wang 等人[46]于 2015 年提出
FCNT 算法，研究表明语义信息有助于分类，局部内在信息有助于区分相似物，合理
的连接高低层来分配语义信息和局部信息有助更加准确的跟踪目标。Nam 等人[47]于
2016 年提出 MDNet 算法，虽然实验证明了卷积神经网络在提取特征方面具有得天
独厚的优势，但是跟踪任务和分类任务之间还是有所差异的，作者设计了一个多域学
习的轻量化网络，不像检测一般需要分出很多个类别，也指出了深层网络空间信息缺
失的问题。Nam 等人[48]于 2017 年提出了 TCNN 算法在 VOT2016 取得第二名的优秀
成绩，Tao 等人[49]首次将孪生网络结构应用到目标跟踪领域，提出了 SINT 算法，将
目标跟踪任务转化为相似度匹配任务，通过共享权重来减少参数量计算，计算模板帧
和当前帧的相似度来判断目标的具体位置，孪生网络由于它的简洁高效渐渐吸引了
研究人员的目光，同年，Luca 等人[50]提出非常经典的 SiamFC 算法，使用卷积孪生
网络将在数据集上预训练好的模型输入到跟踪器中去匹配模板帧和搜索帧，该网络
在速度与精度上做到了很好的平衡，在当年比同时期绝大部分算法的精度和速度都
要优秀。Li 等人[51]于 2018 年参考检测领域 Fast-RCNN 算法[52]使用的 RPN(Region
Proposal Network)提出 SiamRPN 算法，该算法解决了 SiamFC 算法在尺度估计上的
缺陷，基于预先设置的锚框可以很好的回归目标的大小和位置，大大的提高跟踪器的
准确性。Zhu 等人[53]在 2018 年提出 DaSiamRPN 算法来解决正负训练样本不足的问
题，使得跟踪器对正负样本的区分度更高。Li 等人[54]于 2019 年提出 SiamRPN++算
法解决了此前算法无法使用深层网络的问题，通过残差模块去解决平移不变性带来
的影响。
Xu 等人[55]于 2020 年提出基于无锚框的 SiamFC++算法，该算法指出 SiamRPN
算法预设锚框而带来的先验知识不符合视频目标跟踪的精神，这样预设锚框会限制
跟踪器的鲁棒性，SiamFC++算法直接通过像素点得分和质量评估来确定该像素点的
-7-
正负性。
本文对视频目标跟踪过程中的诸多挑战和技术难点进行了研究，主要是针对目
标遮挡、相似性干扰等因素所导致目标漂移、定位精度等问题进行研究和改善。
1.3 主要研究内容
最近几年，视频目标跟踪算法已经得到了很大的改善，基于孪生网络的目标算
法更是其中的佼佼者，因为该算法通过离线训练和在线跟踪的策略能够很好的兼顾
速度和精度，本文对比大量的现有视频目标跟踪算法，以孪生网络为基础，围绕目
标遮挡、相似性干扰等挑战提出一系列的解决方案。本课题的研究的主要创新内容
为：
1、提出了一种基于模板池更新和特征融合的目标跟踪算法。针对孪生网络目标
跟踪的算法无法应对目标的形变和遮挡等问题，本文提出模板池更新的概念，其主要
是存储适量的可靠模板，将模板池中的模板加权之后生成高质量的新模板；提出了模
板池更新的机制，通过模板准确性判断机制来确定当前模板的可靠性，当目标发生遮
挡或者有相似物干扰的状态时，不会将该模板加入到模板池当中，模板池就不会被污
染，通过模板必要性判断机制来确定当前模板是否在模板池内存在相似模板，若存在
将不进行更新，控制更新频率的同时也避免信息冗余；此外，目前跟踪算法常用的多
层特征融合，将高低卷积层进行相互融合，这种融合方式计算量比较大，本文提出一
种特征融合模块，通过非对称的空洞卷积层捕获不同尺度区域信息，获取了更多的尺
度信息用于边界框回归。
2、提出了一种基于分类回归互链策略的目标跟踪算法。目前大多数孪生网络算
法都是将分类损失和回归损失进行分开独立优化，这容易导致分类与回归结果并不
一致，基于此，本文提出分类与回归互链策略，这样分类和回归损失可以同步优化，
另外，推理阶段添加了一个定位评估分支，代替回归分支对分类分支进行辅助，使得
跟踪器更加精确的跟踪到目标；此外，本章提出了一种通道注意力和轻量化的空间注
意力结合的混合注意力机制，使得通道信息之间和位置信息之间充分交互，重要的通
道和位置获得更大的权重，能让跟踪器在复杂背景下更好的跟踪目标物体，从而提高
跟踪器的性能。
1.4 论文结构安排
本文主要分为以下五章内容，详细结构安排如下：
-8-
第1章绪论
第 1 章：绪论。本章主要对目标跟踪的研究背景以及各大领域的应用价值进行
了概述；并对当前研究进展历程和目标跟踪领域遇到的各种挑战进行了详细阐述，分
别从生成式模型和判别式模型跟踪算法两个方面进行了介绍；之后对本文主要研究
内容进行了概括，最后介绍了论文结构安排。
第 2 章：目标跟踪算法理论基础。本章首先介绍了目标跟踪常见的三种骨干网络：
AlexNet、GoogLeNet、ResNet，其中重点分析了本文采用的 GoogLeNet 骨干网络，
其次分析了三种经典的孪生网络目标跟踪算法：SiamFC、SiamRPN、SiamFC++，并
重点阐述了本文的基准算法 SiamFC++，最后对目标跟踪常用的训练集和测试集以及
评价指标进行了较为详细的介绍。
第 3 章：模板池更新与特征融合。本章首先针对孪生网络仅使用第一帧作为模
板帧而无法适应目标形变和遮挡等挑战，提出了一种模板池更新机制，为了确保模板
池中模板的可靠性，提出了一个模板准确性和必要性判断机制，确保加入模板池中的
模板是可靠的；针对在特征提取过程中卷积、池化等操作导致的目标信息丢失问题，
更重要的是丢失的信息当中包含有重要的尺度信息，基于此，提出了一种非对称的空
洞卷积进行特征融合的方法，此方法可以通过扩大感受野获取更多的尺度信息。
第 4 章：分类回归互链策略与混合注意力机制。本章针对孪生网络的分类和回
归分支结果不一致性问题，提出了分类回归互链策略，让分类损失和回归损失进行同
步优化；针对骨干网络提取目标特征的过程中，忽视了通道信息之间和位置信息之间
的交互，导致网络无法更好的关注目标本身，基于此，提出了混合注意力机制，将通
道注意力和轻量化的空间注意力结合起来，让重要的通道和位置获得更大的权重，最
终达到提高跟踪器性能的效果。
最后，总结全文的主要亮点，并提出了本文算法的一些缺陷和可以改进的地方，
为下一步研究方向奠定基础。
-9-
第 2 章目标跟踪算法理论基础
2.1 引言
近几年，深度学习技术日新月异,许多高性能的算法层出不穷，对于众多领域对
目标跟踪技术提出切合实际的需求，大量的目标跟踪算法被提出，而其中深度学习
受到的关注最多，对于基于深度学习框架的目标跟踪算法被寄予厚望，渐渐基于深
度学习的算法成为了主流，孪生网络这类算法是深度学习目标跟踪算法中发展最快
的算法之一。本章节将以目标跟踪框架、经典骨干网络以及经典的孪生网络目标跟
踪算法三个方面进行详细阐述。
2.2 目标跟踪基本框架
目标跟踪作为计算机视觉主要的任务之一，一般是通过给出第一帧中目标的位
置与尺寸信息，然后通过跟踪算法来预测后续帧目标的大小和尺寸，目标跟踪遵循五
个步骤：输入图像、收集目标样本、提取特征、建立预测模型、输出预测目标。如图
2-1 所示，形象地展示了目标跟踪流程框架。一般来说，目标相对整张图像来说是相
对较小的，因此算法在匹配目标的时候是在上一帧目标的周围进行搜索，取得了一些
样本之后，再对这些候选样本进行特征提取得到可靠且有区分度的目标基本特征，然
后根据算法建立的预测模型对这些前景、背景特征信息辨析，得到每个候选目标的置
信分数。通常目标在被跟踪过程中会出现形态变化和相似干扰，于是有些算法添加了
模型更新的功能来适应目标变化。
模型更新
输入图像收集目标样本提取特征建立预测模型输出预测目标
图 2-1 目标跟踪基本框架
2.3 经典骨干网络
计算机硬件不断更新换代，计算的效率大幅度提高，许多更深的网络也越来越多
的被应用到深度学习领域,比较经典的骨干网络包含：AlexNet[56] 、GoogleNet[57] 、
- 10 -
ResNet[58]等,以下内容详细介绍这三种流行网络。
2.3.1 AlexNet
Alex 等人在早期的 LeNet[59]基础上提出 AlexNet，它加深了网络层数，同时提出
很可靠的训练方式，为后来的孪生网络训练方法提供了参考，这些技术沿用至今，当
时由于计算机硬件的限制，只能把数据放在两个 GPU 上进行训练，但是现在使用一
个 GPU 也能够训练我们的网络，AlexNet 网络结构如图 2-2 所示。
Stride
of 4 Max
224 Pooling dense dense
Max Max dense
55 Pooling Pooling
11 27
5 3 13 13 13
3 3
11
5 3 3 3
13 13
55 27 384 384 256 1000
96 256
224 4096 4096
3
图 2-2 AlexNet 网络结构
AlexNet 使用了 ReLU 激活函数增加模型的非线性，有效缓解了模型在训练过程

中的梯度爆炸和梯度消失等问题，另外在训练阶段还采用 Dropout 操作随机屏蔽一
半的神经元来防止过拟合，通过数据增强来扩充训练的数据量。
2.3.2 GoogLeNet
GoogLeNet 卷积神经网络有 Inception-v1 到 Inception-v4 系列，它荣获 2014 年
ImageNet 比赛的冠军，比同年的 VGGNet[60]的性能还要高，相比于 VGGNet 的复杂，
很多算法都采用九个 Inception 模块进行堆叠的 GoogLeNet。
672 480
28 28 1×1 28
28
28 28
28 28
256 256
a) 原生 Inception-v1 结构 b) 改进 Inception-v1 结构
图 2-3 GoogLeNet-Incepetion-v1 模块结构
- 11 -
其中 Incepetion-v1 模块结构如图 2-3 所示。原生的 Inception 结构是对特征同时

进行三个卷积操作和一个池化操作，然后将得到的特征图串联叠加在一起，得到更加
丰富的特征信息，但是由于通道数过多，不可避免的会使计算量变得很大，于是在改
进版本就添加了三个 11 64 的卷积核，先将输入特征图进行降维，然后再进行其他
的卷积操作，这样做有几个优点：跨通道信息交流、增加非线性、增加模型的表达能
力、增加网络的深度，减少计算量、得到最后组合特征图通道更少，特征图没有用
11 64 的卷积核来下采样之前参数量是 854M,下采样后参数量是 358M。
Filter Concat
3×1
Filter Concat
1×3
5×5
3×3 3×1 3×1
5×5
3×3 3×3 1×1 1×3 1×3 1×1
1×1 1×1 pool 1×1 1×1 1×1 pool 1×1
Base Base
a) Inception Module A b) Inception Module B

Filter Concat
Filter Concat
3×3
3×1 1×3 Stride 2
3×3 3×3
3×3 1×3 3×1 1×1 Stride 1 Stride 2
pool
1×1 1×1 pool 1×1 1×1 1×1 Stride 2
Base Base
c) Inception Module C d) Grid Size Reduction
图 2-4 Incepetion-v3 基本模块结构

GoogLeNet-v3 版本将上述的结构改良如图 2-4 所示，采用 4 种 Inception 模块，
它们分别是：Inception Module A、Inception Module B、Inception Module C、Grid Size
Reduction。Module A 是将 5  5 卷积核被两个 3  3 卷积核代替，在不减少感受野的情
况下缩减了参数量，一般来说可以用几个小的卷积核代替一个较大的卷积核，当然小
卷积核尺寸通常要大于 1 1 ，因为 1 1 的卷积核感受野太小，一般只是用来压缩或拉
伸通道。Module B 是在 Module A 基础上将 3 个 3  3 卷积核都拆分为 1 3 和 3 1 两个
非对称卷积核，进一步压缩计算量和增加非线性变换。Module C 也是在 Module A 的
- 12 -
基础上将其中两个 3  3 卷积核拆分为 1 3 和 3 1 两个非对称卷积核，作用同样是压缩

计算量，但是它区别于 Module B 的是将两个非对称卷积核并联，而非是串联。Grid
Size Reduction 是将卷积层与池化层结合起来，既可以保证计算量比较小，也避免特
征信息丢失，传统的下采样方法是先增维、后池化，这样计算量太大，直接用步长为
2 的池化核会导致丢失一定量的特征信息。
GoogLeNet-v3 提出的整体框架如图 2-5 所示，它主要是通过 3 个 Inception Module
A 模块、4 个 Inception Module B 模块、3 个 Inception Module C 模块以及 2 个 Grid
Size Reduction 模块组成，GoogLeNet-v3 的提出解决了 GoogLeNet-v1 中计算量量大、
结构难以改进的确定，并为此提出了四条通用设计原则：避免表示瓶颈、特征越多，
收敛越快、尽量不降低表示能力的情况下减少特征的维度、平衡网络的宽度和深度。
作者根据这四条设计原则将大卷积核进行分解为几个小的卷积核，将对称的卷积核
进行非对称分解，特征图通道减小等操作。
Grid Size Reduction Grid Size Reduction
3×Inception Module A 4×Inception Module B 2×Inception Module C
Final part:8×8×2024
Convolution Output
AvgPool
MaxPool 8
Input
Concat 299
Dropout 8
2048
Softmax 299
3
图 2-5 GoogLeNet-v3 整体框架
2.3.3 ResNet
ResNet 卷积神经网络荣获 2015 年 ImageNet 比赛的冠军，它的深度比 AlexNet、
VGGNet、GoogLeNet 网络层数都要深，网络层数加深带来了一系列的问题，如：计
算量的巨大扩增、模型容易敏感过拟合、梯度消失或爆炸。随着计算机硬件的不断升
级，第一个问题相对来说还是容易解决，第二个问题用增加训练数据量并进行
- 13 -
Dropout 正则化来解决，第三个问题通过归一化来处理。但是，通过实验发现，层数
深到一定的程度反而没有浅层的网络效果好，出现这种情况的原因就是层数越深，它
在特征提取的过程中丢失的特征较多，特征信息太少导致目标区分度不明显，效果就
会变得很差，ResNet 卷积神经网络通过提出残差块的基本结构，在一定程度上缓解
了上述的问题，因为残差块会将前面的信息再次输入到后续得到的特征图当中，这样
就弥补了在特征提取过程中丢失的信息。
Xl
weight
BN
ReLU
weight
BN
addition
ReLU
Xl
图 2-6 残差块的基本结构
图 2-6 为残差块的基本结构，输入数据为 X l ，将右边的网络层设为 F  X l  ，残

差块输出为 H  X l   F  X l   X l ， H  X l  就是最后输出的预测值， F  X l  就是对应
的残差，所以网络就叫做残差网络。
2.4 经典孪生网络目标跟踪算法
近几年孪生神经网络在目标跟踪领域发展十分迅速，其优秀的性能和远超实时
的速度吸引着大量的科研工作者不断的对它进行探索和改进，可以按照边界框回归
的处理方式分为三大类：基于简单多尺度搜索目标跟踪算法、基于锚框的目标跟踪算
法、基于无锚框的无锚框的目标跟踪算法，以下内容分别介绍这三类中最为典型的三
种算法：SiamFC 算法、SiamRPN 算法、SiamFC++算法。
2.4.1 孪生神经网络
孪生神经网络(Siamese Neural Network)，最初用于鉴定银行支票的签名验证,主
- 14 -
要是检查输入的两个目标之间的相似度[61]。孪生网络结构如图 2-7 所示。
X1 X2
GW ( X ) GW ( X )
Weight
GW ( X 1 ) GW ( X 2 )
|| GW ( X 1 )  GW ( X 2 )||
EW
图 2-7 孪生网络基本结构
其中，X 1 和 X 2 表示输入图片，然后经过两个相同的网络 GW  X  进行特征提取，

提取的特征通过余弦距离公式如式(2-1)或者欧式距离公式如式(2-2)进行计算，将得
到的结果进行输出，其中 xi 、 yi 表示向量。本质上孪生网络结构就是基于匹配的思
想，将普通的单向分支变为双向分支进行训练，在这个过程中它们进行权重共享，大
大的减少了权值数量，加快运算速度。孪生网络适用于分类多且训练样本少的任务，
被广泛应用在视频目标跟踪、视频分割、人脸识别等领域。
n
 x  y  i i
cos  θ   i 1
(2-1)
n n
 x    y 
2 2
i i
i 1 i 1
n
dist  X,Y   x  y 
2
i i (2-2)
i 1
2.4.2 SiamFC 算法
SiamFC 算法使孪生网络结构真正在目标跟踪领域中大放异彩，其网络框架如图
2-8 所示，它具有两个输入分支：其中一个输入当做模板帧，另一个输入是搜索帧，
然后将这两个图像输入分别输入到模板分支和搜索分支当中，彼此共享权重，通常模
板帧为视频序列第一帧当中的目标，第一帧是最可靠的，一般后续预测的目标都具有
预测性，所以 SiamFC 算法是将第一帧作为模板去匹配后续帧搜索区域中的目标，当
- 15 -
匹配到的区域相似度得分值最高，那么这个区域就代表目标所在位置，得到一个目标
的位置是不够的，算法还需要知道目标的尺寸大小，用一个目标框去具体的表示目
标，SiamFC 算法采用多尺度搜索的方法，对模板分支和搜索分支的输入图片进行多
种尺度缩放，尽量使目标在运动过程中的尺度变化情况考虑到，然后经过计算得出相
似度值，目标框的大小根据最大得分的尺度进行确定。
SiamFC 算法在保证精度的同时也能达到远超实时的速度，但是在训练中只考虑
模板与正负样本的相似度，忽视了正负样本之间信息交叉，采取浅层网络使得特征提
取能力也不足，而且语义信息不丰富也导致抗相似度干扰能力不足，简单粗暴的多尺
度搜索增加了计算量，目标边界框的处理效果也并不好。
127×127×3
Z 
6×6×128 

17×17×1
X
255×255×3
特征提取 22×22×128
图 2-8 SiamFC 算法网络框架
2.4.3 SiamRPN 算法
虽然 SiamFC 算法在性能和速度上有了很大提升，但是对于目标边界框的处理研
究不够深入，固定的长宽比很难适应目标形态上的多样性变化，Li 等人提出的
SiamRPN 算法引入检测算法 Fast-RCNN 中提出区域建议网络(RPN)，整个 SiamRPN
算法框架如图 2-9 所示，它由两个网络组成：特征提取网络和区域建议网络，特征提
取网络将提取得到的特征送入到区域建议网络中,然后通过分类和回归分支对目标进
行分析，分类分支的作用是区分锚框的正负性，将正样本当作候选目标、将负样本当
作背景，回归分支学习的是预测锚框与真实框之间的四个偏移量。SiamRPN 算法设
置的锚框数量是根据最后输出的尺寸 17  17 进行设置，每一个像素点对应五个不同
长宽比的锚框，映射到搜索帧中心大小为 128  128 区域，这些锚框的设置有效解决了
SiamFC 算法中将长宽比固定所带来问题。锚框的存在使得算法无需通过不断进行缩
放操作来预测目标大小，大大减少了计算量，而且精度也大幅度的提升。
- 16 -
Negtive
Positive
Conv

4  4   2k  256 

17  17  2k …
one group
6  6  256
127  127  3
Conv k groups
20  20  256
dx dy dw dh
Conv

4  4   4k  256 

17  17  4k …
22  22  256 Conv one group
255  255  3 20  20  256 k groups
K表示一个像素对应的锚框数量
孪生网络结构区域建议网络结构
图 2-9 SiamRPN 算法框架
SiamRPN 算法除了跟踪的精度和速度提升之外，也存在着一些缺陷，RPN 网络
只对正样本进行训练( IoU  0.6 )，忽略了那些重叠度较低却是正样本的情况，这样较
为粗略的训练使得在测试阶段容易将真正的目标判定为背景，而且锚框的设置本身
就违背了跟踪精神，目标跟踪是指对目标在任意未知情况下进行跟踪，但是 SiamRPN
算法设置的锚框所带来的先验信息恰恰违反了这一设定，锚框尺度比例是根据训练
集来进行人为设置的，如果遇到目标形变巨大的情况，丢失目标的概率就会大大增
加。
2.4.4 SiamFC++算法
SiamRPN 算法锚框的设定并不符合跟踪的宗旨，因为无法适应未知目标或者形
变过大的情况，这样限制了跟踪器鲁棒性的上限。目前许多孪生网络跟踪器都是采用
多尺度搜索或者预设目标框长宽比和大小，SiamFC++算法就是针对这类问题提出的，
为了解决这些预定参数带来的计算量的巨大增长，影响算法的实时性，因此，本文算
法放弃了适应区域建议网络(RPN)，直接采用 Anchor-free 的方式进行目标边界框预
测，这种做法进一步提高了跟踪器的性能。SiamFC++算法框架如下图 2-10 所示，虽
然取消了 RPN 的设计，但还是采用了 SiamRPN 算法中将分类和回归分开的做法，
将其分为两个子任务能够更好的对目标进行分类和定位，并且还添加了一个分类质
量评估分支，该分支主要是对分类结果进行再分析，对可能性较大的分类得分赋予更
大的权重，使分类结果更加可靠，最终与目标边界框的回归结果尽可能的匹配。
- 17 -
127
17
 1
17
127
3 17
17
Template image 1
303 17
 4
17
303
Search image 3
图 2-10 SiamFC++基本算法框架
为了对孪生网络跟踪器进行更合理的设计，SiamFC++算法为此提出如下所示的
四条设计指导意见。
(1) 跟踪网络需要分为两个子任务。一个是前景背景分类网络，另一个是状态估
计网络，良好的分类网络能够提高模型的判别能力，使得跟踪器的鲁棒性更高，而状
态估计网络直接关系着目标边界框的精度，缺少位置估计则会大大降低模型的精度。
(2) 使得分类分支取消歧义性而具有确定性。分类得分表示模板与区域的相似程
度，得分越高表示着这个区域是目标的可能性越大，分类得分应该直接代表的目标本
身置信度分数而不是设置锚框的置信度分数，设置锚框的阈值很容易产生得分高的
锚框是假阳性样本情况，这样带来的后果是分类结果不可靠，
(3) 训练不含先验信息。目标跟踪本质就是对一个未知的目标进行连续检测其位
置和大小，模型不应该预先含有目标任何信息，因为没有给定目标之前无法确定目标
的具体情况，如果在训练的过程中加入预测信息，当给定的被跟踪目标在训练集未出
现时，那么跟踪器的跟踪效果会变得很不理想，提前加入预测信息会大大限制跟踪器
的泛化能力，这对跟踪器的鲁棒性时致命的。
(4) 质量评估分支。分类得分不能直接作用在状态估计分支上，单靠分类分支得
分当作状态估计分支预测的目标边界框系数有时候不是最优解，为了平衡分类得分
和目标位置精度的关系，这个时候需要对分类得分进行一个质量评估，确保分类得分
的可靠性，分类得分的可靠与否直接影响着状态估计的最终结果，也决定着跟踪结果
的成败。
- 18 -
SiamFC++算法根据这四条指导意见设计出了精度和鲁棒性都相当高的跟踪器，
达到了当时最先进跟踪器的水平，根据第一条指导意见设计出孪生网络提取的特征
图都有两个，这两个分别进行分类分支和回归分支的相关操作，然后根据第二、三条
指导意见直接采用的是无锚框的方式对目标边界框来回归，根据第四条指导意见在
分类分支添加了质量评估分支，并且分类得分分支和质量评估分支使用的损失函数
也是不一样的，在计算损失时，将目标框的像素点都当作正样本来处理，这样不会出
现 SiamRPN 算法将正样本当作负样本处理的情况。虽然 SiamFC++算法取得了很好
的成绩，但对于分类分支和回归分支之间的相关性探索还是缺乏的，仅仅只考虑到将
分类分支的得分变得更加可靠，现有的孪生网络跟踪算法在训练过程中总是将分类
损失和回归损失分别进行优化，这就导致跟踪的结果出现分类和回归的结果并不匹
配。
2.5 数据集
2.5.1 训练集
本文使用的训练集为：TrackingNet[62]、COCO[63]、GOT10k[64]、LaSOT[65]、Imagnet
VID[66]五个数据集，TrackingNet 数据集是将大量的检测领域的数据集进行重新标注，
大小超过了 1T,是跟踪领域第一个大规模数据集，包含了各种野外目标跟踪挑战。
COCO 数据集包含了 80 个类别，类别信息虽然少，但是视频序列都比较长，更能训
练出优秀鲁棒的跟踪器。GOT10K 数据集是中科院专门发布的一个目标跟踪数据集，
一共包含有 10000 条视频和 560 多个类别，类别信息丰富、人工标注精度高。LaSOT
数据集是一个长时的目标跟踪数据集，视频序列至少包含了 1000 个以上，能训练出
有效的长时跟踪模型。Imagnet VID 数据集虽然只有 30 个基本类别，但是每个类别
的视频序列数量极多，能很好地满足训练的需求。
2.5.2 测试集及评价指标
目标跟踪比较受欢迎的主要两个标准测试平台 VOT2018[67]、OTB100[68]，通过
这两个平台来评估本文算法，然后通过可视化进行问题分析来改进算法的性能。
(1) OTB100 数据集及评价标准
OTB100 测试数据集由 98 个视频序列，它包含有 100 个丰富的跟踪场景，以成
功率(success)和精确度(precision)两个指标来体现算法的优劣。成功率是计算重叠度
(overlap score)大于阈值 T1 的帧数占总的帧数的比例，重叠度计算如式(2-3)所示，成功
- 19 -
率的计算如(2-4)所示。
a b
overlap score = (2-3)
a b
success =

sum overlap score＞T1  (2-4)
sum  overlap scoreall 
精确度满足预测目标中心与目标真实位置中心距离小于阈值 T2 帧数占总的帧数
的比例，中心距离如下：
 =  x2  x1    y2  y1 
2 2
(2-5)
精确度的计算如下：
precision =
sum  ＜T2   (2-6)
sum  all 
(2) VOT2018 数据集及评价指标

VOT 测试集的是通过标注四个角的坐标来确定目标位置和大小的，所以大多数
目标标签是斜框，并不是平常使用的水平矩形框。这样的标注可以最大的减少目标的
背景信息，同时 VOT 测试平台还具有重启机制，当跟踪丢失目标之后，会跳过后续
5 帧，重启初始化来使得算法继续运行，主要是通过准确性(Accurary)、鲁棒性
(Robustness)、平均重叠率期望(EAO)三个指标来衡量算法的优劣。
Accurary 用来评价跟踪模型在单个跟踪序列下跟踪框的预测位置和目标实际区
域的交并比。交并比的数值越大，意味着跟踪模型的准确性越高,如式(2-7)，其中，
AtT 代表第 t 帧跟踪框的预测位置的目标大小， AtG 代表第 t 帧目标的实际目标大小。
AtT  AtG
Accurary = (2-7)
AtT  AtG
Robustness 用来评判跟踪模型的稳定性，跟踪失败的次数越少，数值越小，那么
跟踪模型更加稳定，具体计算如式(2-8)。
1
R i    F  i,k 
N
k 1
(2-8)
N
其中 F  i,k  为 i 个跟踪模型在第 k 次重复中失败的次数，N 总的跟踪次数， R  i 
表示跟踪器的鲁棒值。
EAO 是对模型是指在一个短时序列上的非重置重叠的期望值，计算其中的每一
帧的准确率，再取平均，统计所有这些长度一致的序列个数，最后再做一次平均得到
EAO 的数值。
- 20 -
2.6 本章小结
本章首先介绍了目标跟踪常见的三种骨干网络：AlexNet、GoogLeNet、ResNet，
其中重点分析了本文采用的 GoogLeNet 骨干网络，其次分析了三种经典的孪生网络
目标跟踪算法：SiamFC、SiamRPN、SiamFC++，其中重点阐述了本文的基准算法
SiamFC++，最后对目标跟踪常用的训练集和测试集以及评价指标进行了较为详细地
介绍。
- 21 -
第 3 章基于模板池更新和特征融合的目标跟踪算法
3.1 引言
目标跟踪任务中，大多数基于孪生网络的目标跟踪算法仅仅使用第一帧的模板
信息，没有很好的利用后续帧的特征信息，在处理复杂场景下的目标遮挡、外观变化
表现出了鲁棒性较差、目标漂移等问题。对此，在 SiamFC++算法的基础上提出一个
在线模板池更新模块来储存可靠模板帧的信息，模板池中模板的可靠性也很重要，基
于此，提出一种模板池更新的准确性和必要性判断机制，提高最终模板的可靠性；此
外，还提出一种特征融合方法，通过非对称的空洞卷积层来捕获不同尺度区域信息，
获取更多的尺度信息。在 OTB2015、VOT2018 数据集上分别进行实验与分析，所提
出的算法相较于 SiamFC++基础算法在 OTB2015 上精度和成功率分别提升了 1.5%和
1.2%；在 VOT2018 上准确率、鲁棒性和平均重叠率分别提升 0.5%、2.9%、2.6%。
3.2 网络结构
本章整体算法框架如图 3-1 所示，比 AlexNet 更深的网络 GoogLeNet 作为
Backbone 来提取图像对的深层特征。孪生网络的模板分支加入模板池更新模块
Template Pool Update Module(TPUM)，通过模板准确性和必要性判断机制对模板池进
行自适应更新。特征融合模块 Feature Combination Module(FCM)对 Backbone 输出层
进行特征融合，然后搜索分支和模板分支进行深度互相关操作得到特征响应图，最后
经过无锚的分类回归网络得到分类得分、质量评估得分、目标边界框。
Feature Extraction Template Pool Update Feature Combination Cls and Reg
Cls score
Template Pool
7
S U 19
Feature Combination Module
256
Conv
1
7 7
256 Qua 19
256 assessment
1
7
256 Conv
19
Template image
4
Reg output
A:模板准确性判断
f
S:模板必要性判断 29
Backbone U:决定是否更新 256
Search image
图 3-1 整体目标跟踪算法框架
- 22 -
如图 3-1 所示，在本章中提出的基于特征融合和自适应模板池更新的孪生网络
目标跟踪算法分为四个部分：主干网络、模板更新、特征融合和预测头部。算法是在
SiamFC++上进行改进，将一对图片对输入到骨干网络当中进行特征提取，采用
GoogLeNet 作为算法的骨干网络，它能够运用更少的参数学习到目标有效的特征，在
ImageNet 上训练得到的预训练模型，GoogLeNet 相较于 AlexNet 和 ResNet50 来说，
在目标跟踪任务中更好的平衡了精度和速度。模板帧和搜索帧经过骨干网络的特征
提取之后得到的特征图尺寸分别为 13 13  768 和 35  35  768 。将得到的特征图进行
特征裁剪和通道压缩之后减少参数量，模板帧和搜索帧输出的特征图大小分别为
7  7  256和 29  29  256 ，然后经过 FCM 模块，对于特征融合部分本文没有采取
SiamRPN++算法那样常见的多层特征融合方式，这样不会带来很大的参数量，减少
计算量的同时也能获得目标尺度信息。
在模板分支上，TPUM 模块采用了模板准确性和必要性判断机制，这个机制根
据反馈回来的分类得分对当前模板进行评估，确保模板池内的模板一直保持高置信
度，使得输出的最终模板更加精确。
最后，本文采用 FCOS 算法[69]的头部网络作为预测头，它由分类头、中心头、
回归头三个部分组成，回归头部预测每个位置上的边框大小，分类头部预测每个位置
上的类别，中心头部预测每个位置上的置信度。如图 3-2 所示，在发生干扰时，三种
更新方式都会在一定程度上导致目标跟踪漂移。
不进行更新隔帧线性更新累积更新
图 3-2 模板更新方式对比效果
- 23 -
3.3 模板池更新模块
基于模板更新的方式将以前的孪生网络目标跟踪算法分为三类：无模板更新、简
单线性更新、积累更新，三者效果如图 3-2 所示。目前这些孪生网络跟踪器一般只是
使用初始模板帧进行目标跟踪，在这个过程当中不执行任何模板更新操作，如
SiamFC、RASNet[70]、DasiamRPN[71]等，这些算法难以适应目标在跟踪过程中发生的
形变、遮挡等情况，UpdateNet[72]算法使用一个通用的模板更新网络来进行模板更新，
它的更新频率是固定的，无法判断更新的模板是否可靠，加入的噪音信息导致模型逐
渐退化，现在有些跟踪器如 ATOM[73]、Ocean[74]、DIMP[75]、DSiam[76]，在一定程度
上缓解了 UpdateNet 更新频率问题，可也没有提出一个有效的模板可靠性判断机制，
无法解决模板污染问题，目前这些算法没有提出一个行之有效的方案去彻底的解决
模板更新的问题。
本文通过模板准确性和必要性判断机制对模板池进行自适应更新，这个机制确
保每一个加入模板池中的模板都是高置信度的，也保证了加入的新模板不会和模板
池中现存的模板有太大的相似性，使得模型对目标变化应对自如的同时也减少了不
必要的更新次数。模板池更新机制如图 3-3 所示。
XZ
不更新模板
不不
是
XZ
新模板 XZ
模板准确性判断 XZ
模板必要性判断
是
XZ
模板池更新
输出
XZ
最终模板
图 3-3 模板池更新机制
- 24 -
3.3.1 模板池
建立模板池来存储高质量的历史模板帧，通常情况下默认初始模板帧最为可靠，
因为它没有添加任何后续的预测信息，为充分利用初始帧的信息，首先利用初始模板
帧经过平移、翻转、遮挡等变换来生成三十个模板帧，这三十个模板可以在一定程度
上应对后续跟踪过程的目标变形、遮挡等情况，设置的这三十个模板占据模板池大小
的五分之二，能够较好的保留初始模板的信息。模板池的大小设置为 150，可以应对
目标在短时跟踪和长时跟踪过程中的各种变化。初始模板帧的权重设置为 0.5，由于
初始模板的可靠性，可以确保目标在丢失之后可以再次找回，模板池中其它模板的权
重是动态变化的，更好的适应目标的变化。具体权重分配如下：
  n0

  1 
Tgtn    n  (3-1)
1      N 1  n  1, N 
   i 1 
  i
其中， Tgtn 表示模板池中的模板各自的权重， N 表示模板池中存储的个数， 
1

N
i 1
表示初始模板的权重， i 表示后续模板权重的归一化；最终输出的模板如下：
n
Tf    T0  1     Tgt1  T1t 
to 0
Tgt30  T30t
0
 Tgtn  Tnt
1
 (3-2)
其中， Tf 表示得到的最终的匹配模板， n  1, N  ， Tnt 表示为历史帧。 1
3.3.2 模板准确性判断
模板池更新关键在于新加入模板的准确性，加入模板池的模板越准确，最终输出
的模板就会更加可靠，除初始模板帧最为可靠，其它后续帧都是含有预测信息的，那
么判断这个预测信息对目标的影响是有必要的。判断模板的准确性一直都是跟踪任
务的一个难点，这决定了模板池中模板是否会被污染，本文采用多峰值检测(Multi
Peak Detection)的方法[77]判断当前帧的准确性，如图 3-4 所示，如果当前帧跟踪结果
准确时，那么最终得到的响应图是呈现单峰状态，当跟踪目标发生遮挡、相似性干扰
等情况时会呈现多峰的状态，所示基于这个特性可以判断当前帧的准确性。准确性判
断计算公式为：
Fmax  mean  Fmax  APCE  mean  APCE 
A    (3-3)
mean  Fmax  mean  APCE 
- 25 -
其中， A 表示质量评估值，  表示最大得分波动程度的权重参数,  表示多峰值

Fmax  mean  Fmax 
检测值波动程度的权重参数， Fmax 表示当前分类得分的最大值，表
mean  Fmax 
示的是得分波动程度，mean  Fmax  表示历史帧分类得分最大值的均值，mean  APCE 
表示历史帧的平均峰值能量，APCE 表示当前平均峰值相关能量，其具体如式(3-4)；
Fmin 表示当前帧的分类得分最小值， Fi 表示分类得分每一个得分值。
Fmax  Fmin
2
APCE  (3-4)
mean   F  F  
i i min
2
经过大量实验，本文取   2 ，   3 ， A 设置的阈值为 1.8， A 大于 1.8，认为当

前模板质量差，不会将当前模板加入到模板池进行下一帧的跟踪。
a) 准确跟踪
b) 干扰物遮挡
图 3-4 网络响应可视化
3.3.3 模板必要性判断
当已经确定当前模板的准确性之后，此时模板池里可能已经存在与当前模板极
- 26 -
为相似的模板，在这种情况下，直接将当前模板加入到模板池当中是非常不妥的做
法，不但加大了计算量，而且也可能会为模板池添加了新的噪声，导致最后跟踪的精
度降低。本文通过计算当前模板与模板池中模板的相似度，判断当前模板是否有必要
加入模板池。如果当前模板与模板池中的模板过于相似，那么就不进行更新，如果不
相似就进行模板池更新。相似性计算如下：
S  cos T t , Ti 
1
(3-5)
其中，T t 表示当前帧的新模板，T 表示模板池中的模板，S 表示余弦相似性度量

1
值的集合， cos() 表示余弦相似度计算， i 表示模板池当中的模板下标。经过多次实

验， S 设置为 0.15。
3.4 特征融合
将从骨干网络提取的特征图进行裁剪以及通道压缩之后，然后进行深度互相关
操作，生成目标定位的相应特征图，但是不同于 SiamFC++直接进行深度互相关操作，
这样无法弥补深层网络提取特征带来的信息损失，特征融合模块如图 3-5 所示，在深
度互相关之前先将特征图输入到三个平行的非对称空洞卷积层，然后分别做深度互
相关操作，最后与原先 SiamFC++的深度互相关的结果通过点求和融合相关特征，目
前常见的特征融合是在骨干网络不同的阶段进行互相关操作，前面那些阶段的特征
图大，没有经过通道压缩的层数也多，这样不可避免的带来了较大的计算量。
(1,1)
3x3x256 19
(1,2) 256
7 3x3x256
256 (2,1)
3x3x256
(1,1)
3x3x256
(1,2)
3x3x256 19
(2,1) 256
29 3x3x256
256
图 3-5 特征融合模块
特征融合具体的过程如下：
S  f e * f s   l , w Φl , w ( f e )  Φl , w ( f s ) (3-6)
- 27 -
其中 f e 和 f s 分别为模板帧和搜索帧的特征， l , w 表示单一的空洞卷积层， l , w 分
别表示空洞卷积的长和宽两个方向的空洞率， * 表示深度互相关操作， l , w 的核大小
设置为 3×3，空洞步长沿 x 轴设置为 l ，沿 y 轴设为 w ， l , w 的通道数为 256 层与 f e
和 f s 保持一致，本文对三个空洞卷积层分别设置了不同的空洞率，将其表示为集合
形式： (l , w) {(1,1),(1, 2),(2,1)} ,空洞率的多样性可以改善特征的表示能力，不同空洞率
的卷积能够获取不同尺度区域的特征，提高最终特征融合的尺度不变性。
3.5 实验结果与分析
本章在 SiamFC++算法的基础上提出一个在线模板池更新模块来储存可靠模板
帧的信息，采用一种模板池更新的准确性和必要性判断机制，提高最终模板的可靠
性；此外，还提出一种特征融合方法，通过多种空洞率的空洞卷积层来捕获不同尺度
区域信息，获取更多的尺度信息。在 OTB2015、VOT2018 数据集上分别进行实验与
分析来验证算法的有效性。
3.5.1 实验环境
本文算法均在容天(omnisky)工作站上进行，工作站装有一张 RTX 2080Ti GPU，

使用 Docker 容器进行环境配置和实验操作，操作系统为 64 位的 Ubuntu16.04，采用
python3.6+pytorch1.1 编程框架上验证算法的性能。
3.5.2 参数设置
本文算法使用 ImageNet 的预训练权重初始化 GoogleNet 网络，同时冻结了第七

阶段的参数。训练阶段使用的训练集有 TrackingNet、COCO、GOT10k、LaSOT、
ImageNet，本文算法使用随机梯度下降(SGD)来进行训练，总共训练出 20 个 epoch，
其中前面 5 个 epoch 使用学习率 0.000001 到 0.08，后面 15 个 epoch 学习率从 0.08 衰
减到 0.000001。权重衰减设置为 0.0001，动量设置为 0.9。
3.5.3 实验结果对比分析
为了更好地验证本章所提出算法的综合性能，使用 OTB100 和 VOT2018 两个数
据集进行评测，利用一次性通过的评估方法，除了对比基础算法 SiamFC++之外，还
对比了一些目前比较先进的算法。为了保持公正性，将改进算法和原始算法以及一些
其他算法在相同的数据集上进行对比分析。
在测试平台相同的情况下，将本文算法与其余九个的跟踪器 SiamRPN++、
- 28 -
SiamFC++-GoogLeNet、MDNet、Ocean、Atom、Dimp、DaSiamRPN、SiamRPN、SiamFC
进行对比分析。算法在 OTB100 上的实验结果表现如表 3-1 所示。
表 3-1 OTB100 测试平台下各个算法的平均精度和平均成功率
跟踪算法成功率精确度
SiamRPN 0.629 0.847
SiamRPN++ 0.695 0.905
SiamFC 0.587 0.772
DaSiamRPN 0.655 0.873
Dimp 0.660 0.839
Atom 0.662 0.845
Ocean 0.671 0.899
MDNet 0.678 0.909
SiamFC++-GoogLeNet 0.689 0.890
Ours 0.701 0.905
由表 3-1 中可知，本章算法性能上较其它的跟踪器具有较强的竞争力，在精确度
和成功率分别位于第二和第一的位置。对比基准算法 SiamFC++-GoogLeNet，本章算
法的成功率提升了 1.2%，精确度提高了 1.5%，这体现了本文算法的有效性。
OTB100 测试平台下算法 SiamRPN++、SiamFC++-GoogLeNet、MDNet、Ocean、
Atom、Dimp、DaSiamRPN、SiamRPN、SiamFC、ours 的平均精度与平均成功率曲线
如图 3-6 所示。
图 3-6 OTB100 测试平台下不同算法的成功率和精确度对比图
由成功率曲线和精确度曲线图可以看出，与其它先进的算法相比，本章算法取得
了较好的跟踪结果，改进的算法成功率可以达到 70.1%，精确度达到 90.5%。
- 29 -
a) 尺度变化
b) 干扰物遮挡
c) 超出视野
- 30 -
d) 光照变化
图 3-7 OTB100 测试平台下不同算法的各种挑战成功率和精确度对比图
OTB100 测试平台包含了尺度变化、干扰物遮挡、超出视野、光照变化等跟踪难
点，我们通过定性分析算法在各种难点下的跟踪效果，证实了本章所提出的模板池更
新模块和特征融合的有效性。各种跟踪挑战下的成功率与精确度曲线如图 3-7 所示，
在尺度变化、干扰物遮挡等情况下，本文算法跟踪效果表现良好，当尺度变化时，较
SiamFC++-GoogLeNet 算法成功率提升 0.7%，精确度提升 0.9%；当发生干扰物遮挡
时，较 SiamFC++-GoogLeNet 算法成功率提升 1.6%，精确度提升 1.8%；当发生干扰
物遮挡时，较 SiamFC++-GoogLeNet 算法成功率提升 4.5%，精确度 5.7%；当发生干
扰物遮挡时，较 SiamFC++-GoogLeNet 算法成功率提升 3.6%，精确度提升 4.7%。
为了更加具体的分析本章算法的跟踪效果，从 OTB100 数据集上选取一些较为
经典的视频序列进行可视化对比。本文选取 Basketball（篮球）、Ironman（钢铁侠）
、
Liquor（酒）、Matrix（矩阵）四个视频序列，它们体现出了视频目标跟踪的一些经典
的挑战，分别是相似物遮挡、形变、快速运动等。Basketball 视频序列主要是挑战是
目标发生相似物干扰和快速移动；Ironman 视频序列主要挑战是尺度变化和光照变化；
Liquor 视频序列主要挑战是相似物遮挡和干扰以及快速移动；Matrix 视频序列主要
挑战是相似物干扰和快速移动以及光照变化。图 3-8 展示了 SiamFC++-GoogLeNet、
Dimp、SiamRPN 与 ours 四种算法的可视化对比。视频序列的第 507 帧，在面对相似
性干扰和目标遮挡挑战时， Dimp 、 SiamRPN 都跟丢了目标，但是 SiamFC++-
GoogLeNet 和本章算法并没有发生目标偏移的情况，Ironman 视频序列的第 24 帧，
SiamFC++-GoogLeNet 和 Dimp 面对光照化时发生目标丢失，Liquor 视频序列在第
1105 帧时，其余三种算法均丢失了被跟踪目标，Matrix 视频序列在第 647 帧，其它
- 31 -
跟踪器均未跟上目标，面对相似物干扰以及遮挡这些挑战，孪生网络跟踪器不能很好
的应对，这是孪生网络目标跟踪算法的一个通病，本章算法提出的模板池更新模块采
用了 APCE 多峰值检测，可以有效的抑制这种情况，在具有干扰物或者目标遮挡时，
APCE 值会发生剧烈变化，通过监测 APCE 的变化抖动情况，来判断当前模板是否需
要更新，保证模板池不受污染的同时，还在不断的适应目标在跟踪过程发生的变化，
这样可以在目标再次出现在视野时可以及时的找到。当目标发生剧烈形变时，本章提
出的跟踪器的跟踪效果明显优于其他三种算法，其他三种跟踪器都是使用第一帧作
为模板帧与后续搜索帧的目标进行匹配，这样没有变化的模板帧很难适应在跟踪过
程中的目标变化，一般来说，视频序列越长，目标发生形变的概率越大，本章提出的
跟踪器采用模板池更新的方法效果会越明显。从这些视频的可视化结果来看，本章算
法可以有效的应对目标形变、相似物干扰以及光照变化等挑战。
#0041 #0507 #0674
a) 篮球
#0014 #0024 #0161
b) 钢铁侠
#0086 #0357 #1105
c) 酒
- 32 -
#0006 #0012 #0674

Trans
d) 矩阵
GroundTruth ours Dimp SiamFC++-GoogLeNet SiamRPN
图 3-8 不同算法在 OTB100 测试平台的可视化跟踪结果
VOT 是视频目标跟踪领域非常经典的数据集，这个系列自从在 2013 年被提出

以来，基本上会被研究人员用来评测自己跟踪器的性能，其中 VOT2018 是这一系列
中最常用的。如表 3-2 所示，将本文提出的算法与 SiamFC、UpdateNet、ECO、SiamRPN、
ATOM、DIMP、SiamFC++-AlexNet、SiamFC++-GoogLeNet、DaSiamRPN、SiamRPN++
十种跟踪器相比较。
表 3-2 VOT2018 测试平台下各个算法的性能

跟踪算法准确性⬆ 鲁棒性⬇ 平均重叠率⬆
SiamFC 0.530 0.688 0.169
UpdateNet 0.581 0.454 0.244
ECO 0.480 0.270 0.280
SiamRPN 0.586 0.276 0.280
ATOM 0.590 0.204 0.401
DIMP 0.597 0.153 0.440
SiamFC++_AlexNet 0.576 0.183 0.393
SiamFC++_GoogleNet 0.581 0.169 0.428
DaSiamRPN 0.601 0.22 0.411
SiamRPN++ 0.600 0.234 0.414
ours 0.586 0.140 0.454
本章所提出的算法在 VOT2018 数据上的表现优秀，整体性能在众多的跟踪器中

也具有很强的竞争力，其中在准确性(Accuracy)方面虽然不是最高的，但是鲁棒性
(Robustness)和平均重叠率(EAO)两个指标表现均为第一，在跟踪器的稳定性上占据
很大优势，充分说明本文算法在应对目标变形、遮挡等挑战时能够取得很好的效果，
所提出的算法相较于基准算法 SiamFC++-GoogLeNet 在 EAO 值上提升了 2.6%，在
Robustness 表示跟踪目标失败的概率，数值越小，代表着跟踪器稳定性越好，它的数
- 33 -
值由 0.169 降到了 0.140，表明改进的后的算法综合性能提升较大，跟踪器也更加鲁

棒。
3.5.4 消融实验
为了评估模板池更新模块和特征融合模块的有效性，由于本章主要是对跟踪器鲁
棒性能进行提升，因此使用 VOT2018 设置了四组对比实验，本文算法是基于
GoogleNet 的 SiamFC++算法进行改进，分别单独测试了使用模板池更新模块(TPUM)，
使用特征融合模块(FCM)以及使用模板池更新和特征融合模块,结果如表 3-3 所示。
表 3-3 VOT2018 测试平台消融实验

TPUM FCM 准确性⬆ 鲁棒性⬇ 平均重叠率⬆
① × × 0.581 0.169 0.428
② √ × 0.588 0.159 0.439
③ × √ 0.585 0.168 0.434
④ √ √ 0.586 0.140 0.454
在未加入模板池更新模块、特征融合模块时，算法的平均重叠率为 0.428，当只
添加模板池更新模块时，算法的平均重叠率为 0.439，提高 1.1%，当只添加特征融合
模块时，算法的平均重叠率为 0.434，提高了 0.6%，当同时添加使用模板池更新和特
征融合模块模板的平均重叠率为 0.454，提高了 2.6%，其余的两个指标准确率和鲁棒
性分别提升了 0.5%、2.9%，速度指标为每一秒处理视频的帧数 FPS(Frames Per Second)，
在线跟踪的速度可以达到 26FPS，满足实时性要求。
3.6 本章小结
本章提出的算法在 SiamFC++基础上添加模板池更新模块和特征融合模块，解决
了视频目标跟踪过程中目标遇到遮挡、相似物干扰、形变导致目标漂移的问题，改善
了因网络提取特征导致目标特征部分丢失的情况，本文研究表明了基于孪生网络的
目标跟踪算法是可以通过对改善特征提取和模板优化从而达到提高跟踪器性能的目
的。
- 34 -
第 4 章基于分类回归互链策略的目标跟踪算法
4.1 引言
第三章主要是针对跟踪器的鲁棒性进行改进，本章针对跟踪器的精度进行改进。
针对孪生网络的分类和回归分支结果不一致性问题，提出了分类回归互链策略，让分
类损失和回归损失进行同步优化；针对骨干网络提取目标特征的过程中，忽视了通道
信息之间和位置信息之间的交互，导致网络无法更好的关注目标本身，基于此，提出
了混合注意力机制，将通道注意力和轻量化的空间注意力结合起来，使得重要的通道
和位置获得更大的权重，最终达到提高跟踪器性能的效果。在 OTB100 和 VOT2018
数据结果表明了算法的有效性。
4.2 基于分类与回归互链策略的目标跟踪算法
目前孪生网络都是将分类分支和回归分支分开优化，这样的做法导致分类和回
归的信息并不同步，常常出现分类和回归结果不一致的情况。本章是在 Anchor-Free
的基础上将分类与回归互相链接起来，使得分类和回归同步优化，最终的输出的目标
边界框与分类得分达到一致性。
4.2.1 Anchor-Free 目标跟踪

在模板帧和搜索帧做了相关之后设计了分类头和回归头，分类分支的特征图为
Fi  RCH W ，分类分支的特征图 Fi 中的像素点坐标为  x, y  ，这里设 s 为整个网络的总
步长，本文算法将其设置为 s  8 。在回归分支上将特征图内的正样本像素映射到原图
的位置是   s / 2  xs,  s / 2  ys  ，设原图目标的左上角坐标和有下角坐标分别为
 x0 , y0  和  x1 , y1  ，回归网络预测的是目标到真实目标框四条边的距离，运用一个四维
向量表示 t  x,y    l  ,t  ,r  ,b  ，回归中预测的每个参数可以如(4-1)、式(4-2)所示：
s  s 
l       xs   x0 ,t       ys   y0 (4-1)
 2   2 
s  s 
r   x1      xs  ,b  y1      ys  (4-2)
 2   2 
本文是将特征图中映射到原图，落在真实边界框中的点全部当作样本来进行训
练，预测的是到真实目标框的四条边的距离，而不是像 SiamRPN 算法预设了锚框，
这样减少了大概五倍左右的参数量，逐像素的预测只需要执行一遍就可以确定目标
- 35 -
在哪个像素点上，而不需要来回进行预测，这样不会产生像带锚框算法的歧义现象。
4.2.2 分类与回归结果不一致性
目前来说大部分的孪生网络都是将分类分支和回归分支分开单独优化，这样容
易出现一个问题，如图 4-1 所示，回归分支和分类分支彼此之间的信息不互通，那么
就出现分类得分高但是预测的目标框比较差情况，如红色方框，或者得分比较低但预
测目标框却是最好的情况，如绿色方框，这些情况都不是算法想要的，算法需要的是
分类得分与预测框的结果一致，那么仅靠分类分支还不够，则需要用其它的分支来辅
助。
GT IOU:0.4
Cls Score:0.96
GT IOU:0.3 Tracking Score:0.65
Cls Score:0.8
Tracking Score:0.65
GT IOU:0.8
Cls Score:0.6 GT IOU:0.9
Tracking Score:0.75 Cls Score:0.8
Tracking Score:0.83
图 4-1 分类与回归结果不一致性示意图
Ocean 算法提出了一个目标感知模块来增强分类置信度的准确性，但是仅仅通过
定位精度的结果来影响分类的结果，在训练的过程中分类分支并没有对回归分支产
生影响，这样的处理方式会产生高质量的目标框而分类得分却依然很低的情况，无法
保证精度输出的一致性，虽然在一定的程度上缓解了这种分类得分和预测目标框不
匹配的问题，但还是没有从根本上去解决。SiamFC++算法采用检测领域 FCOS 算法
的输出头部，在分类分支加入一个质量评估分支，这个分支类似于在分类得分图上撒
上高斯分布的点，本质上是更加相信靠近目标中心的像素点，这样虽然比直接使用分
类得分的情况要好，但是仍然没有解决上述无法保证精度输出的一致性的问题。
ATOM/Dimp 系列的算法运用 IoUNet 网络来进行辅助分类，但是这种做法与 Ocean
算法一致，定位精度无法改善。无论是 Ocean 算法还是 SiamFC++算法都没办法彻底
解决目标分类得分和目标预测框输出相匹配的问题，究其原因是它们都只起单向作
用。分类置信度与定位精度没有很好的相关性，上述仅仅靠建立一个分支效果也是有
限的，那么可以在训练阶段让分类和回归建立双向链接，这样分类和回归就可以产生
较强的相关性，也能保证输出结果的一致性，本章提出的训练阶段算法框架如图 4-2
- 36 -
所示。
127 17
Focal Loss
17
1
127
17
3 BEC Loss
Template image 117
303 17
BEC Loss
17
1
303 17
IOU Loss
3
Search image 17
4
图 4-2 训练阶段的算法框架
在训练阶段如图 4-2 所示，输入图像经过骨干网络提取之后，将分别得到的两个

特征图输入到分类分支和回归分支，分类分支经过卷积层之后得到两个输出头：分类
得分、质量评估，回归分支经过卷积层之后得到两个输出头：定位分支、目标框估计。
质量评估分支主要是对分类得分进行一个评估，让可能是正样本的分类得分尽可能
高一些。首先将分类得分分支和中心质量评估分支进行相乘，然后将得到的结果与回
归分支相乘，这样可以帮助得到更加精确的目标框，反过来将回归损失与分类损失相
链接，辅助分类得分更加可靠，最终让分类得分与目标边界框的结果相匹配。
4.2.3 分类回归互链策略
目前的孪生网络目标跟踪器主要还是将回归分支和分类分支分开优化，这样就
出现了分类置信度与定位精度不匹配的现象，实际上我们跟踪器要达到的效果就是
当分类得分比较低的时候，回归的边界框即使精确也没有任何意义，因为算法不会选
择这个精确的目标框，当一个回归目标框精度比较低的时候，相应的分类得分不应该
很高。本章提出分类与回归互链策略来解决这个分类得分与回归边界框的结果不一
致性，分类与回归互链策略就是将分类分支和回归分支互为补充，达到共同优化的目
的。
(1) 回归辅助链接
这种方式的链接主要是来压制那些回归目标框精度低但分类得分较高的现象，
通过直接将定位精度与分类像关联的这种显示方式，简单但却高效，将定位精度可以
- 37 -
看作一种变化的权重去与分类损失相乘，此时的分类损失如下：
 LFocal  px,ycls ,c*x,y * IoU  Bx,y ,B*x,y * px,yqua

1
Lcls  (4-3)
N pos x,y
其中， LFocal 表示的是焦点损失， p xcls,y 表示分类置信度分数， c*x ,y 表示的是当 c*x ,y

等于 1 时表示这个样本时正样本，需要进行计算， N pos 表示的是正样本的数量， Bx ,y
表示真实目标框， B*x ,y 表示预测框， LBCE 表示二元交叉熵损失， p xqua
,y 表示中心质量评
估置信度分数， IoU 表示预测框与真实框的交并比，计算公式如下：

Inter section  Bx ,y ,B*x ,y 
IoU  (4-4)
Union  Bx ,y ,B*x ,y 
(2) 分类辅助链接
为了消除那些分类得分比较低的位置获得高质量的回归预测框，通过分类分支
来辅助回归分支，使得回归分支更加的关注那些分类得分较高的位置，然后可以将
,y 和 p x ,y 当作回归的动态权重，这时的回归损失如式(4-5)。
p xqua cls
Lreg 
1

N pos x,y  x ,y   
 c* 1 LIoU t x,y  ,t*x,y  * pclsx,y  * px,y
qua
(4-5)
其中， Lreg 表示回归损失函数， LIoU 表示 IoU 损失，  c* 表示指示函数，如果

 
x ,y 1
该样本为真，则进行计算，否则不进行计算，当一个样本是负样本时，回归的目标边
界框即使精确也没有意义， t*x,y  表示的是预测的这四个参数  l  ,t  ,r  ,b  。
(3) 中心质量评估分支
目前很多跟踪算法没有考虑目标状态估计质量，而是运用分类得分直接选择目
标边界框，这样的简单做法不可避免地会降低定位精度，想得到更好的分类得分就需
要对目标可能的分布情况进行研究，有数据表明在搜索区域中心周围的那些像素对
应的输出特征像素，它们的重要性要超过其它位置的像素，换句话说这些区域的样本
是目标的可能性也比较大，那么就可以根据这种情况来添加一个分支来进行辅助分
类，通过在分类卷积层的并行部分添加一个卷积分类头生成一个质量评估得分图，输
出的质量评估得分计算方式为 PSS(Prior Spatial Score)，具体的定义为：
min  l* ,r*  min  t* ,b* 
PSS *
 (4-6)
max  l* ,r*  max  t* ,b* 
上面式子不是唯一的评估方式，但是这个式子比较简单，利于计算，其中
l 
,t  ,r  ,b  这四个参数代表偏移像素点的距离，具体的质量评估分支的损失为：
- 38 -
LBCE  px,y ,PSS * 

1
Lqua 
N pos
 
x,y

c*x ,y 1
loc
(4-7)
(4) 定位评估分支
在训练期间，当回归分支在辅助分类分支时，分类分支能够感知到定位的精度，
主要时在训练的时候提供真实边界框的数据，使得能够及时地计算出位置的精度，但
是在推理阶段时并不提供真实边界框的数据，那么就需要有个分支来指导分类分支
进行目标分类，以达到训练阶段和推理阶段保持一致，否则只使用分类得分直接选择
目标边界框，结果仍然会出现一定的偏差，在回归分支上添加一个定位评估分支，对
定位精度进行一个评分，使得这个分支在推理阶段代替训练期间回归分支辅助分类
分支的作用，这个定位评估分支的损失函数计算为：
Lloc 
1
  * LBCE px,yloc ,IoU  Bx,y ,B*x,y 
N pos x,y cx ,y 1
  (4-8)
如图 4-3 所示，能够更好的理解训练阶段和测试阶段的不同，在训练阶段定位分
支并不对分类分支起作用，只有到推理阶段的时候，首先质量评估分支的得分与分类
分支获得的分数进行相乘，然后得到的结果与定位评估分支进行相乘，这样最终就对
分类得分进行了一个重新排序，得出的最终得分很好的抑制了低质量的目标边界框，
使得分类与回归结果具有一致性。
17
17
1
17
17
1
17
17
1
17
17
4
Re g  l ,t* ,r* ,b* 
*
图 4-3 推理阶段示意图
(5) 整体目标函数
本章算法设计一共有四个输出头，将这四个输出头的损失关联起来得到最终的
训练损失函数如下：
L  Lcls  1 * Lreg  2 * Lloc  3 * Lqua (4-9)
- 39 -
其中 Lcls 表示焦点损失， Lreg 表示 IoU 损失， Lloc 表示定位评估分支损失， Lqua 表

示中心质量评估损失，其中 1 、 2 和 3 三个超参数是为了平衡四个损失，在此算法
中将它们统一都设置为 1。
4.3 混合注意力机制模块
计算机视觉主要是模仿人类视觉系统的处理信息机制，当人类在观察周围场景
的时候，有时会特别关注感兴趣的区域，这样的发现使得研究人员都在探索一种有效
的策略令网络更加关注有用的目标特征。在深度学习领域，在卷积层提取目标特征的
过程中，特征图在卷积和池化的操作下不断的缩小，每一个神经元的视野也会变得越
来越大，所以神经元之间的质量差距也变得越来越受关注，如果能够提取重要的神经
元，抑制不重要的神经元，那么模型会变得更加鲁棒，在骨干网络提取特征图的时候，
输出的特征图通道也会变得越来越深，所以通道之间的重要性也需要得到关注。为了
进一步提高算法的精度，本章提出融合注意力机制模块来解决这个问题。
4.3.1 传统注意力机制
传统注意力机制如图 4-4 所示，通过全局平均池化来对输入特征图的空间特征上
进行降维，将特征图缩减到 1  1 大小，如式(4-10)，然后经过两个全连接层和一个
ReLU 激活函数来建立通道之间的链接，计算过程如(4-11)所示。
H W
1
zc  
H  W i 1 j 1
xc  i, j  (4-10)
 

z  T2 Re LU T1  z   (4-11)
Input
H
W
C
FC RuLE FC
H
W
C
Output
图 4-4 注意力机制
- 40 -
其中输入特征图表示为 R C  H W ，xc  i, j  表示每个通道中的空间像素值，ReLU 表

示的是一个非线性激活函数，它能提高模型的表达能力，而且计算量小，而第一次全
连接时减少特征维度，然后经过 ReLU 激活函数之后通过第二次全连接进行通道的
升维，这样通道之间完成了关联。第二个全链接层之后得到的大小为 C 11 ,但是其
中的值大小是在 0 到 255 之间，要将数值当中一个权重来用，为了将其值域控制在
小于 1 的数值，这就可以通过 Sigmoid 激活函数来完成，它的函数值域为 0 到 1，满
足权重值在合适的范围内的需求，并且其也是非线性的，最后将得到权重值与输入的
特征图进行逐通道的点乘，如下式：


X  X   z  (4-12)
 
4.3.2 通道注意力模块
骨干网络提取的特征图，都是在局部上产生作用，通道之间的联系信息并没有被
很好的利用起来，一般做法是将每个通道分配相同的权重，这样的等权重分配方式不
能够区分通道之间的差异性，所以提出了通道注意力模块来解决这个通道问题，传统
的方式是采用全局平均池化的方式来对特征维度进行压缩，这样单一的池化方式获
得的池化信息也是有限的，通常一个特征图的最大值也是值得关注的，对此，本文采
用的是添加一个全局最大池化方式来补充全局平均池化的不足，通过这两个池化方
式进行并行处理，获取丰富的池化信息，更有利于提高通道之间的区分度。
图 4-5 通道注意力模块
本章提出的通道注意力模块如图 4-5 所示，首先是将尺寸大小为  C,W ,H  的特

征图通过 1  1 大小的全局平均池化和 1  1 大小的全局最大池化进行特征维度压缩，提
取每个通道的信息，得到尺寸大小为 C 11 的特征图，然后送入多层感知器(MLP),
它由两个全连接层和一个激活函数组成，其第一个全连接层进行通道压缩，第二个全
连接层进行通道升维，使最终输出得到的特征图通道大小不变，最后通过 Sigmoid 激
- 41 -
活函数把权值大小都控制在小于 1 的范围内，具体过程如下式：
CA  n1 ,n2     f 2  f1n1      f 2  f1n2   (4-13)
其中 n1 和 n2 分别表示最大池化和平均池化， f1 表示第一个全连接层， f 2 表示第
二个全连接层，  表示 RuLU 激活函数，  表示 Sigmoid 激活函数。
4.3.3 轻量化空间注意力模块
在图像处理过程中，特征图中每个位置的重要性是不同的，为了让算法更加关注
有用的目标位置特征，可以使用空间注意力模块来提高有用特征的权重。一般的空间
注意力机制是由两个池化方式来进行操作，如图 4-6 所示，先将输入的特征图经过两
个池化操作进行压缩特征，得到两个大小为 1W  H 的特征图，然后将它们拼接在一
起得到一个尺寸为 2 W  H 的特征图，然后经过一个 7  7 大小的卷积核对通道进行
压缩，要保持特征图分辨率不变，所以有一个填充操作，最后将得到的特征图通过
Sigmoid 激活函数进行权值大小控制，具体过程如式(4-14)。
SA  m1 ,m2     conv  m1 m2   (4-14)
H H H
MaxPool Conv
H
AvgPool
W W
W W
C 1
2 1
图 4-6 传统空间注意力
其中 SA 表示位置注意力， m1 和 m2 分别表示两个池化的结果，表示特征图拼
接操作， conv 表示一个 7  7 大小的卷积层，  表示的是 Sigmoid 激活函数。
本章提出的空间注意力机制与上述方式不同，没有经过池化操作，而是先采用一
个卷积层对输入特征图进行通道压缩，然后采用两个一维的非对称卷积核对通道进
一步压缩，非对称卷积的优势是在不改变感受野大小的情况下，减少计算量，使得网
络模型变得更加轻量化。空间注意力模块如图 4-7 所示。
conv conv conv

conv H
H 3 1 H 1 3 H 11 H
H 1 1 W
W W W W W
C/r C/r C/r 1 1
C
图 4-7 轻量化空间注意力模块
- 42 -
轻量化的空间注意力具体实现过程如下：将输入尺寸大小为  C,W ,H  的特征图

通过大小为 1  1 的卷积层进行对通道的压缩，减少计算的参数量，也使得空间信息更
加的突出，然后将得到的特征图通过大小为 1 3 的非对称卷积和大小为 3 1 的非对称
卷积，进一步对通道进行压缩，一个 1 3 非对称卷积核和一个 3 1 非对称卷积核它们
结合起来作用相当于 3  3 卷积核，将最后的到的 1W  H 特征图通过 Sigmoid 激活
函数得到最终的空间特征权重值，具体过程如式(4-15)。
 
SA1   conv13 conv31  conv11  F    (4-15)
其中 SA1 表示轻量化空间注意力， conv11 表示 1  1 的卷积操作， conv31 表示 3 1

的卷积操作， conv13 表示 1 3 的卷积操作，  表示激活函数。
4.3.4 改进后的混合注意力模块
一般来说模板帧提取的特征区分度高，那么模型的精度就会提高，可以采用注意
力机制模块提高特征图中包含的特征区分度。在本章中采用全局平均池化和全局最
大池化相结合来进行通道注意力模块进行构建，空间注意力模块采用非对称卷积的
方式对通道维度进行压缩来构建轻量化的空间注意力模块，然后将通道和空间注意
力共同组成混合注意力模块，最终形成一个 3D 的注意力特征图，改进的混合注意力
结构如图 4-8 所示，通道注意力模块和空间注意模块分开并行运算，可以提高效率，
在空间注意模块中将一个 3  3 的卷积分解成两个 1 3 和 3 1 的非对称卷积，减少了混
合注意力模块中的参数量，保证的算法的实时性，此外，还增加传统方形的卷积核中
心点位置的权重，两个十字交叉的像素点往往更加重要。
conv conv conv conv H

H 3 1
1 1 1 3 11
W W
C C/r C/r C/r 1
H
H
W
C
C W C×1×1 C×1×1
H
RuLU C×1×1
C W FC FC
C×1×1 C×1×1
图 4-8 改进后的混合注意力结构
- 43 -
如图 4-8 所示，具体过程为：先将经过骨干网络提取得到的特征图，将其分别输
入到通道注意力模块和空间注意力模块当中，经过通道注意力模块提取的是一个
C 11大小的特征图,经过空间注意力模块提取的是一个 1W  H 大小的特征图，它
们的形状明显不一致，这时就需要借助广播机制，将它们扩展到 C W  H ，然后将
它们融合到一起，最后经过 Sigmoid 激活函数得到一个 3D 的注意力特征图，注意力
特征图与原始特征图对应元素进行点乘，然后将其结果添加到原来的特征图当中进
行重新排列。
4.4 实验结果与分析
本章在 SiamFC++算法的基础上提出将分类分支和回归分支进行链接，回归分支
指导分类结果更加合理，分类分支辅助分类分支精准定位，最终达到分类得分与回归
目标框精度达到一致性，为了让推理阶段与训练阶段保持一致，在回归分支添加一个
定位评估分支，这个分支在推理阶段代替回归分支对分类分支进行辅助；此外，本章
提出混合注意力机制模块，对骨干网络输出的特征图的通道和位置进行重新分配权
重，抑制干扰信息，提高模型的表征能力，还在空间注意力当中嵌入非对称卷积，减
少参数量，保证跟踪器的实时性，本章算法在 OTB2015、VOT2018 数据集上分别进
行实验与分析来验证算法的有效性。
4.4.1 实验环境
本文算法均在容天(omnisky)工作站上进行，工作站装有一张 RTX 2080Ti GPU,

使用 Docker 容器进行环境配置和实验操作，操作系统为 64 位的 Ubuntu16.04，采用
python3.6+pytorch1.1 编程框架上验证算法的性能。
4.4.2 参数设置
本章算法采用 ImagNet 预训练的 GoogLeNet 模型，训练阶段使用的训练集有

TrackingNet、COCO、GOT10k、LaSOT、ImageNet。整体训练策略：本文算法使用随
机梯度下降(SGD)来进行训练，总共训练出 20 个 epoch，其中前面 5 个 epoch 使用学
习率 0.000001 到 0.08，后面 15 个 epoch 学习率从 0.08 衰减到 0.000001。权重衰减
设置为 0.0001，动量设置为 0.9。
4.4.3 实验结果对比分析
为了更好的验证本章所提出算法的综合性能，使用 OTB2015 和 VOT2018 两个
- 44 -
数据集进行评测，利用一次性通过的评估方法，除了对比基础算法 SiamFC++之外，
还对比了一些目前比较先进的算法。
表 4-1 OTB100 测试平台下各个算法的平均成功率和平均精度

跟踪算法成功率精度
SiamRPN 0.629 0.847
SiamRPN++ 0.695 0.905
SiamFC 0.587 0.772
DaSiamRPN 0.655 0.873
Dimp 0.660 0.839
Atom 0.662 0.845
Ocean 0.671 0.899
MDNet 0.678 0.909
SiamFC++-GoogLeNet 0.689 0.890
Ours 0.702 0.906
在测试平台相同的情况下，将本文算法与其余九个跟踪器 SiamRPN++ 、
SiamFC++-GoogLeNet、MDNet、Ocean、Atom、Dimp、DaSiamRPN、SiamRPN、SiamFC
进行对比分析。算法在 OTB100 上采用精确度(Precision)和成功率(Success)两个评价
指标对本章算法进行性能测试。成功率和精确度表现如表 4-1 所示。
由表 4-1 中可知，本文算法性能上较其它的跟踪器具有较强的竞争力，在精确度
和成功率分别位于第二和第一的位置，其中精确率对比基准算法 SiamFC++-
GoogLeNet 成功率提升了 1.3%，精确度提高了 1.6%，精确度的大幅度提高表明了本
章算法在解决分类与回归结果不一致性有很好的效果。OTB100 测试平台下算法
SiamRPN++、SiamFC++-GoogLeNet、MDNet、Ocean、Atom、Dimp、DaSiamRPN、
SiamRPN、SiamFC、ours 的平均精度与平均成功率曲线如图 4-9 所示。
图 4-9 OTB100 测试平台下不同算法的成功率和精确度对比图

- 45 -
改进的算法成功率可以达到 70.2%，精确度达到 90.6%，虽然精度没有达到最高

值，但是成功率却是所有算法中最高的。
OTB100 测试平台包含了尺度变化、干扰物遮挡、超出视野、光照变化等跟踪难
点，我们通过定性分析算法在各种难点下的跟踪效果，证实了本章所提出的模板池更
新模块和特征融合的有效性。各种跟踪挑战下的成功率与精确度曲线如图 4-10 所示，
在形变、尺度变化、干扰物遮挡等情况下，本章算法跟踪效果表现良好，当目标变形
时，本章算法较 SiamFC++-GoogLeNet 算法成功率提升 1.1%，精确度提升 1.7%；当
目标发生运动模糊时，本章算法较 SiamFC++-GoogLeNet 算法成功率提升 1.9%，精
确度提升 2%；当目标发生尺度变化时，本章算法较 SiamFC++-GoogLeNet 算法成功
率提升 0.2%，精确度提升 0.2%；当目标发生干扰物遮挡时，本章算法较 SiamFC++-
GoogLeNet 算法成功率提升 1.7%，精确度提升 2%。
a) 形变
b) 运动模糊
- 46 -
c) 尺度变化
d) 相似物遮挡
图 4-10 OTB100 测试平台下不同算法的各种挑战成功率和精确度对比图
为了更加具体的分析本章算法的跟踪效果，从 OTB100 数据集上选取一些较为

经典的视频序列进行可视化对比。本文选取 Bird2（鸟）、Deer（鹿）、Board（电路板）、
Trans（机器人）四个视频序列，它们体现出了视频目标跟踪的一些经典的挑战，分
别是相似物遮挡、形变、尺度变化等。Bird2 视频序列主要是挑战是目标发生遮挡和
变形；Deer 视频序列主要挑战是快速移动；Board 视频序列主要挑战是背景杂波和运
动模糊；Trans 视频序列主要挑战是尺度及光照变化。
#0005 #0011 #0062
a) 鸟
- 47 -
第四章
#0038 #0038 #0049

#0019 #0072
b) 鹿
#0015 #0105 #0256
c) 电路板
#0019 #0072 #0091
Trans
d) 机器人
GroundTruth ours Dimp SiamFC++-GoogLeNet SiamRPN
图 4-11 不同算法在 OTB100 测试平台的可视化跟踪结果
如图 4-11 展示了 SiamFC++-GoogLeNet、Dimp、SiamRPN 与 ours 四种算法的可
视化对比。Bird2 视频序列的第 62 帧，在面对目标遮挡挑战时，其它三种算法均发
生了跟踪目标精度过低的情况；Deer 视频序列的第 38 帧，在目标快速移动的过程中，
虽然四种算法都成功的跟踪了目标，但是除开本章提出的算法，其它三种算法得到得
边界框夹杂着太多的背景信息；Board 视频序列在第 256 帧，面对干扰时，SiamFC++-
GoogLeNet 跟丢了目标，ours 算法较好的跟上了目标；Trans 视频序列，本章提出的
算法一直都能精确的跟踪到目标，基本上不含背景信息。孪生网络分为两个分支，在
提取目标特征的过程中没有考虑到通道以及空间中的信息联系，导致算法不能很好
的关注到目标，限制了算法精度的提升，另外传统的孪生网络目标跟踪算法是将分类
分支和回归分支分开优化，没有意识到进行信息互通的重要性，往往使分类得分与回
归边界框的质量匹配上。
VOT 是视频目标跟踪领域非常经典的数据集，这个系列自从在 2013 年被提出
以来，基本上会被研究人员用来评测自己跟踪器的性能，其中 VOT2018 是这一系列
- 48 -
中最常用的。VOT2018 包含了 60 个视频序列，它的评价指标主要是包含三个，分别

是准确性(Accuracy)、鲁棒性(Robustness)、平均重叠率(EAO)，这些指标中准确性与
平均重叠率值越高代表跟踪器的性能越高，鲁棒性值越低越好，代表着跟踪器在跟踪
过程中具备良好的性能。
表 4-2 VOT2018 测试平台下各个算法的性能

跟踪算法准确性⬆ 鲁棒性⬇ 平均重叠率⬆
SiamFC 0.530 0.688 0.169
UpdateNet 0.581 0.454 0.244
ECO 0.480 0.270 0.280
SiamRPN 0.586 0.276 0.280
ATOM 0.590 0.204 0.401
DIMP 0.597 0.153 0.440
SiamFC++-AlexNet 0.576 0.183 0.393
SiamFC++-GoogLeNet 0.581 0.169 0.428
DaSiamRPN 0.601 0.22 0.411
SiamRPN++ 0.600 0.234 0.414
Ours 0.589 0.164 0.430
如表 4-2 所示，将本文提出的算法与 SiamFC、UpdateNet、ECO、SiamRPN、

ATOM、DIMP、SiamFC++-AlexNet、SiamFC++-GoogLeNet、DaSiamRPN、SiamRPN++
十种跟踪器相比较，本文跟踪算法在平均重叠率(EAO)指标上表现为第二，鲁棒性也
排在了第二位，在准确性方面也展现了较强的竞争力，由此可以看出，本文所提出的
算法在 VOT2018 数据上的表现优秀，整体性能在众多的跟踪器中具有很强的竞争力。
所提出的算法相较于 SiamFC++-GoogLeNet 在 EAO 值上提升了 0.2%，在 Robustness
值由 0.169 降到了 0.164，效果提升了 0.5%，Accuracy 上提升了 0.8%，改进的后的
算法综合性能提升较大，跟踪器也更加鲁棒。
4.4.4 消融实验
为了评估模板池更新模块和特征融合模块的有效性，由于本章主要是对跟踪器
精确度性能进行提升，因此本文使用 OTB100 设置了四组对比实验,本文算法是基于
GoogleNet 骨干网络的 SiamFC++ 算法，分别单独测试了分类与回归互链策略
Classification Regression Interlinking Strategy(CRIS) 、混合注意力 Mixed Attention
Module(MAM)模块以及同时使用分类与回归相互链接策略和混合注意力模块，结果
- 49 -
如表 4-3 所示。
表 4-3 OTB100 测试平台消融实验
MAM CRIS 成功率精度
① × × 0.689 0.890
② √ × 0.690 0.893
③ × √ 0.694 0.895
④ √ √ 0.702 0.906
在未使用分类与回归互链策略和混合注意力模块，算法成功率为 0.689、精度为
0.890，当只使用 MAM 模块时，算法成功率为 0.690，提高 0.1%，算法精度为 0.893，
提高了 0.3%，当只添加 CRIS 策略时，算法成功率为 0.694，提高 0.5%，算法精度为
0.895，提高了 0.5%，当同时添加使用 MAM 模块和 CRIS 策略时，算法成功率为
0.702，提高 1.3%，算法精度为 0.906，提高了 1.6%。
4.5 本章小结
本章针对基于孪生网络框架的目标跟踪算法将分类和回归分开优化导致出现分
类得分和回归结果不匹配的问题，提出了基于分类与回归双向链接的目标跟踪算法，
使得分类置信度与位置定位相互协助，最终得到的输出结果具有一致性；此外，提出
一种混合注意力策略，使得算法提升对有效的特征关注度更高，更加的能够关注目标
本身，提高在更加复杂的场景下的视频目标跟踪效果。最后将算法在 OTB100 和
VOT2018 测试平台进行测试，对得到的各种曲线图和可视化视频序列进行对比分析，
结果表明本文算法在面对快速移动、目标遮挡等挑战时，精度和鲁棒性均有提高。
- 50 -
结论
结论
计算机视觉在各个领域的应用越来越广泛，视频目标跟踪作为计算机视觉最重
要的研究方向之一，目前面临着诸多挑战，如目标遮挡、背景杂波、相似物干扰、巨
大形变等等，这些挑战限制着目标跟踪技术在实际场景的应用，本文就是针对这些挑
战，在孪生网络目标跟踪框架上进行改进，让跟踪器更加鲁棒精确的跟踪目标。本文
的具体贡献如下：
(1) 提出了一种基于模板池更新和特征融合的目标跟踪算法。目前孪生网络目标
跟踪大多数算法仅用第一帧作为模板帧，预测搜索帧中的目标，这种单一的方式使得
跟踪器无法适应目标遮挡、相似性干扰等挑战，本文提出的模板池更新机制通过构建
一个预存 30 个模板的模板池，这 30 个模板能够充分利用最可靠的第一帧中的各种
信息。此外，提出一个模板准确性和必要性判断机制对模板池进行自适应更新，这个
机制确保每一个加入模板池中的模板都是高置信度的，也保证加入的新模板不会和
模板池中现存的模板有太大的相似性，在 OTB100 数据集和 VOT2018 数据集上都表
现出了出色的性能；此外，针对骨干网络提取之后丢失目标尺度信息的问题，提出一
种特征融合模块，引入三个并行非对称的空洞卷积层，这样的卷积方式既可以减少计
算量，也可以较大范围的捕捉空间信息，提高跟踪器的性能。
(2) 提出了一种基于分类与回归互链策略的目标跟踪算法。为目前孪生网络目标
跟踪的分类得分和回归目标边界框的质量不匹配问题，提出了分类与回归相互链接
策略，分类分支辅助回归分支精确定位，回归分支辅助分类分支提高分类得分的可靠
性，另外，推理阶段添加了一个定位评估分支，代替回归分支对分类分支进行辅助，
使得跟踪器更加精确的跟踪到目标。此外，骨干网络在提取目标特征的时候，没有充
分利用通道信息和空间信息的交互，提出一种混合注意力机制。加入通道注意力和轻
量化空间注意力模块，算法更加关注到目标本身，这样回归的目标质量更高。
(3) 将本文算法在目标跟踪通用基准测试平台进行测试，测试的结果表明本文提
出的算法与其它算法相比，具有很强的竞争力，可视化的结果也显示了本文算法在鲁
棒性和准确率方面有较为理想的提高。
从整体上看，本文提出的算法性能上有较大的提升，但还是有其局限性，在一些
问题上还存在改进的空间，例如：
(1) 算法在目标丢失的时候，虽然再次遇到目标的时候也能再次跟上，但是算法
- 51 -
对于目标丢失和目标彻底遮挡这两种情况无法区分出来，目标彻底遮挡和目标丢失
的不同决定着处理方式的不同，当目标彻底遮挡时，跟踪器可以等待目标再次出现，
当目标发生丢失，可以提高扩大区域搜索，让跟踪器更快地重新跟踪到目标，后期可
以探索如何区分目标丢失和目标彻底遮挡，提高跟踪器的性能。
(2) 现在的孪生网络算法是将模板分支和搜索分支提取的特征图直接做相关，这
样的相关方式容易加入背景信息，可以考虑将提取的特征图进行像素相关，这样能够
很好的过滤掉背景噪声，提高算法的精度。
- 52 -
参考文献
参考文献
[1] Yilmaz A, Javed O, Shah M. Object Tracking: A Survey[J]. Acm Computing Surveys, 2006,
38(4):1-13.
[2] Li X, Hu W, Shen C, et al. A Survey of Appearance Models in Visual Object Tracking[J]. Acm
Transactions on Intelligent Systems & Technology, 2013, 4(4):1-48.
[3] Yi W, Song N, Ke L, et al. Street object detection tracking for AI city traffic analysis[C]// 2017
IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computed, Scalable
Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City
Innovation (SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI). San Francisco, CA, USA.
August, 2018: 1-18.
[4] Zhou H , Gao C , Xu X , et al. A detection and tracking method based on monopulse radar in FSK
mode applied in smart transportation systems[C]// Tencon IEEE Region 10 Conference. Penang,
Malaysia. November, 2017: 366-368.
[5] 郜璐璐. 浅析基于多目标跟踪的医学影像分析[J]. 影像技术, 2014, 26(03): 35-36.
[6] 张彦杰. 目标跟踪精度检测系统的设计与实现[D]. 西安：西安电子科技大学. 2014: 1-78.
[7] 许志刚. 目标跟踪算法研究及其应用[D]. 无锡：江南大学. 2011: 1-61.
[8] Jodoin J P, Bilodeau G A, Saunier N. Urban Tracker: Multiple Object Tracking in Urban Mixed
Traffic[C]//IEEE Winter Conference on Applications of Computer Vision. Steamboat Springs, CO,
USA. March, 2014: 885-892.
[9] Wang Z, Lu M, Yuan X, et al. Visual Traffic Jam Analysis Based on Trajectory Data[J]. IEEE
Transactions on Visualization and Computer Graphics, 2013, 19(12): 2159-2168.
[10] Ciechanowski L, Przegalinska A, Magnuski M, et al. In the Shades of the Uncanny Valley: An
Experimental Study of Human–Chatbot Interaction[J]. Future Generation Computer Systems, 2019,
92: 539-548.
[11] Gillies M. Understanding the Role of Interactive Machine Learning in Movement Interaction
Design[J]. ACM Transactions on Computer-Human Interaction (TOCHI), 2019, 26(1): 1-34.
[12] Vo N, Tran Q, Dinh T B, et al. An Efficient Human-Computer Interaction Framework Using Skin
Color Tracking and Gesture Recognition[C]//2010 IEEE RIVF International Conference on
- 53 -
燕山大学工学硕士学位论文
Computing and Communication Technologies, Research, Innovation, and Vision for the Future.
Hanoi, Vietnam. November, 2010: 1-6.
[13] Anwar S M, Majid M, Qayyum A, et al. Medical image analysis using convolutional neural
networks: a review[J]. Journal of medical systems, 2018, 42(11): 1-13.
[14] Guo Z, Li X, Huang H, et al. Deep learning-based image segmentation on multimodal medical
imaging[J]. IEEE Transactions on Radiation and Plasma Medical Sciences, 2019, 3(2): 162-169.
[15] 孙福权, 丛成龙, 张琨, 等. 基于多模型卷积神经网络的乳腺癌病理医疗图像良恶性诊断[J].
小型微型计算机系统, 2020, 41(4): 732-735.
[16] 崔雨勇. 智能交通监控中运动目标检测与跟踪算法研究[D]. 武汉: 华中科技大学, 2012: 1-5.
[17] 蒋良卫. 图像序列中目标跟踪技术研究[D]. 武汉：华中科技大学. 2013: 1-136.
[18] 朱文青, 刘艳, 卞乐, 等. 基于生成式模型的目标跟踪方法综述[J]. 微处理机. 2017(1): 41-47.
[19] Wang D, Lu H, Xiao Z, et al. Inverse sparse tracker with a locally weighted distance metric[J]. IEEE
Transactions on Image Processing, 2015, 24(9): 2646-2657.
[20] Zhong W, Lu H, Yang M H. Robust object tracking via sparse collaborative appearance model[J].
IEEE Transactions on Image Processing, 2014, 23(5): 2356-2368.
[21] 杨福才, 杨德东, 毛宁, 等.基于稀疏编码直方图的稳健红外目标跟踪[J]. 光学学报, 2017,
37(11): 1-11.
[22] 匡金骏. 基于稀疏表示的图像分类与目标跟踪研究[D]. 重庆；重庆大学, 2013: 1-124.
[23] Xiang Z Y, Cao T Y, Zhang P, et al. Object tracking using probabilistic principal component analysis
based on particle filtering framework[C]//Advanced Materials Research. Trans Tech Publications
Ltd, IEEE. Grenoble, France. August, 2012, 341: 790-797.
[24] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J]. International
journal of computer vision, 2008, 77(1): 125-141.
[25] Xiu C, Wei S, Wan R, et al. CamShift Tracking Method Based on Target Decomposition[J].
Mathematical Problems in Engineering, 2015, 2015(1): 1-20.
[26] Matthews L, Ishikawa T, Baber S. The template update problem[J]. IEEE transactions on pattern
analysis and machine intelligence, 2004, 26(6): 810-815.
[27] Kwon J, Lee K M. Visual tracking decomposition[C]. In Proceedings of IEEE Transactions on
Computer Vision and Pattern Recognition (CVPR), San Francisco, California, USA. June, 2010:
1269-1276.
- 54 -
参考文献
[28] Mei X, Ling H. Robust visual tracking using L1 minimization[C]. In Proceedings of 12th IEEE
International Conference on Computer Vision, Kyoto, 2009: 1436-1443.
[29] Babenko B, Yang M H, Belongie S. Robust object tracking with online multiple instance learning[J].
IEEE transactions on pattern analysis and machine intelligence, 2010, 33(8): 1619-1632.
[30] Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection[J]. IEEE transactions on pattern
analysis and machine intelligence, 2011, 34(7): 1409-1422.
[31] Zhang K, Zhang L, Yang M H. Fast compressive tracking[J]. IEEE transactions on pattern analysis
and machine intelligence, 2014, 36(10): 2002-2015.
[32] 张立朝, 毕笃彦, 查宇飞, 等. 基于二值随机森林的目标跟踪算法[J]. 计算机应用研究, 2014,
31(5): 1571-1573.
[33] Son J, Jung I, Park K, et al. Tracking-by-segmentation with online gradient boosting decision
tree[C]//Proceedings of the IEEE international conference on computer vision. Santiago, Chile.
December, 2015: 3056-3064.
[34] Hare S, Golodetz S, Saffari A, et al. Struck: Structured output tracking with kernels[J]. IEEE
transactions on pattern analysis and machine intelligence, 2015, 38(10): 2096-2109.
[35] 茅正冲, 陈强. 基于 PCA-LDA 与 SVM 的 AGV 多分支路径识别与跟踪[J]. 激光与光电子学
进展, 2018, 55(09): 148-155.
[36] Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation
filters[C]//2010 IEEE computer society conference on computer vision and pattern recognition.
Changsha, China, December, 2010: 2544-2550.
[37] Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by-detection
with kernels[C]//European conference on computer vision. Springer, Berlin, Heidelberg, Florence,
Italy. October, 2012: 702-715.
[38] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J].
IEEE transactions on pattern analysis and machine intelligence, 2014, 37(3): 583-596.
[39] Danelljan M, Häger G, Khan F, et al. Accurate scale estimation for robust visual tracking[C]//British
Machine Vision Conference, Nottingham, September 1-5, 2014. Bmva Press, 2014:1-11.
[40] Danelljan M, Häger G, Khan F S, et al. Discriminative scale space tracking[J]. IEEE transactions
on pattern analysis and machine intelligence, 2016, 39(8): 1561-1575.
- 55 -
[41] Danelljan M, Hager G, Shahbaz Khan F, et al. Learning spatially regularized correlation filters for
visual tracking[C]//Proceedings of the IEEE international conference on computer vision. Santiago,
Chile. December, 2015: 4310-4318.
[42] Danelljan M, Bhat G, Shahbaz Khan F, et al. Eco: Efficient convolution operators for
tracking[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.
Honolulu, HI, USA. July, 2017: 6638-6646.
[43] Li F, Tian C, Zuo W, et al. Learning spatial-temporal regularized correlation filters for visual
tracking[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Salt
Lake City, UT, USA. June, 2018: 4904-4913.
[44] Sun Y, Sun C, Wang D, et al. Roi pooled correlation filters for visual tracking[C]//Proceedings of
the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA .
June, 2019: 5783-5791.
[45] Wang N, Yeung D Y. Learning a deep compact image representation for visual tracking[J]. Advances
in neural information processing systems, 2013: 1-9.
[46] Wang L, Ouyang W, Wang X, et al. Visual tracking with fully convolutional
networks[C]//Proceedings of the IEEE international conference on computer vision. Nice, France ,
October, 2015: 3119-3127.
[47] Nam H, Han B. Learning multi-domain convolutional neural networks for visual
tracking[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Las
Vegas, NV, USA. June, 2016: 4293-4302.
[48] Nam H, Baek M, Han B. Modeling and propagating cnns in a tree structure for visual tracking[J].
arXiv preprint arXiv:1608.07242, 2016: 1-10.
[49] Tao R, Gavves E, Smeulders A W M. Siamese instance search for tracking[C]//Proceedings of the
IEEE conference on computer vision and pattern recognition. Las Vegas, NV, USA. June, 2016:
1420-1429.
[50] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object
tracking[C]//European conference on computer vision. Springer, Cham, Amsterdam, The
Netherlands. March, 2016: 850-865.
- 56 -
参考文献
[51] Li B, Yan J, Wu W, et al. High performance visual tracking with siamese region proposal
network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Salt
Lake City, UT, USA. June, 2018: 8971-8980.
[52] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal
networks[J]. Advances in neural information processing systems, 2015: 1-9.
[53] Zhu Z, Wang Q, Li B, et al. Distractor-aware siamese networks for visual object
tracking[C]//Proceedings of the European conference on computer vision (ECCV).Munich,
Germany. September, 2018: 101-117.
[54] Li B, Wu W, Wang Q, et al. Siamrpn++: Evolution of siamese visual tracking with very deep
networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition. Long Beach, CA, USA. June, 2019: 4282-4291.
[55] Xu Y, Wang Z, Li Z, et al. Siamfc++: Towards robust and accurate visual tracking with target
estimation guidelines[C]//Proceedings of the AAAI Conference on Artificial Intelligence. New York,
USA. February, 2020, 34(07): 12549-12556.
[56] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural
networks[J]. Advances in neural information processing systems, 2012:1-9.
[57] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE
conference on computer vision and pattern recognition. Boston, MA, USA. June, 2015: 1-9.
[58] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the
IEEE conference on computer vision and pattern recognition. Las Vegas, NV, USA. June, 2016:
770-778.
[59] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J].
Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[60] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J].
arXiv preprint arXiv:1409.1556, 2014: 1-14.
[61] Chopra S, Hadsell R, LeCun Y. Learning a similarity metric discriminatively, with application to
face verification[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern
Recognition (CVPR2005). San Diego, CA, USA. June, 2005: 539-546.
- 57 -
[62] Muller M, Bibi A, Giancola S, et al. Trackingnet: A large-scale dataset and benchmark for object
tracking in the wild[C]//Proceedings of the European Conference on Computer Vision (ECCV).
Munich, Germany. September, 2018: 300-317.
[63] Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//European
conference on computer vision. Springer, Cham. Zurich, Switzerland. September, 2014: 740-755.
[64] Huang L, Zhao X, Huang K. Got-10k: A large high-diversity benchmark for generic object tracking
in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 43(5): 1562-
1577.
[65] Fan H, Lin L, Yang F, et al. Lasot: A high-quality benchmark for large-scale single object
tracking[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.
Long Beach, CA, USA. June, 2019: 5374-5383.
[66] Russakovsky O, Deng J, Su H, et al. ImageNet Large Scale Visual Recognition Challenge[J].
International Journal of Computer Vision, 2015, 115(3):211-252.
[67] Kristan M, Leonardis A, Matas J, et al. The sixth visual object tracking vot2018 challenge
results[C]//Proceedings of the European Conference on Computer Vision (ECCV) Workshops.
Munich, Germany. September, 2018: 1-52.
[68] Wu Y, Lim J, Yang M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 2015, 37(9): 1834-1848.
[69] Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional one-stage object detection[C]//Proceedings
of the IEEE/CVF international conference on computer vision. Long Beach, CA, USA. June, 2019:
9627-9636.
[70] Wang Q, Teng Z, Xing J, et al. Learning attentions: residual attentional siamese network for high
performance online visual tracking[C]//Proceedings of the IEEE conference on computer vision and
pattern recognition. Salt Lake City, UT, USA. June, 2018: 4854-4863.
[71] Zhu Z, Wang Q, Li B, et al. Distractor-aware siamese networks for visual object
tracking[C]//Proceedings of the European conference on computer vision (ECCV). Munich,
Germany. September, 2018: 101-117.
[72] Zhang L, Gonzalez-Garcia A, Weijer J, et al. Learning the model update for siamese
trackers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Long
Beach, CA, USA. June, 2019: 4010-4019.
- 58 -
参考文献
[73] Danelljan M, Bhat G, Khan F S, et al. Atom: Accurate tracking by overlap
maximization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition. Long Beach, CA, USA. June, 2019: 4660-4669.
[74] Zhang Z, Peng H, Fu J, et al. Ocean: Object-aware anchor-free tracking[C]//European Conference
on Computer Vision. Springer, Cham. Glasgow UK. March 2020: 771-787.
[75] Bhat G, Danelljan M, Gool L V, et al. Learning discriminative model prediction for
tracking[C]//Proceedings of the IEEE/CVF international conference on computer vision. Long
Beach, CA, USA. June, 2019: 6182-6191.
[76] Guo Q, Feng W, Zhou C, et al. Learning dynamic siamese network for visual object
tracking[C]//Proceedings of the IEEE international conference on computer vision. Venice, Italy.
October, 2017: 1763-1771.
[77] Wang M, Liu Y, Huang Z. Large margin object tracking with circulant feature maps[C]//Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. June,
2017: 4021-4029.
- 59 -
攻读硕士学位期间承担的科研任务与主要成果
(一) 参与的科研项目
[1] 李雅倩.面向遮挡人脸识别的遮挡感知、修复及其可信度评估方法研究，国家自然科学基金资
助项目. 课题编号：62106214
(二) 发表的学术论文
[1] Yaqian Li, Ming Zhao, Cunjun Xiao, Jian Gao. Template pool updating and Feature combination
Object Tracking.（二区，外审中）
(三) 申请及已获得的专利
[1] 李雅倩，赵明，肖存军，李海滨，张文明. 一种基于质量及相似评估在线模板更新的目标跟
踪方法: 中国 CN 114372997A[P].
- 60 -
致谢
致谢
时光荏苒，岁月如梭。三年硕士生涯如白驹过隙，三年里，收获了知识，收获了
友情，提升了发现问题、解决问题的能力，这些都将是我人生中的宝贵财富，在燕山
大学的三年时光里，给我留下了众多美好回忆。
首先，向我的导师李雅倩副教授致以衷心的感谢，本文是在李老师的悉心指导下
完成的。李老师对待学术严谨务实，对待学生悉心关怀，每当在学术研究中遇到问题，
李老师都会耐心指导。感谢课题组李海滨老师、张文明老师，他们在学习与生活中给
予我细致入微的指导与关怀，每次例会老师都会对我们的学术研究给出指导性的意
见，在疫情期间老师们更是对我们的生活给予无私的关怀和照顾，让我真切的感受到
了课题组这个大家庭所带来的温暖，再次感谢三位老师，感谢你们的无私奉献与悉心
指导。感谢课题组的博士师兄师姐。感谢肖存军师兄给予的指导与帮助，在最初步入
课题室时，对课题组的研究方向还不够了解，肖师兄为我们逐一介绍，在课题遇到困
难时，师兄师姐以他们的经验耐心帮我们解决。
感谢课题室的高建、芮峰、张旭耀、陈明宇、刘洋、李默然、张秀菊、周文露、
梁成欣等同学，他们在学术研究上对我有着很大的帮助，日常的互相交流，使我在课
题领域有了更多的进步；感谢我的室友，在生活中有了你们的关照与陪伴，我们的生
活也变得多姿多彩，充满欢声笑语，这段生活时光是我一生中难忘的回忆。
衷心感谢电气工程学院自动化系的全体教师，感谢你们的辛勤培养与教诲，感谢
你们课上耐心授予我们知识，课下组织活动，关心我们生活，有了你们课上的耐心讲
解，从而为我的研究生学习奠定了基础，感谢在我课题答辩、中期答辩给予我宝贵意
见的老师们，有了你们的指导建议，我才能更加明确方向，顺利完成毕业论文。
感谢在这三年默默付出的医护人员，他们给我们带来了良好的学习环境，确保我
们不受疫情的干扰。
感谢钟金玲辅导员，她在生活上给了我很大的帮助，每次遇到困境时，她总能给
予适当的鼓励和帮助。
最后，非常感谢我的爸爸、妈妈，感谢他们的关怀与支持，他们虽然没有高学历、
高收入，但是在教育与生活方面尽心尽力给予了我高出一切的支持与鼓励，他们一直
是我最坚强的后盾，他们的支持与理解一直影响着我，是我前进路上源源不断的动
力。
- 61 -

Master'S Dissertation

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Master'S Dissertation

Uploaded by

Copyright:

Available Formats

硕 士 学 位 论 文

RESEARCH ON OBJECT TRACKING

Supervisor: Associate professor Li Yaqian

作者签字： 日期： 2022 年 6 月 2 日

作者签名： 日期： 2022 年 6 月 2 日

导师签名： 日期： 2022 年 6 月 2 日

a) 智能视频监控 b) 智能交通 c) 航空无人机

d) 工业机器人 e) 人机交互 f) 医学领域

输入图像 收集目标样本 提取特征 建立预测模型 输出预测目标

AlexNet 使用了 ReLU 激活函数增加模型的非线性，有效缓解了模型在训练过程

其中 Incepetion-v1 模块结构如图 2-3 所示。原生的 Inception 结构是对特征同时

1×1 1×1 pool 1×1 1×1 1×1 pool 1×1

a) Inception Module A b) Inception Module B

图 2-4 Incepetion-v3 基本模块结构

基础上将其中两个 3  3 卷积核拆分为 1 3 和 3 1 两个非对称卷积核，作用同样是压缩

Grid Size Reduction Grid Size Reduction

3×Inception Module A 4×Inception Module B 2×Inception Module C

图 2-5 GoogLeNet-v3 整体框架

图 2-6 为残差块的基本结构，输入数据为 X l ，将右边的网络层设为 F  X l  ，残

要是检查输入的两个目标之间的相似度[61]。孪生网络结构如图 2-7 所示。

其中，X 1 和 X 2 表示输入图片，然后经过两个相同的网络 GW  X  进行特征提取，

图 2-8 SiamFC 算法网络框架

255  255  3 20  20  256 k groups

图 2-9 SiamRPN 算法框架

(2) VOT2018 数据集及评价指标

不进行更新 隔帧线性更新 累积更新

其中， A 表示质量评估值，  表示最大得分波动程度的权重参数,  表示多峰值

经过大量实验，本文取   2 ，   3 ， A 设置的阈值为 1.8， A 大于 1.8，认为当

其中，T t 表示当前帧的新模板，T 表示模板池中的模板，S 表示余弦相似性度量

值的集合， cos() 表示余弦相似度计算， i 表示模板池当中的模板下标。经过多次实

本文算法均在容天(omnisky)工作站上进行，工作站装有一张 RTX 2080Ti GPU，

本文算法使用 ImageNet 的预训练权重初始化 GoogleNet 网络，同时冻结了第七

图 3-6 OTB100 测试平台下不同算法的成功率和精确度对比图

图 3-7 OTB100 测试平台下不同算法的各种挑战成功率和精确度对比图

#0041 #0507 #0674

#0014 #0024 #0161

#0086 #0357 #1105

#0006 #0012 #0674

VOT 是视频目标跟踪领域非常经典的数据集，这个系列自从在 2013 年被提出

表 3-2 VOT2018 测试平台下各个算法的性能

本章所提出的算法在 VOT2018 数据上的表现优秀，整体性能在众多的跟踪器中

值由 0.169 降到了 0.140，表明改进的后的算法综合性能提升较大，跟踪器也更加鲁

表 3-3 VOT2018 测试平台消融实验

4.2.1 Anchor-Free 目标跟踪

在训练阶段如图 4-2 所示，输入图像经过骨干网络提取之后，将分别得到的两个

 LFocal  px,ycls ,c*x,y * IoU  Bx,y ,B*x,y * px,yqua

其中， LFocal 表示的是焦点损失， p xcls,y 表示分类置信度分数， c*x ,y 表示的是当 c*x ,y

估置信度分数， IoU 表示预测框与真实框的交并比，计算公式如下：

其中， Lreg 表示回归损失函数， LIoU 表示 IoU 损失，  c* 表示指示函数，如果

LBCE  px,y ,PSS * 

其中 Lcls 表示焦点损失， Lreg 表示 IoU 损失， Lloc 表示定位评估分支损失， Lqua 表

其中输入特征图表示为 R C  H W ，xc  i, j  表示每个通道中的空间像素值，ReLU 表

本章提出的通道注意力模块如图 4-5 所示，首先是将尺寸大小为  C,W ,H  的特

conv conv conv

轻量化的空间注意力具体实现过程如下：将输入尺寸大小为  C,W ,H  的特征图

其中 SA1 表示轻量化空间注意力， conv11 表示 1  1 的卷积操作， conv31 表示 3 1

conv conv conv conv H

本文算法均在容天(omnisky)工作站上进行，工作站装有一张 RTX 2080Ti GPU,

本章算法采用 ImagNet 预训练的 GoogLeNet 模型，训练阶段使用的训练集有

表 4-1 OTB100 测试平台下各个算法的平均成功率和平均精度

图 4-9 OTB100 测试平台下不同算法的成功率和精确度对比图

改进的算法成功率可以达到 70.2%，精确度达到 90.6%，虽然精度没有达到最高

为了更加具体的分析本章算法的跟踪效果，从 OTB100 数据集上选取一些较为

硕士学位论文

作者签字：日期： 2022 年 6 月 2 日

作者签名：日期： 2022 年 6 月 2 日

导师签名：日期： 2022 年 6 月 2 日

输入图像收集目标样本提取特征建立预测模型输出预测目标

不进行更新隔帧线性更新累积更新

 LFocal  px,ycls ,cx,y  IoU  Bx,y ,Bx,y  px,yqua

其中， LFocal 表示的是焦点损失， p xcls,y 表示分类置信度分数， cx ,y 表示的是当 cx ,y