先放一张算法流程图: 代码至2022.05.05暂未released.
Abstract
【注】:本文是由会议论文扩展而来。B. Yan, H. Zhao, D. Wang, H. Lu, and X. Yang, “‘Skimming-perusal’ tracking: A framework for real-time and robust long-term tracking,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 2385–2393.
长时跟踪背景:长时跟踪通常需要跟踪算法在一个局部区域内追踪目标并在整个图像上重检测目标,当前还几乎没有相关的研究工作。
本文做法:本文提出了一个基于局部搜索模块和重检测模块的鲁棒实时的长时跟踪框架。局部搜索模块包含一个目标框回归器去生成众多候选建议框和一个目标验证器去用其置信度分数推理最优候选框。其中,还设计了一个长短时更新策略通过使用不同时间更新的多个模板来提升目标验证器的性能,根据置信度分数就可以判断跟踪对象是否存在在画面中,由此在下一帧中分别选择局部或全局的跟踪策略。全局重检测模块可以估计目标位置和目标尺寸,且众多实验验证了该模块可以灵活地嵌入许多跟踪框架中以提升长期跟踪的性能。
本文性能:在VOT, OxUvA, TLP, LaSOT上进行试验,该算法以实时的速度达到了令人满意的性能。
1. Introduction
目标跟踪背景及难点介绍:目标跟踪是CV中的一项基本任务,在监控,机器人,增强现实和无人机等领域有着众多应用。在线追踪过程中,追踪器需要在一个连续的视频帧中跟随一个任意目标。然而,这个过程面临着众多调整,包括遮挡,光照变换,视点变化、旋转和运动模糊等。
长时跟踪数据集:VOT2018-LT, OxUvA, trackers等 长时跟踪两大特点:1. 长达上千帧的跟踪。如VOT2017中60个视频的平均长度是356帧,VOT2018-LT中35个视频的平均长度是4100帧;2. 目标会频繁消失。如VOT2018-LT中的每个视频平均每个视频中目标会消失12次,而UAV20L的平均消失次数是2。
长时跟踪算法:基于手工特征的长时跟踪算法:TLD, LCT, FuCoLoT, MUSTer, CMT, EBT等,但效果不好。基于深度特征的长时跟踪算法提升了性能,但还没有一个鲁棒且实时的框架。
为什么短期跟踪算法对长期跟踪没用?:长期跟踪时,目标可能会消失一长段时间并以任意尺寸在任意位置重新出现,这违背了短期跟踪中目标移动连续且尺度变化连续的假设。通常来说,一个短期跟踪器在一个局部搜索区域内定位目标,这个搜索区域是在前一帧目标位置附近裁剪而来,也就是说,局部跟踪依赖于前一帧预测的目标位置。因此,短期跟踪算法在长时跟踪中的性能不佳。 尽管有一些长期算法联合带有重检测的短期跟踪器,能在整张图像上搜索,但他们仍然受到不正确尺寸状态的困扰,其中一些还需要增加多尺度搜索策略。
本文贡献:
贡献点 | 内容/作用 |
---|
1. 局部-全局搜索框架 | 局部和全局搜索模块都是离线训练并直接用于跟踪阶段。局部搜索——指导目标框回归并验证;重检测——在整张图像上重检测快速定位目标 | 2. 重检测模块 | 离线训练,能灵活地和短期跟踪器结合 | 3. 长短期更新验证器 | 增强局部搜索,引入了2个额外的模板和一个长短期更新策略 |
1.1 Related Work
一个典型的长期跟踪器包含a tracking component和a re-detection component。
Tracking Component in Long-Term Tracker | Re-detection Component in Long-Term Tracker |
---|
1. TLD:光流匹配算法;相关滤波类方法:Ma等人用KCF执行局部短期跟踪;CSRDCF作为基准追踪器在一个局部搜索区域内定位目标;MUSTer用KCF和DSST执行变换估计和尺度估计;PTAV;2. 深度的方法:Valmadre将SiamFC作为重检测模块;DaSiam_LT联合DaSiamRPN和多尺度搜索;Zhang等人 用MDNet作为验证器去监督siamese追踪器。 | 1. CMT,MUSTer使用传统的关键点匹配用于检测目标;2. FuCoLoT用相关滤波估计目标位置;SiamFC+R在任意区域内训练分数图最大的点。3. 基于区域建议的方法。滑动窗口被广泛应用于重检测阶段。 |
本文提出a skimming module以加速滑窗搜索过程,从上百个滑动窗口中初始化选择几个可能的搜索区域,然后用一个孪生网络跟踪器在这些区域内重新检测目标。还提出一个offline trained re-detection module,在重检测阶段,直接在正在图像上估计目标位置和尺寸。
2. Methods
算法总体流程图:
总体来说,当局部跟踪算法检测到的目标框的置信度分数大于一定阈值,就继续执行局部搜索;否则,计算一个对象性图粗糙定位新的目标区域,再利用局部跟踪算法继续检测目标。
2.5 Implementation Details
名称 | 具体设置 |
---|
base tracker | SiamRPN++ | Backbone | MobileNetV2 for SiamRPN++, ResNet18 for验证模块和重检测模块 | 验证模块 | 使用全连接层将特征图的空间分辨率从块 3 和块 4 下采样到1x1,并将它们连接起来进行最终验证 | 重检测模块 | 2个分支都是一个全局平均池化和1x1卷积,使用1x1卷积和 3x3 卷积将融合特征图的通道维度从1024 减少到 256。 然后用三个转置卷积(4 4,strides 2)来预测对象性图。 | 训练集 | SiamRPN++在COCO, ImageNet DET/VID, YouTube-BB上训练; 验证和重检测模块在LaSOT上训练 |
3. Experiments
NVIDIA RTX2080Ti GPU, 35fps
- Ours: 带有在线更新验证和对象性重检测器
- SPLT:带有离线验证器和skimming(滑窗)模块
3.1 Results on the VOT2018/2019-LT Datasets
长时跟踪评价指标
- tracking precision (TP):量化目标出现时的预测精读
- tracking recall (TR):量化目标重检测的能力
- tracking F-score (F):
|