论文分享
2021CVPR基于相关学习的多目标检测:Multiple Object Tracking with Correlation Learning
摘要
当前卷积网络通过学习检测和外观特征,极大的提高了多目标跟踪的性能,但是由于卷积网络本身的局限性,无法有效的获得空间和时间的长期依赖关系,基于空间布局,作者提出了利用局部相关模块来建模目标与其周围环境之间的拓扑关系,用来加强模型在拥挤场景中的识别能力,具体的方式就是建立每个空间位置与其环境的密集对应关系,并通过自我监督学习明确地约束相关体积,现有的方式通常是利用两个或两个以上的相邻帧来构造增强的特征表示,但是在动态场景中使用卷积网络描述具有困难。所以作者提出一个可学习的相关算子,在不同层的卷积特征映射上建立帧与帧的匹配,以此来捕获时序信息。
介绍
首先介绍了多目标跟踪(MOT)的两种常见范式:tracking-by-detection(TBD)范式和joint-detection-and-tracking(JDT)范式。
TBD范式:利用检测和数据管理任务的自然划分来解决问题。在视频每帧中先检测出来所有感兴趣的目标物体,然后将其与前一帧中检测出来的目标进行关联来实现跟踪的效果。这种方式的优点是可以在整个视频中跟踪随时出现的新目标,当然这种方式要求你前提得有一个好的“目标检测”算法。主要是配合匈牙利算法实现匹配。使用这种范式主要是关注优化检测,特征表示或者是数据关联。但是这种方法在复杂场景中对于存在确定干扰物或者频繁遮挡方面仍然存在急需优化的地方。低下的级联结构也是需要改进的地方。
JDT范式:端到端可训练的检测框范式,共同学习检测和外观特征。详情可见joint-detection-and-tracking
下图是论文中特征追踪和相关追踪两种方法在存在干扰时的表现对比图。如果存在相似的干扰选项,仅采用特征追踪进行目标与轨迹之间的匹配是不够的。通过特征追踪得到的匹配置信度不够精确,导致跟踪关联部分的性能下降。这些方法之所以无法很好地区分相似的目标,是因为其受限于局部的感受野。下图(b)便是这篇文章提出的方法生成的热度图,很轻易地能够看出,CorrTracker可以很好地区分不同的目标。
基于存在的问题,作者提出使用相关网络来学习目标和环境的拓扑信息,也就是说使用一种空间相关层来记录目标和相对空间位置之间的关系,由于实时为所有位置构建全相关拓扑在实时运算上是无法实现的(运算量过大),但是可以通过限制特征的方式来构建局部的拓扑结构。此外,作者的相关性学习并不局限于兴趣类别的目标[53,49]。背景背景,如车辆,也被建模,以帮助目标识别和关系推理,建立了每个空间位置及其环境的密集对应关系,并通过自监督学习明确地约束相关体积。为解决传统MOT当中由于独立帧输入所带来的拥挤场景表现不佳的问题,本文采用输入多个相邻帧的方式来实现时间上的一致性,提高了在遮挡场景中的性能。此次为解决CNN本身的局限性,本文将空间相关模块扩展到时间维度,并加入历史信息来减少出现歧义的情况。
简单总结一下:
- 提出了CorrTracker,一个利用相关性的跟踪器,对目标极其周围环境之间的关系进行建模;
- 采用自监督学习的方法来训练局部相关性模块,使得模型对相似物体的判别能力更强;
- 拓展空间局部相关性模块到时间维度,提取时序信息;
- CorrTracker达到了sota,在MOT17测试集上达到了76.5%的MOTA和73.6%的IDF1。
CorrTracker流程
一共分为三大部分:
- 通用特征提取
- 基于时空相关性的同时学习和检测预测
- 进行数据关联以将检测分配到其最可能的轨迹中
其中步骤一和步骤二是微分的,并组成端到端的可训练架构。采用了一种紧凑的关联技术,类似于DeepSORT所使用的技术来控制磁道的初始化和终止。其主要目的是对特征地图上密集位置与其上下文之间的相关性进行高效建模,这有助于抑制复杂场景中的干扰因素。 对应的数学表达方式:
为了解决直接使用ReID特征而不考虑上下文使得引入过多没必要的标识切换所带的滞后性的跟踪鲁棒性,作者对物体的局部结构进行重新建模,以区分物体与干扰物。受到光流相关体积的启发,作者用相关体积中的置信值模拟了每个目标的结构,并设计了一个新的密集相关模块,为了探究MOT的上下文信息。
空间局部相关层
特征金字塔的相关性学习:
通过这种方法,我们可以获得目标和整个全局上下文之间的近似相关性,同时保持紧致性和效率。我们的金字塔相关性利用了视频中自然的时空连贯性。多目标跟踪可以分解为多个独立的单目标跟踪。我们的方法可以等效于特征金字塔上的密集暹罗网络跟踪[2]。另一方面,从集合匹配的角度来看,需要考虑全局特征。我们的多尺度关联考虑了信息传输的两个方面。
时间相关学习
MOT场通常忽略不同帧之间的相关性,跟踪器通常通过数据关联来克服遮挡。单帧检测器难以确保良好的时间一致性。这使得该算法在遮挡、运动模糊和小目标场景中的性能显著下降,成为运动目标检测的瓶颈。在论文3-2中扩展了空间局部相关性到时间维度,并为不同帧中的目标建立相关性。两帧之间的相关性可以看作是运动信息学习的建立。还使用这种相关性来增强特征表示,这可以提高检测精度。具体来说则是在不同帧之间建立多尺度相关性,并使用参考图像作为存储器来增强图像特征。该方法有助于跟踪器克服目标遮挡和运动模糊,提高检测和身份特征的一致性。
自监督特征学习
在这里,作者研究了一种多任务学习方法,该方法通过视觉对象跟踪对语义进行监督,并通过对应流对相关体积进行自我监督训练。我们的关联模块是可解释的,用于测量不同对象之间的相似性。实际上,我们的方法密集地执行msm×Nsiamese跟踪操作,以提高分辨力。从这个角度来看,我们可以明确实施跟踪监督。地面真相标签设置方式 其中y是要素地图中相应位置的标识标签,使用一种类似于平衡交叉熵的方式来训练。至于自监督训练的部分,作者采用了论文Tracking Emerges by Colorizing Videos中的着色任务来进行跟踪的方法。
实验结果
在MOT17验证集上评估相关性架构。 添加的自监督损失对跟踪器整体性能的提升效果 过滤器尺寸对MOT17-val速度和MOTA精度的影响 与MOT基准的最新水平的比较 可视化的目标跟踪轨迹 在MOT17和MOT20上的相关跟踪器的定性结果
总结
在本文中,作者提出了一种新的相关跟踪框架,基于关系结构有助于区分相似对象的观察结果。我们的相关模块将所有目标与其本地上下文紧密匹配,并从相关卷中学习有区别的嵌入。此外,作者还展示了如何将相关模块从空间布局扩展到相邻帧,以增强时间建模能力。探讨了自我监督学习对相关量施加区别性约束的方法,它可以明确地预测实例流。对四个MOT挑战的大量实验表明,本文提出的CorrTracker实现了最先进的性能,并且推理效率很高。
欢乐的时光总是短暂的,让我们下一次再见!!!
good good study,day day up! (study hard, improve every day)
预知后事,请听下回分解!!!!
|