Rui Yang, Yabin Zhu, Xiao Wang, Chenglong Li, Jin Tang
Hefei, Anhui Province, China
2019 IEEE International Conference on Image Processing (ICIP)
1.摘要
? ? ? ?RGBT跟踪试图利用互补的视觉和热红外数据定位目标。现有的RGBT跟踪器通过鲁棒特征表示学习或自适应模态加权来融合不同的模态。然而,如何整合双注意机制进行视觉跟踪仍是一个尚未研究的课题。本文中,提出了提出两种视觉注意机制用于鲁棒的视觉跟踪。具体来说,局部注意力通过利用RGB和T数据的共同注意力来训练深度分类器来实现。同时还介绍了全局注意力,这是一个多模态目标驱动的注意力估计网络。它可以为分类器提供全局建议以及从先前跟踪结果中提取的局部建议。
2.引言:
? ? ? ?本文提出一种新的双视觉注意引导的RGBT跟踪算法:局部注意力和全局注意力。训练过程包含前向和后向两步。在前向步骤中,将成对的RGB和T样本送入深度跟踪检测网络中,估计出相应的分类分数。在返向步骤中,沿着从最后一个全连接层到第一个卷积层的方向,对输入的成对RGB-T样本进行分类分数的部分验证。将第一层的偏导数输出作为RGB和热输入的共同注意图。此注意力图上的每个像素值指示输入RGB-T样本的对应像素对影响分类精度的重要性。在此过程中,在损失函数中加入注意图作为正则化项,使分类器更加关注目标区域。
? ? ? ?局部搜索策略
? ? ? ?本文将论文1中首次提出的目标驱动注意估计网络,扩展到RGB-T的全局注意力机制上,来处理由于局部搜索策略所引起的问题。具体来说,将RGB、T和原始目标图像作为输入,并将从卷积网络中提取出的特征图连接起来,将这些特征送入上采样网络,来生成相应的注意力图。高质量的全局建议(global proposal)可以从注意区域(attention region)中提取,并与局部建议一起送入分类器。因此,局部和全局注意力图的互补将会进一步提高RGB-T目标跟踪器的鲁棒性和准确性。
本文贡献:
(1)提出一种利用视觉注意的局部注意机制,用于RGB-T跟踪。
(2)为进一步提高RGB-T目标跟踪器的鲁棒性,将目标驱动的全局注意机制扩展到多模态形式。
3.方法:
3.1 网络结构:
?
论文1 :Xiao Wang, Chenglong Li, Rui Y ang, Tianzhu Zhang,Jin Tang, and Bin Luo, “Describe and attend to track:Learning natural language guided structural representation and visual attention for object tracking,” arXiv preprint arXiv:1811.10014, 2018.
|