一、动机

互相关操作本身是一个局部线性匹配过程，容易丢失语义信息，陷入局部最优，这可能是设计高精度跟踪算法的瓶颈。为了寻找比比互相关更好的特征融合方法，本工作受到Transformer的启发，提出了一种新颖的基于注意的特征融合网络，该网络仅利用注意有效地结合了模板和搜索区域特征。

二、主要贡献

① 提出了一种新的Transformer跟踪框架，包括特征提取、变压器类融合和头部预测模块。变压器类融合将模板和搜索区域特征单独使用注意，而不需要相关性。
② 开发了基于具有自我注意的自我上下文增强模块和具有交叉注意的交叉特征增强模块的特征融合网络。与基于相关的特征融合相比，我们的基于注意力的方法自适应地关注有用的信息，如边缘和相似的目标，并建立远距离特征之间的关联，使跟踪器获得更好的分类和回归结果。
③ 在多个基准测试上的大量实验结果表明，所提出的跟踪器性能明显优于最先进的算法，特别是在大规模LaSOT、TrackingNet、GOT-10k数据集上。此外，我们的跟踪器在GPU上的运行速度为50fps，满足了实时要求。

三、主要内容

1、什么是Transformer ？

Transformer最初是由Vaswani等人提出的。论文地址
（https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf）简而言之，Transformer是一种架构，可以在基于注意力的编码器和解码器的帮助下，将一个序列转换为另一个序列。

2、TransT网络架构：

在这里插入图片描述
该框架由特征提取主干、特征融合网络和预测头三个基本组成部分组成。

① Feature Extraction.

特征提取骨干网络使用ResNet50的改进版本进行特征提取。也就是去掉ResNet50的最后一个阶段，将第四阶段的输出作为最终输出。除此之外还将第四阶段下采样单元的卷积步长由2改为1，以获得更大的特征分辨率。第四阶段的3×3 卷积也修改为步长为2的扩张卷积，以增加感受野。
在这里插入图片描述

② Feature Extraction.

首先，由一个1×1卷积对fz和fx的通道维数进行降维，得到两个低维特征图fz0和fx0，使维度降低到256。

在这里插入图片描述
由于基于注意的特征融合网络以一组特征向量作为输入，我们在空间维度上将fz0和fx0进行了扁平化，

在这里插入图片描述
fz1和fx1都可以看作是长度为d的特征向量集合。
特征融合网络将fz1和fx1分别作为模板分支和搜索区域分支的输入。
特征融合模块由ECA和CFA组成，ECA部分分别接受来自搜索分支和目标分支的特征，CFA同时接受本分支和另一分支的特征。

Ego-Context Augment and Cross-Feature Augment Modules

自我上下文增强模块和交叉特征增强模块

A、 Multi-head Attention.

注意力是设计特征融合网络的基本组成部分。给定queries Q, keys K和values V，注意函数为尺度点积注意，定义于式(1)。

在这里插入图片描述
其中dk是key dimensionality.
将注意机制扩展到多个头部，使该机制能够考虑不同的注意分布，并使模型对信息的不同方面进行保留。在方程（2）中定义了多头注意的机制。

其中WQi∈Rdm×dk,WKi∈Rdm×dk,WVi∈Rdm×dv, WO∈Rnhdv×dm是参数矩阵。在本工作中，我们将应用nh= 8,dm= 256和dk=dv=dm/nh= 32作为默认值。

B、 Ego-Context Augment (ECA).

在这里插入图片描述
ECA利用残差形式的多头自注意，自适应地整合来自特征图不同位置的信息。如式(1)所示，注意机制无法区分输入特征序列的位置信息。因此，我们将空间位置编码过程引入到inputX∈Rd×Nx。然后，我们使用一个正弦函数来生成空间位置编码。最后，ECA的作用机制可归纳为
在这里插入图片描述

其中Px∈Rd×Nx为空间位置编码，XEC∈Rd×Nx为ECA的输出。

C、 Cross-Feature Augment (CFA).

在这里插入图片描述

CFA采用多头交叉注意的残差形式融合两个输入的特征向量。与ECA相似，空间位置编码也被用于CFA。此外，采用FFN模块增强模型的拟合能力，该模型是由两个线性变换组成的全连接前馈网络，即:
在这里插入图片描述
符号W和b分别表示权矩阵和基向量。下标表示不同的层。
因此，CFA的机制可以概括为：

其中Xq∈Rd×Nq是模块分支的输入，Pq∈Rd×Nq为对应Xq的空间位置编码。Xkv∈Rd×Nkv是来自另一个分支的输入。Pkv∈Rd×Nkv为xkv坐标的空间编码。XCF∈Rd×Nq是CFA的输出。根据方程（6），cfa根据多个缩放的乘积计算注意图，然后根据保留图重新加权，并将其添加起来，以增强特征图的表示能力。

D、 Differences with the original Transformer

我们的方法借鉴了Transformer的核心思想，即采用注意机制。但是我们没有直接采用DETR中的Transformer结构。相反，我们设计了一个新的结构，使其更适合于跟踪框架。该方法的交叉注意操作比DETR更重要，因为跟踪任务的重点是融合模板和搜索区域特征。

E、 Differences with the original Transformer

为了探索注意模块在我们的框架中是如何工作的，我们在一个具有代表性的跟踪片段中可视化了所有注意模块的注意地图，如图4所示，以查看注意力想要看到什么。我们用数字n(1≤n≤4)表示当前融合层的数目。共四层，融合层从左到右越深。最后一次交叉注意得到最后一次单注意映射，用于解码。
在这里插入图片描述
第一行显示了搜索区域的自我注意地图。当n= 1时，模板中没有任何信息，注意模块尝试查看与环境不同的所有对象。同样的事情也发生在第二行，即模板的自我注意地图。有趣的是，人们的注意力更多地集中在关键信息上，比如，就像蚂蚁尾巴上的红点。第三和第四行是分别应用于搜索区域和模板的交叉注意映射。此时，注意模块接收来自模板和搜索区域的特性。为了在相似目标干扰下定位目标，注意模块倾向于关注重要信息，即蚂蚁尾巴上的彩色点。当n= 2时，此时，每个注意模块的输入都融合了搜索区域和模板信息。减少了搜索区域自注意图对相似干扰物的焦点，使模型能够识别目标。搜索区域的交叉注意图似乎很确定它的估计。对于模板，注意力模块开始关注边界信息。
随着融合层的深入，搜索区域的自注意映射倾向于强化目标的位置，而搜索区域的交叉注意映射则聚焦于被识别目标的边界。这样，模板特征就变成了一个包含大量目标边界信息的信息库，而搜索区域特征仍然保留其空间信息。我们注意到模板的最后几个注意图不再遵循最初的空间位置，而是一个令人费解的分布。也许这是因为，在确定了目标之后，模板分支的特性不再需要保存模板本身的信息，而是存储了大量的目标边界信息，成为一个为回归服务的特性库。通过注意力地图的可视化，我们可以看到注意力模块自动寻找全局有用信息，从而使跟踪器达到良好的效果。

③ Prediction Head Network.

预测头由一个分类分支和一个回归分支组成，每个分支是一个具有隐藏层d和ReLU激活函数的三层感知器。对于特征融合网络生成的特征图f∈Rd×HxWx，头部对每个向量的前/背景分类结果进行预测，并对搜索区域大小的坐标进行预测。我们的跟踪器直接预测标准化坐标，而不是调整锚点或锚盒，基于先验知识直接丢弃锚点或锚盒，从而使跟踪框架更加简洁。

④ Training Loss

预测头接收Hx×Wx的特征向量，并输出分类和回归结果。我们选择ground-truth包围框中像素对应的特征向量的预测为正样本，其余为负样本。所有样本都对分类损失有贡献，而只有正样本对回归损失有贡献。为了减少正样本和负样本之间的不平衡，我们将负样本产生的损失降为1 / 16。我们采用标准二元交叉熵损失进行分类，定义为：
在这里插入图片描述
其中yi表示第j个样本的ground-truth标签，yj=1为前景，pj为学习模型预测的概率属于前景。对于回归，我们采用?1-norm损失和LGIoU(., .)损失。
回归损失可以表示为：

其中yj=1表示正样本，bj表示第j个预测边界框，?b表示归一化地真边界框。在实验中λG=2 ，λ1=5。