[人工智能] CVPR-2019-C-RPN: Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking 阅读笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> CVPR-2019-C-RPN: Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking 阅读笔记 -> 正文阅读

[人工智能]CVPR-2019-C-RPN: Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking 阅读笔记

论文地址：
https://arxiv.org/pdf/1812.06148.pdf
代码地址：
https://bitbucket.org/hengfan/crpn/src/master/
https://drive.google.com/file/d/1rhSYcQcQtHocXjiOTZ13vZedC61kbIVC/view

两个创新点：
① 联级的RPN网络
② 提出Feature Transfer Block (FTB)来更好的融合多层feature map

一、动机

SiamRPN在背景杂波和大尺度形变的情况下效果较差。针对此问题，提出了一个多阶段跟踪框架(C-RPN)，它由在孪生网络中从深层高层到浅层低层级联的一系列 RPN 组成。

二、主要贡献

①引入了一种新颖的多级跟踪框架，通过执行硬负采样来解决类不平衡问题。
②与单阶段 SiamRPN相比，C-RPN的另一个好处是更准确的目标定位。由于多个 RPN，C-RPN 由多个回归步骤组成，而不是在单个回归步骤中使用预定义的粗锚框。在每个阶段，锚框（包括位置和大小）由回归器调整，为下一阶段的回归器提供更好的初始化。因此，C-RPN可以逐步细化目标边界框以获得更好的定位。

三、主要内容

**创新动机：**在SiameseRPN和其他一些孪生网络追踪器中存在两个问题
问题一：在存在语义干扰的情况下SiamRPN还是有可能会漂移到背景中。
作者分析认为存在两个原因：
① 训练样本分布不平衡
（1）正样本远小于负样本，导致训练效果不佳；
（2）大多数负样本是简单的负样本（非相似的非语义背景），它们在学习判别分类器时贡献很少的有用信息。
② 没有充分探索低级空间特征。
在SiameseRPN中，仅探索包含更多语义信息的最后一层的特征来区分目标/背景。然而，在跟踪中背景干扰物和目标可能属于同一类别，或具有相似的语义特征。在这种情况下，高级语义特征在区分目标/背景方面的辨别力较小。

问题二：单阶段 SiameseRPN 使用预定义的锚框应用单个回归器进行目标定位。当与目标高度重叠时，这些锚点预计会很好地工作。然而，对于无模型视觉跟踪，没有关于目标对象的先验信息是已知的，并且很难估计目标的尺度如何变化。在单步回归中使用预定义的粗锚框不足以准确定位。（加入特征转移块FTB）
C-RPN网络架构：
在这里插入图片描述
孪生网络部分：
采用修改后的 AlexNet来开发Siamese网络。
RPN级联部分：
第l个阶段的RPN输入公式为：

阶段l中锚点的分类分数 {cl i} 和回归偏移量 {rl i} 计算为：

其中 [Φl(z)]cls、[Φl(x)]cls、[Φl(z)]reg [Φl(x)]reg是通过对 Φl(z) 和 Φl(x) 执行卷积得到的。
锚点：
让 Al 表示在阶段 l 中设置的锚点。有了分类分数{cl i}，我们可以过滤掉Al中负置信度大于预设阈值θ的anchor，剩下的组成一组新的anchor Al+1，用于训练RPNl+1。对于RPN1， A1 是预定义的。此外，为了为 RPNl+1 的回归器提供更好的初始化，我们使用 RPNl 中的回归结果 {rl i} 细化 Al+1 中的锚点，从而与 Siamese RPN中的单步回归相比，生成更准确的定位。
损失函数：
在这里插入图片描述
其中i是l阶段 Al 中的锚点索引，λ 是平衡损失的权重，cl?i 是锚点i的标签，rl? i是锚点 i 和地面真值之间的真实距离。rl? i= (rl? i(x), rl? i(y), rl? i(w), rl? i(h)) 是一个4d向量，使得：

其中 x、y、w 和 h 是框的中心坐标及其宽度和高度。变量 x? 和 xl a 是阶段 l 的地面真值和锚点（对于 y、w 和 h 也是如此）。值得注意的是，C-RPN不是固定锚，C-RPN 中的锚由前一阶段的回归器逐步调整，计算为：
在这里插入图片描述
对于A1中的anchor，x1a、y1a、w1a和h1a是预先定义好的。
由于拒绝了简单的负锚，每个RPNi的训练样本分布逐渐趋于平衡。因此，每个 RPN 的分类器在区分困难干扰项方面依次更具辨别力。此外，多级特征融合进一步提高了处理复杂背景的可辨别性。
FTB:
在这里插入图片描述
反卷积层用于匹配不同来源的特征维度。然后，使用逐元素求和融合不同的特征，然后是 ReLU 层。为了确保每个 RPN 中的锚点具有相同的地面实况，我们应用插值来重新缩放融合特征，以使所有 RPN 的输出分类和回归图具有相同的分辨率。
C-RPN的损失函数?CRPN由所有RPNl的损失函数组成。?CRP表示为:
在这里插入图片描述

四、实验结果

锚点的比率设置为 [0.33,0.5,1,2,3]。正样本定义为与groundtruth的交集（IOU）大于阈值τpos的anchor，将负样本定义为与groundtruth边界框的IoU小于阈值τneg的anchor。从一对图像中生成最多 64 个样本。阶段数L为3。阈值θ、τpos和τneg根据经验设置为 0.95、0.6和0.3。CRPN 使用 SGD 端到端训练超过 50 个时期，并且学习率在从 10-2 到 10-6的每个时期以几何方式退火。在OTB-2013和OTB-2015中C-RPN 以大约 36 fps 的速度运行。C-RPN在LaSOT上以大约23 fps的速度运行。C-RPN在TrackingNet上以大约32 fps的速度运行。
在这里插入图片描述

五、结论

在本文中，作者提出了一种新颖的多阶段框架C-RPN用于跟踪。与之前的最新技术相比，C-RPN通过在级联架构中执行硬负采样，在处理复杂背景（例如类似的语义干扰项）方面表现出更强大的性能。此外，还提出了一种新颖的 FTB 模块，该模块可以跨层有效地使用特征，以实现更具辨别力的表示。此外，C-RPN 使用多个回归步骤逐步细化目标边界框，从而实现更准确的定位。在对六个流行基准的广泛实验中，C-RPN 始终如一地实现了最先进的结果并实时运行。