论文地址: https://arxiv.org/pdf/1812.06148.pdf 代码地址: https://bitbucket.org/hengfan/crpn/src/master/ https://drive.google.com/file/d/1rhSYcQcQtHocXjiOTZ13vZedC61kbIVC/view
两个创新点: ① 联级的RPN网络 ② 提出Feature Transfer Block (FTB)来更好的融合多层feature map
一、 动机
SiamRPN在背景杂波和大尺度形变的情况下效果较差。针对此问题,提出了一个多阶段跟踪框架(C-RPN),它由在孪生网络中从深层高层到浅层低层级联的一系列 RPN 组成。
二、 主要贡献
①引入了一种新颖的多级跟踪框架,通过执行硬负采样来解决类不平衡问题。 ②与单阶段 SiamRPN相比,C-RPN的另一个好处是更准确的目标定位。由于多个 RPN,C-RPN 由多个回归步骤组成,而不是在单个回归步骤中使用预定义的粗锚框。在每个阶段,锚框(包括位置和大小)由回归器调整,为下一阶段的回归器提供更好的初始化。因此,C-RPN可以逐步细化目标边界框以获得更好的定位。
三、 主要内容
**创新动机:**在SiameseRPN和其他一些孪生网络追踪器中存在两个问题 问题一:在存在语义干扰的情况下SiamRPN还是有可能会漂移到背景中。 作者分析认为存在两个原因: ① 训练样本分布不平衡 (1) 正样本远小于负样本,导致训练效果不佳; (2) 大多数负样本是简单的负样本(非相似的非语义背景),它们在学习判别分类器时贡献很少的有用信息。 ② 没有充分探索低级空间特征。 在SiameseRPN中,仅探索包含更多语义信息的最后一层的特征来区分目标/背景。然而,在跟踪中背景干扰物和目标可能属于同一类别,或具有相似的语义特征。在这种情况下,高级语义特征在区分目标/背景方面的辨别力较小。
问题二:单阶段 SiameseRPN 使用预定义的锚框应用单个回归器进行目标定位。当与目标高度重叠时,这些锚点预计会很好地工作。然而,对于无模型视觉跟踪,没有关于目标对象的先验信息是已知的,并且很难估计目标的尺度如何变化。在单步回归中使用预定义的粗锚框不足以准确定位。(加入特征转移块FTB) C-RPN网络架构: 孪生网络部分: 采用修改后的 AlexNet来开发Siamese网络。 RPN级联部分: 第l个阶段的RPN输入公式为: 阶段l中锚点的分类分数 {cl i} 和回归偏移量 {rl i} 计算为: 其中 [Φl(z)]cls、[Φl(x)]cls、[Φl(z)]reg [Φl(x)]reg是通过对 Φl(z) 和 Φl(x) 执行卷积得到的。 锚点: 让 Al 表示在阶段 l 中设置的锚点。有了分类分数{cl i},我们可以过滤掉Al中负置信度大于预设阈值θ的anchor,剩下的组成一组新的anchor Al+1,用于训练RPNl+1。对于RPN1, A1 是预定义的。此外,为了为 RPNl+1 的回归器提供更好的初始化,我们使用 RPNl 中的回归结果 {rl i} 细化 Al+1 中的锚点,从而与 Siamese RPN中的单步回归相比,生成更准确的定位。 损失函数: 其中i是l阶段 Al 中的锚点索引,λ 是平衡损失的权重,cl?i 是锚点i的标签,rl? i是锚点 i 和地面真值之间的真实距离。rl? i= (rl? i(x), rl? i(y), rl? i(w), rl? i(h)) 是一个4d向量,使得: 其中 x、y、w 和 h 是框的中心坐标及其宽度和高度。变量 x? 和 xl a 是阶段 l 的地面真值和锚点(对于 y、w 和 h 也是如此)。值得注意的是,C-RPN不是固定锚,C-RPN 中的锚由前一阶段的回归器逐步调整,计算为: 对于A1中的anchor,x1a、y1a、w1a和h1a是预先定义好的。 由于拒绝了简单的负锚,每个RPNi的训练样本分布逐渐趋于平衡。因此,每个 RPN 的分类器在区分困难干扰项方面依次更具辨别力。此外,多级特征融合进一步提高了处理复杂背景的可辨别性。 FTB: 反卷积层用于匹配不同来源的特征维度。然后,使用逐元素求和融合不同的特征,然后是 ReLU 层。为了确保每个 RPN 中的锚点具有相同的地面实况,我们应用插值来重新缩放融合特征,以使所有 RPN 的输出分类和回归图具有相同的分辨率。 C-RPN的损失函数?CRPN由所有RPNl的损失函数组成。?CRP表示为:
四、 实验结果
锚点的比率设置为 [0.33,0.5,1,2,3]。正样本定义为与groundtruth的交集(IOU)大于阈值τpos的anchor,将负样本定义为与groundtruth边界框的IoU小于阈值τneg的anchor。从一对图像中生成最多 64 个样本。阶段数L为3。阈值θ、τpos和τneg根据经验设置为 0.95、0.6和0.3。CRPN 使用 SGD 端到端训练超过 50 个时期,并且学习率在从 10-2 到 10-6的每个时期以几何方式退火。在OTB-2013和OTB-2015中C-RPN 以大约 36 fps 的速度运行。C-RPN在LaSOT上以大约23 fps的速度运行。C-RPN在TrackingNet上以大约32 fps的速度运行。
五、 结论
在本文中,作者提出了一种新颖的多阶段框架C-RPN用于跟踪。与之前的最新技术相比,C-RPN通过在级联架构中执行硬负采样,在处理复杂背景(例如类似的语义干扰项)方面表现出更强大的性能。此外,还提出了一种新颖的 FTB 模块,该模块可以跨层有效地使用特征,以实现更具辨别力的表示。此外,C-RPN 使用多个回归步骤逐步细化目标边界框,从而实现更准确的定位。在对六个流行基准的广泛实验中,C-RPN 始终如一地实现了最先进的结果并实时运行。
参考:
https://blog.csdn.net/fzp95/article/details/88715294 https://www.cnblogs.com/wangxiaocvpr/p/10565987.html
|