概述
?行人检测在过去几年中取得了显著进展。然而行人检测的遮挡问题仍然是研究的重点和难点,因为行人外表因遮挡模式的不同而有很大差异。在本文中,提出一种基于Faster-rcnn 方法的一种遮挡行人检测方法,从解释行人检测器的CNN通道特征开始,发现不同的通道分别激活不同身体部位。 ?于是本文提出一种跨通道的注意机制,在一个模型中表示各种遮挡模式,因为每个遮挡模式都可以表示为身体部位的特定组合。在对重遮挡子集进行评估时,该方法优于先前提出的方法检测效果。
1.introduction:
?总而言之就是行人检测是目标检测比较热门的问题,但是行人检测虽然进展已经很大了,但是遮挡问题还是其中的一个研究的热点和难点。像以往的一些行人检测的论文中比如作者在论文中提到的集合模型[多线索与局部处理的行人分类、使用franken分类器处理遮挡、一种基于遮挡处理的行人识别深度模型、深度学习用于行人检测的强大部件],还有就是利用一些关节框架来模拟不同的遮挡模式。总之,这些方法依赖于一组遮挡/部分检测分数的集成。上述方法不能覆盖所有遮挡模式,效果还是有待改进。 1.1贡献
(1)分析理解了身体区域和cnn通道之间是有关系的,并发现其中许多关系是可定位和可解释的。 (2)通过在Faster RCNN体系结构中添加一个额外的注意网,从而应用通道级注意机制来处理不同的遮挡模式。探索不同的注意指导,包括自我注意、视觉框注意和部分注意。对Faster-rcnn进行了微小的调整。 (3)选取了两个数据集来作为测试,在City persons 数据集上 获得了8PP的增益,在Caltech上获得了4pp的增益。
1.2 相关工作进展
?本文选取faster rcnn 检测器来进行检测,Faster-RCNN允许端到端学习,在一些目标检测工作中获得了比较好的结果。如MS-CNN和SA-Fast RCNN然而,对Faster-RCNN进行适当修改可以获得更好的结果。
?遮挡问题解决的策略也被分为两个方面:包括手工制作(HOG和SVM)的特征和深度卷积特征。最近的工作进展是通过集成集成模型的输出来进行检测,但是此方法也是有很大的缺陷,因为每个部分/遮挡模式检测器都是独立学习的,并且在测试时应用这一组模型是耗时的。此外,其他一些工作提出以联合方式学习多种遮挡模式,这节省了大量的训练和测试时间。然而,做种仍然依赖于整合多部分的结果来完成,这使得整个过程更加复杂和难以训练。相比之下,我们提出增加注意力网络,它既很容易训练,而且开销也很低。 2.Body Parts and Channel Features 身体部位和通道特征
?本文研究通道是否可以与行人探测器中的人体部位有关。研究发现,许多通道显示了一些高度可定位的激活模式,将它们与特定的身体区域或身体部位联系起来;这三个通道在人们的头部、上半身和脚部分别显示出强烈的激活。可以发现行人的身体部位和通道特征有一定的关系。 ?下图所示,探讨Faster RCNN行人检测器与不同通道特征的身体部位的关系。高亮显示的区域会在每个通道内触发强激活,观察结果可以得出,因为这种注意机制可以更多地关注可见的身体区域,而更少地关注被遮挡的区域。所以可探索被遮挡的行人检测的通道级注意的可能性。
3. Guided Attention in CNNs for Occlusion Handling cnn中用于处理遮挡的引导注意力网络
从下图中观察可以看到。不同的遮挡模式会导致行人的外形不同。 本文使用Faster-rcnn 作为检测器,faster-rnn 检测的步骤如下: 3.2. Channel-Wise Attention 通道注意 即对通道特征重新加权,更加关注那些没有被遮挡的部位。直观地说,网络应该让那些代表可见部分的通道权重更多,而不可见部分的权重更小。
其中fchn表示顶部信道特征,Ωn是第n个遮挡模式的加权参数向量。通过这种方式,每个样本的通道特征的重要性就会随其遮挡模式的变化而有所不同。例如,当左体被遮挡时,应调整Ω,降低左体区域通道信息的权重。这意味着它们对最终得分的影响较小。 3.3. Attention Networks 注意力网络 ?注意网络是我们生成注意向量Ω的重要组成部分。然回归Ω的映射函数F作为输出:虽然注意向量Ω与特定的遮挡模式相关,但是,注意网络中的注意向量Ω都是连续的,因此不像之前那样局限于任何特定的离散遮挡模式集。相反,注意向量Ω是通过自我注意或通过一些额外的外部信息的引导,为我们所有的注意网络进行端到端的训练。 考虑了三种不同类型的G(:(1)顶部卷积特征;(2)可见边界框;(3)部分检测热图。根据我们使用的信息作为指导,我们将注意网分别定义为:自我注意网、可见框注意网和部分注意网。我们从自我关注开始,然后进一步利用外部信息作为更有力的指导。我们在图5中显示了上述三个注意网的说明。 3.3.1 Self Attention Net 自注意力网络 ?SENET是2017年的世界冠军,SE全称Squeeze-and-Excitation是一个模块,将现有的网络嵌入SE模块的话,那么该网络就是SENet,它几乎可以嵌入当前流行的任何网络。 ? SENet是首次尝试利用CNNs中的通道级关注。其目标是通过显式地建模卷积通道之间的相互依赖关系来增强不同样本的表征能力。为此,提出了一个“挤压和激发”(SE)块来执行依赖样本的特征重新加权,从而选择信息更多的特征,而抑制不较有用的特征。SE块由一个全局平均池化层和两个连续的全连接层组成。SENet易于实现,获得了显著的改进,同时很少增加额外的计算成本。受SENet的启发,我们设计了自注意网来学习信道级注意参数Ω。它是对具有相同块结构的SENet的重新实现。由于不需要外部信息,我们称其为自注意力网络。 3.3.2 Visible-box Attention Net 可见框的自注意力网络 ==可将框注意力网络:==在实践中,==获取身体部位注释的成本太高。==可将其定义为一个全身边界框和一个可见框的组合,使用可视框作为外部引导的注意力网络被称为可见框注意力网络。然而,==测试的时候可见框是不可用的,==因此遮挡模式不能简单地用作注意网的输入。 ?==为了克服这个问题,我们建议在注意网内以有监督的方式学习遮挡模式。通过对City Persons数据集上的训练数据进行分析,我们发现最常见的遮挡情况如下:(1)完全可见 (2)上半身可见 (3)左体可见 (4) 右半身可见。其他模式被忽略,因为可用的训练数据太少。通过这种方式,遮挡模式估计被表述为一个四类分类任务。 它的损失函数如下: 其中:L0是Faster-rcnn的损失函数;Loccl定义为用于遮挡模式分类的交叉熵损失;默认α =1 .
3.3.3 Part Attention Net 部分注意力网络
?主要是克服可见边界框的两个主要问题:(1)获取可视边界框作为附加训练注释的成本很高(2) 有时遮挡会不规则地发生,导致可见部分很难被单个矩形框覆盖。 当一个被遮挡的人的全身检测不能成功时,,部分探测器仍然能够对可见部分做出精确的预测。因此,部分检测热图可以作为遮挡模式的有效提示来引导注意网络。 4.总结 ?在本文中,我们建议采用通道级的注意来处理遮挡的行人检测。从可视化中,我们发现许多通道特征是可定位的,并且通常对应于不同的身体部位。基于这些发现,我们设计了一个注意网来生成注意向量,以重新加权顶部卷积信道。这个注意网可以作为一个附加的组件添加到任何基于CNN的检测器。
|