1 Introduction
????????目标检测已经取得了显著的进展。然而,由于以下内在原因,定向和高密度物体的检测仍然具有挑战性:一是神经元的感受都是轴向对齐的,形状相同,而物体通常是不同的形状,沿着不同的方向排列。二是检测模型通常使用通用知识进行训练,在测试时不能很好地泛化处理特定的对象。三是数据集有限,阻碍了本任务的发展。为了解决前两个问题,本文提出了一种由特征选择模块组成的动态细化网络(FSM)和动态细化头(DRH)。为了解决相关基准测试可用性有限的问题,本文提出了一个广泛的、完全注释的数据集,即SKU110K-R,它基于面向边界框进行重新标记。
2 Related Work
RoI Trans : 将轴对齐的RoI转换成可旋转的RoI,解决RoI与定向目标之间的错位问题。 SCRDet: 在Smooth L1 loss中增加IOU常数因子,解决定向边界框的边界问题。 FSAF: 学习一个anchor-free模块动态选择最适合的特征level。 Dynamic anchor feature selection for single-shot object detection: 提出一种基于新定位点位置和大小的动态特征选择模块。 SKN: 提出使用不同的卷积核在每个位置选择具有不同感受野的特征。 SENet: 自适应调整并校准信道特征响应。 CBAM: 采取多个空间注意力模型对空间之间的关系进行建模。 Active convolution: 用偏移量增加卷积层中的采样位置,该模型在不同的空间位置共享偏移量,训练后的模型参数是静态的。 Deformable convolutional network (DCN) : 对图像中的密集空间变化进行建模,偏移量是动态模型输出。 RoI Trans: 学习了五个offsets,类似于位置敏感的RoI Align对齐方式,将轴对齐RoI转换为旋转RoI。 ORN: 提出了在卷积过程中主动旋转的有源旋转滤波器。旋转角度是一个超参数,是一个固定的数,所有的位置共享相同的旋转角度。 神经网络引入动态滤波器,根据输入特征和切换样本进行调节。动态滤波器在训练阶段学习滤波器权重,从而可以在推理阶段提取样本特征。 CARAFE: 提出一个内核预测模块,该模块负责以内容感知的方式重组卷积核。 DCN和RoI Trans: 它们对偏移预测进行动态建模,不改变核权重。
3 Method
3.1 Network Architecture
3.2 Feature Selection Module?
FSM 用于自适应地聚合提取不同的核大小、形状和方向的信息。RCL是原始的卷积核,在通过额外conv层学到的参数θ,把之前标准的卷积核变成带有参数θ的旋转卷积核,得到offset,共享输入的特征图,然后输入特征图与offset共同作为旋转卷积层的输入。
3.3?SKU110K-R Dataset?
SKU110K-R 是SKU110K的扩展版本。原始SKU110K数据集包含11,762张图片(8,233张用于训练,588张用于验证,2,941张用于测试)和1,733,678个实例。数千家超市商品图片,不同视角、比例、照明条件和噪声条件。SKU110K范围是[-15°,15°]。SKU110K-R将SKU110K图像旋转六个不同的角度(-45°, -30°, -15°, 15°, 30°, 和45°)进行数据扩展和增强。
4 Experiments
?
5 Conclusion?
?1. 提出一种基于目标形状和方向的自适应调整神经元感受野的模块。该FSM模块能有效地缓解感受野和目标之间的失调。 ?2.提出两个DRH,即DRH-C和DRH-R(分别用于分类和回归任务)。这些DRHs可以根据每一个样本的唯一性和特殊性建模,并以一种面向对象的方法进行预测。 ?3.收集了SKU110K-R,包含对定向边界框精细标注。 ?
|