Focus and Detect
Title: FOCUS-AND-DETECT: A SMALL OBJECT DETECTION FRAMEWORK FOR AERIAL IMAGES
paper: http://arxiv.org/pdf/2203.12976v1
code:
Introduction
? 航空图像中的目标探测是一项具有挑战性的任务。航空图像中的具体问题使检测问题变得更加困难,如小物体、密集排列的物体、不同大小和不同方向的物体。为了解决小目标检测问题,本文提出了一个两阶段目标检测框架“Focus-and-Detect”。第一阶段由一个在高斯混合模型的监督下的目标检测器网络组成,生成构成聚焦区域的目标簇。第二阶段,也是一个目标探测器网络,预测焦点区域内的物体。为了克服区域搜索方法的截断效应,还提出了Incomplete Box Suppression(IBS)方法。结果表明,所提出的两阶段框架在VisDrone验证数据集上的AP得分为42.06,超过了文献中报道的所有其他最先进的小目标检测方法。
航空图像检测的难点:
- 首先,在航空图像中,方向和纵横比可能与自然图像有很大的不同。
- 其次,类内和类间样本的航空图像的尺度变化非常严重。在VisDrone数据集中,“汽车”物体大小的方差几乎是MSCOCO数据集的5倍。
- 第三,航空图像中的物体体积较小且位置密集。例如,单个图像中最多可能存在多达902个对象。
- 此外,在航空图像中存在类不平衡问题,使得样本数小的类的小目标检测问题更加困难。
本文的贡献:
- 提出了一种基于区域搜索的航空图像小目标检测框架,即“Focus-and-Detec”
- 提出了一种使用高斯混合模型生成对象簇的方法,其中生成的簇进行尺度归一化。
- 提出了“Incomplete Box Suppression”(IBS)方法来抑制由重叠的区域引起的bbox坐标问题。
Focus-and-Detect
Overview
? 一般来说,航空图像上的物体检测性能会受到小物体、物体视角的变化、遮挡和截断的阻碍。使用高分辨率图像作为输入是解决小目标检测问题的最简单的解决方案之一。不幸的是,高分辨率图像给深度神经网络带来了大量的计算成本。
? 使用聚焦机制和提高聚焦区域的分辨率具有这种简单的方法的优点,但计算成本较低。如图1所示,对航空图像的检测包括两个阶段:焦点网络检测由目标簇组成的焦点区域,检测焦点区域中的目标的检测网络。在合并预测后,采用后处理方法。具体来说,提出了不完全盒子抑制(IBS)机制来抑制重叠区域的不完全盒子。还使用标准的非最大抑制(NMS)来抑制合并预测的盒子后重叠的盒子。
Focus Stage
? Focal阶段由一个目标检测网络组成,经过训练来检测focal区域。focal区域是使用高斯混合模型通过地面真实边界框生成的。选择Generalized focal loss(GFL)作为基本检测方法。该模型的主干是具有可变形卷积层的ResNet-50网络。模型的第二部分,即特征金字塔网络(FPN),旨在利用和细化ResNet-50不同阶段获得的特征图,最后一部分是模型的预测焦点区域边界盒的检测头。最后三个阶段采用可变形卷积层。
? 由于传统的卷积层和池化层的形式受限,传统的卷积网络在几何变换方面的性能有限。传统的网络结构不能很好地完成focal区域检测任务。focal区域特征的可转移性不如传统物体特征的可转移性。为了提高学习特征的可转移性,在ResNet-50中使用了可变形卷积层,因为可变形卷积可以动态地改变接收场。所提出的变化可以更好地表示焦点区域。
Generating Ground-Truth Boxes of Focal Regions Using Gaussian Mixture Model
高斯混合模型利用GT框的聚类产生Focal Regions
? 在这种情况下,焦点区域可以定义为用高斯混合模型获得的物体簇,该模型以地面真实的位置信息(GT)的盒子作为输入。位置信息由图像中均匀采样点网格的边界盒距离向量组成,与直接使用盒子的坐标相比,这种方法产生了更好的结果。
焦点区域的数量的选择取决于各自图像的GT盒的数量。焦点区域数
(
N
f
)
(N_{f})
(Nf?)可以写成:
其中,
N
g
t
N_{g_{t}}
Ngt??是GT盒的数量。设
x
 ̄
\overline x
x为图像中第
i
i
i个GT盒的一个
1
×
M
1×M
1×M大小的距离向量,
X
X
X为
N
f
×
M
N_{f}×M
Nf?×M大小的特征向量数组。高斯混合模型可定义为:
其中,
μ
j
\mu_{j}
μj?和
σ
j
\sigma_{j}
σj?为第
j
j
j个聚类的均值和方差。
采用期望最大化算法来拟合模型。一旦EM算法运行完成,拟合的模型可以用于对GT边界盒进行聚类。给定模型的参数,将GT边界盒属于一个聚类的概率计算为:
计算簇后,选择焦点区域作为最小大小的框,包括在各自簇中每边有20像素间隙的所有边界框。由于间隙,在焦点区域可能会有被截断的物体。生成的焦点区域被用作焦点阶段的地面真实边界框。
在检测阶段,用GMM获得的焦点区域被裁剪和调整大小,以收集一组新的数据。获得GT边界盒并细化到焦点区域作物。如果至少30%的盒在裁剪区域内,则包括截断的GT盒。
Post Processing
为了获得目标边界框的最终预测,必须将检测阶段的预测合并为焦点区域的模型输出预测。用于提高性能的后处理步骤包括Incomplete Box Suppression(IBS)和非最大抑制(NMS)。
Incomplete Box Suppression
? 利用region search的模型存在某些问题。例如,合并目标区域的检测可能是困难的,因为可能有重叠的区域和被截断的对象。这个问题会在同一对象上产生多个边界框预测。由于截断,预测的边界框没有完全重叠。因此,非最大抑制并不能抑制这种错误的预测。然而,这些预测降低了AP的分数。
? 一般来说,非最大抑制用于消除高度重叠的盒子。它非常适用于传统的目标检测问题。然而,在大多数的region search方法中,还有最后一步是合并目标区域的预测。这就产生了一个新的问题。这些区域中的重叠区域和截断的对象降低了整体性能。一般来说,这些边界框的并集上的交集很小。NMS是没有效果的。被截断的对象本身也是一个问题。错误的类预测对于被截断的对象是很常见的。其结果是,假阳性率增加,AP评分降低。提出了Incomplete Box Suppression(IBS)来减少这类问题。
? 简单来说,因为本文使用了Focal区域,将图片分成了不同的部分进行检测,所以会产生一些不同focal区域的bbox重叠问题,但是因为这些bbox重叠的区域会受到focal区域的截断,所以一般的NMS方法不能用于此类问题中。
? 本质上,IBS与NMS算法具有相同的原理:找到重叠的边界框,选择置信值最高的边界框,并抑制其他边界框。NMS使用一个简单的基于Union的交集(IoU)阈值来寻找重叠,而在IBS中,重叠的焦点区域和对象边界框都被用来决定抑制哪个框。
具体算法如下:
设
C
i
C_{i}
Ci?和
B
i
j
B_{ij}
Bij?为该区域内的第
i
i
i个焦点区域坐标和第
j
j
j个方框坐标。
- 第一步是计算focal区域
C
i
C_{i}
Ci?和其他focal区域之间的IoU,以找到
C
i
C_{i}
Ci?的重叠部分。计算出两个focal区域的重叠部分。
- 第二步是将重叠焦点区域中的对象框坐标剪辑到第
i
i
i个焦点区域的坐标上,并收集面积大于零的框。
- 最后一步是计算裁剪的bbox和
B
i
j
B_{ij}
Bij?之间的IoU。如果任何一个IoU分数大于选定的阈值,则
B
i
j
B_{ij}
Bij?将被抑制。
实验选择焦点区域的IoU阈值为0.05,实验选择边界框的IoU阈值为0.5。
Non-max Suppression
? 采用非最大抑制法来抑制focal区域合并后的重叠检测。一些重叠的焦点区域包含相同的对象,从而导致重复的盒子预测。为了减轻这种行为,将选择具有最高置信度的框,并抑制其他框。NMS的超过联合阈值的交集被选择为0.5。
Experimental Results
|