论文基本信息
- 标题:Learning Center Probability Map for Detecting Objects in Aerial Images
- 作者:Jinwang Wang , Wen Yang , Senior Member, IEEE, Heng-Chao Li ,Haijian Zhang , and Gui-Song Xia, Senior Member, IEEE
- 机构:School of Electronic Information, Wuhan University, Wuhan
- 来源:T-GRS
- 时间:2020
- 论文地址:https://ieeexplore.ieee.org/abstract/document/9151222
- code:
论文概要
解决问题
已有方法
regression-based
直接回归OBBs。所有的改类别的方法,都是依赖于对OBB的精确的表示。
方法 | 简述 |
---|
[42] | 提出了RoI polling 来检侧旋转的船只 | [15]FR-O | 回归OBB与HBB的偏移量 | [17]ICN | 加入了图片级联,和FPN来提取语义信息,同样还是来回归偏移量 | [43]RRPN | 提出了旋转RPN来产生一些有优先级的带有角度信息的proposals,然后再回归偏移量 | [21]R-DFON | 应用RRPN,提出了密集特征金字塔网络来解决传播宽度窄的问题 | [18]ROI | 设计了RoI learner 通过有监督的方法,变换垂直RoI 为 旋转ROI |
segmentation-based
这种方法是通过获得目标的像素级的分类,然后通过后处理由mask图获得对应的OBBs。这种基于分割的方法在文本检测中较多,在遥感目标检测领域并不是很多。
方法 | 简述 |
---|
[44]RBMDeepNet | 提出一种混合方法,结合了CNN和RBM 用于检测遥感图像中的汽车 | [46] | 提出了一种 segment-before-detect 的框架来检测遥感图像中的汽车 | [47] | 提出了一种 文本分割网络,可以同时检测和分割文本实例 | [48] | 加入mask分支 | [22]mask obb | 用二进制分割图来表示旋转目标 |
本文就是基于分割的方法来检测遥感图像中的目标。是基于实例分割框架Mask R-CNN的。
创新点
- 提出了CenterMap OBB来更好的表示OBB,减少了背景像素的影响。
- 分析了基于回归和分割的方法的优缺点。
- 设计了WPSGA-Net来学习全局的上下文信息。
效果
数据集 | HBB map | OBB map |
---|
DOTA | 77.33 | 76.03 | HRSC2016 | X | 92.8 | UCAS-AOD | X | 96.26 |
论文细节
Representations for Oriented Bounding Box
(a-c)展示的是基于回归的表示方法,d e 是基于分割的表示方法。 其中每种表示方法的优劣性具体见论文原文。
- 基于回归的表示方法即便能解决一些歧义问题,但是在某些极端的情况下,目标仅仅变了一点点,但是表示方法会改变很多,这就对收敛造成了非常不好的影响,因此本文采用的是基于分割的表示方法。
CenterMap OBB
- mask obb是对目标进行像素级分割,对目标区域设为1,背景区域设为0,但是有一些目标周围的背景像素(比如飞机),这会影响分割网络的收敛性,影响分割的效果。本文作者还统计了目标框内包含背景像素的数据信息,如下表:
所以,要想办法消除这些背景像素的影响,所以作者提出了 CenterMap OBB来更好的表达旋转目标。 - 不同于mask obb的只有0 1 像素, CenterMap OBB是在目标区域从中心点到四周衰变的一个像素分布。生成这种分布的方式有很多,比如高斯分布。
- 为了让中心区域接近1,边缘区域接近0,并以了(x,y)点的p(x,y)。l,r,r,b分别表示(x,y)到obb四个边界线的距离。k是调整obb形状的一个超参数。
- 如果一个像素落入多个obb,我们选择面积最小的一个。
- 这个地方没太看懂。。。
整体框架
与Mask OBB的mask obb的基本框架基本类似,就是修改了OBB的表达形式和WPSGA-Net。
- 图片先进入backbone提取深度特征,然后通过RPN生成proposals。
- 通过RoI Align从proposals提取固定大小的特征向量。
- 将特征向量输入全卷积输出类别,HBB,和OBB分支。
WPSGA-Net
为了进一步从杂乱的背景中提取感兴趣的目标区域,本文作者提出了WPSGA-Net。 semantic feature generation (SFG)是其核心。
- 对backbone FPN的后4层进行特征融合,第5、4、3层分别进行上采样至和第二层的特征图一样大小,然后将每层的输出进行特征融合为F,F经过全局平均池化层,1*1卷积,归一化,再经过sigmoid后得到F‘。F和F‘进行×的融合然后输出O。
- SFG后得到的O经过11卷积得到标签图L和分割图S。
L是用来算WPSGA-Net的算是的。gt map是由OBB groud truth产生的。 S是用来和HBB分支和OBB分支的特征图融合。从S中通过RoI Align提取77的和14*14的特征图分别用于HBB和OBB分支。
Loss function
- L RPN 是RPN 网络的loss 。
- L Head 是网路头部的损失。包括分类损失,HBB和OBB损失按照一定比例融合的损失。 L hbb是 smooth L1 loss。LOBB是MSE loss,
- L Seg是分割网络的损失
实验
超参设置的影响
主要的超参就是loss得分配比例和k。
不同OBB表示方法的比较
分析了五种不同的OBB表示方法对准确率的影响。可以看出在同样的backbone的情况下,Center Map的表示方式有更高的map,并且在OBB和HBB之间的gap更小。 这个图是对不同obb表示方法的可视化效果,明显e更好一些。 下面这个表示比较 mask obb和CenterMAP OBB表现方式在那些背景像素干扰的目标类上的识别能力。 baseline是mask obb,下表是与baseline 的比较 与当前的SOTA比较的表
新手小白,如有不对,欢迎批评指正!
|