论文基本信息

标题：Learning Center Probability Map for Detecting Objects in Aerial Images
作者：Jinwang Wang , Wen Yang , Senior Member, IEEE, Heng-Chao Li ,Haijian Zhang , and Gui-Song Xia, Senior Member, IEEE
机构：School of Electronic Information, Wuhan University, Wuhan
来源：T-GRS
时间：2020
论文地址：https://ieeexplore.ieee.org/abstract/document/9151222
code：

论文概要

解决问题

已有方法

regression-based

直接回归OBBs。所有的改类别的方法，都是依赖于对OBB的精确的表示。

方法	简述
[42]	提出了RoI polling 来检侧旋转的船只
[15]FR-O	回归OBB与HBB的偏移量
[17]ICN	加入了图片级联，和FPN来提取语义信息，同样还是来回归偏移量
[43]RRPN	提出了旋转RPN来产生一些有优先级的带有角度信息的proposals，然后再回归偏移量
[21]R-DFON	应用RRPN,提出了密集特征金字塔网络来解决传播宽度窄的问题
[18]ROI	设计了RoI learner 通过有监督的方法，变换垂直RoI 为旋转ROI

segmentation-based

这种方法是通过获得目标的像素级的分类，然后通过后处理由mask图获得对应的OBBs。这种基于分割的方法在文本检测中较多，在遥感目标检测领域并不是很多。

方法	简述
[44]RBMDeepNet	提出一种混合方法，结合了CNN和RBM 用于检测遥感图像中的汽车
[46]	提出了一种 segment-before-detect 的框架来检测遥感图像中的汽车
[47]	提出了一种文本分割网络，可以同时检测和分割文本实例
[48]	加入mask分支
[22]mask obb	用二进制分割图来表示旋转目标

本文就是基于分割的方法来检测遥感图像中的目标。是基于实例分割框架Mask R-CNN的。

创新点

提出了CenterMap OBB来更好的表示OBB，减少了背景像素的影响。
分析了基于回归和分割的方法的优缺点。
设计了WPSGA-Net来学习全局的上下文信息。

效果

数据集	HBB map	OBB map
DOTA	77.33	76.03
HRSC2016	X	92.8
UCAS-AOD	X	96.26

论文细节

Representations for Oriented Bounding Box

在这里插入图片描述
(a-c)展示的是基于回归的表示方法，d e 是基于分割的表示方法。
其中每种表示方法的优劣性具体见论文原文。

基于回归的表示方法即便能解决一些歧义问题，但是在某些极端的情况下，目标仅仅变了一点点，但是表示方法会改变很多，这就对收敛造成了非常不好的影响，因此本文采用的是基于分割的表示方法。

CenterMap OBB

mask obb是对目标进行像素级分割，对目标区域设为1，背景区域设为0，但是有一些目标周围的背景像素（比如飞机），这会影响分割网络的收敛性，影响分割的效果。本文作者还统计了目标框内包含背景像素的数据信息，如下表：

所以，要想办法消除这些背景像素的影响，所以作者提出了 CenterMap OBB来更好的表达旋转目标。
不同于mask obb的只有0 1 像素， CenterMap OBB是在目标区域从中心点到四周衰变的一个像素分布。生成这种分布的方式有很多，比如高斯分布。
为了让中心区域接近1，边缘区域接近0，并以了(x,y)点的p(x,y)。l,r,r,b分别表示（x,y）到obb四个边界线的距离。k是调整obb形状的一个超参数。
如果一个像素落入多个obb，我们选择面积最小的一个。
这个地方没太看懂。。。

整体框架

在这里插入图片描述
与Mask OBB的mask obb的基本框架基本类似，就是修改了OBB的表达形式和WPSGA-Net。

图片先进入backbone提取深度特征，然后通过RPN生成proposals。
通过RoI Align从proposals提取固定大小的特征向量。
将特征向量输入全卷积输出类别，HBB，和OBB分支。

WPSGA-Net

为了进一步从杂乱的背景中提取感兴趣的目标区域，本文作者提出了WPSGA-Net。 semantic feature generation (SFG)是其核心。
在这里插入图片描述

对backbone FPN的后4层进行特征融合，第5、4、3层分别进行上采样至和第二层的特征图一样大小，然后将每层的输出进行特征融合为F，F经过全局平均池化层，1*1卷积，归一化，再经过sigmoid后得到F‘。F和F‘进行×的融合然后输出O。
SFG后得到的O经过11卷积得到标签图L和分割图S。
L是用来算WPSGA-Net的算是的。gt map是由OBB groud truth产生的。
S是用来和HBB分支和OBB分支的特征图融合。从S中通过RoI Align提取77的和14*14的特征图分别用于HBB和OBB分支。

Loss function

在这里插入图片描述

L RPN 是RPN 网络的loss 。
L Head 是网路头部的损失。包括分类损失，HBB和OBB损失按照一定比例融合的损失。 L hbb是 smooth L1 loss。LOBB是MSE loss，
- L Seg是分割网络的损失

实验

超参设置的影响

主要的超参就是loss得分配比例和k。
在这里插入图片描述

不同OBB表示方法的比较

分析了五种不同的OBB表示方法对准确率的影响。可以看出在同样的backbone的情况下，Center Map的表示方式有更高的map，并且在OBB和HBB之间的gap更小。
在这里插入图片描述
这个图是对不同obb表示方法的可视化效果，明显e更好一些。

下面这个表示比较 mask obb和CenterMAP OBB表现方式在那些背景像素干扰的目标类上的识别能力。

baseline是mask obb，下表是与baseline 的比较

与当前的SOTA比较的表
在这里插入图片描述