IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Learning Center Probability Map for Detecting Objects in Aerial Images 论文学习笔记 -> 正文阅读

[人工智能]Learning Center Probability Map for Detecting Objects in Aerial Images 论文学习笔记

论文基本信息

  • 标题:Learning Center Probability Map for Detecting Objects in Aerial Images
  • 作者:Jinwang Wang , Wen Yang , Senior Member, IEEE, Heng-Chao Li ,Haijian Zhang , and Gui-Song Xia, Senior Member, IEEE
  • 机构:School of Electronic Information, Wuhan University, Wuhan
  • 来源:T-GRS
  • 时间:2020
  • 论文地址:https://ieeexplore.ieee.org/abstract/document/9151222
  • code:

论文概要

解决问题

已有方法

regression-based

直接回归OBBs。所有的改类别的方法,都是依赖于对OBB的精确的表示。

方法简述
[42]提出了RoI polling 来检侧旋转的船只
[15]FR-O回归OBB与HBB的偏移量
[17]ICN加入了图片级联,和FPN来提取语义信息,同样还是来回归偏移量
[43]RRPN提出了旋转RPN来产生一些有优先级的带有角度信息的proposals,然后再回归偏移量
[21]R-DFON应用RRPN,提出了密集特征金字塔网络来解决传播宽度窄的问题
[18]ROI设计了RoI learner 通过有监督的方法,变换垂直RoI 为 旋转ROI

segmentation-based

这种方法是通过获得目标的像素级的分类,然后通过后处理由mask图获得对应的OBBs。这种基于分割的方法在文本检测中较多,在遥感目标检测领域并不是很多。

方法简述
[44]RBMDeepNet提出一种混合方法,结合了CNN和RBM 用于检测遥感图像中的汽车
[46]提出了一种 segment-before-detect 的框架来检测遥感图像中的汽车
[47]提出了一种 文本分割网络,可以同时检测和分割文本实例
[48]加入mask分支
[22]mask obb用二进制分割图来表示旋转目标

本文就是基于分割的方法来检测遥感图像中的目标。是基于实例分割框架Mask R-CNN的。

创新点

  • 提出了CenterMap OBB来更好的表示OBB,减少了背景像素的影响。
  • 分析了基于回归和分割的方法的优缺点。
  • 设计了WPSGA-Net来学习全局的上下文信息。

效果

数据集HBB mapOBB map
DOTA77.3376.03
HRSC2016X92.8
UCAS-AODX96.26

论文细节

Representations for Oriented Bounding Box

在这里插入图片描述
(a-c)展示的是基于回归的表示方法,d e 是基于分割的表示方法。
其中每种表示方法的优劣性具体见论文原文。

  • 基于回归的表示方法即便能解决一些歧义问题,但是在某些极端的情况下,目标仅仅变了一点点,但是表示方法会改变很多,这就对收敛造成了非常不好的影响,因此本文采用的是基于分割的表示方法。

CenterMap OBB

  • mask obb是对目标进行像素级分割,对目标区域设为1,背景区域设为0,但是有一些目标周围的背景像素(比如飞机),这会影响分割网络的收敛性,影响分割的效果。本文作者还统计了目标框内包含背景像素的数据信息,如下表:
    在这里插入图片描述
    所以,要想办法消除这些背景像素的影响,所以作者提出了 CenterMap OBB来更好的表达旋转目标。
  • 不同于mask obb的只有0 1 像素, CenterMap OBB是在目标区域从中心点到四周衰变的一个像素分布。生成这种分布的方式有很多,比如高斯分布。
  • 为了让中心区域接近1,边缘区域接近0,并以了(x,y)点的p(x,y)。l,r,r,b分别表示(x,y)到obb四个边界线的距离。k是调整obb形状的一个超参数。
    在这里插入图片描述
  • 如果一个像素落入多个obb,我们选择面积最小的一个。
  • 这个地方没太看懂。。。
    在这里插入图片描述

整体框架

在这里插入图片描述
与Mask OBB的mask obb的基本框架基本类似,就是修改了OBB的表达形式和WPSGA-Net。

  • 图片先进入backbone提取深度特征,然后通过RPN生成proposals。
  • 通过RoI Align从proposals提取固定大小的特征向量。
  • 将特征向量输入全卷积输出类别,HBB,和OBB分支。

WPSGA-Net

为了进一步从杂乱的背景中提取感兴趣的目标区域,本文作者提出了WPSGA-Net。 semantic feature generation (SFG)是其核心。
在这里插入图片描述

  • 对backbone FPN的后4层进行特征融合,第5、4、3层分别进行上采样至和第二层的特征图一样大小,然后将每层的输出进行特征融合为F,F经过全局平均池化层,1*1卷积,归一化,再经过sigmoid后得到F‘。F和F‘进行×的融合然后输出O。
  • SFG后得到的O经过11卷积得到标签图L和分割图S。
    L是用来算WPSGA-Net的算是的。gt map是由OBB groud truth产生的。
    S是用来和HBB分支和OBB分支的特征图融合。从S中通过RoI Align提取7
    7的和14*14的特征图分别用于HBB和OBB分支。

Loss function

在这里插入图片描述

  • L RPN 是RPN 网络的loss 。
  • L Head 是网路头部的损失。包括分类损失,HBB和OBB损失按照一定比例融合的损失。 L hbb是 smooth L1 loss。LOBB是MSE loss,
    在这里插入图片描述- L Seg是分割网络的损失
    在这里插入图片描述

实验

超参设置的影响

主要的超参就是loss得分配比例和k。
在这里插入图片描述

不同OBB表示方法的比较

分析了五种不同的OBB表示方法对准确率的影响。可以看出在同样的backbone的情况下,Center Map的表示方式有更高的map,并且在OBB和HBB之间的gap更小。
在这里插入图片描述
这个图是对不同obb表示方法的可视化效果,明显e更好一些。
在这里插入图片描述
下面这个表示比较 mask obb和CenterMAP OBB表现方式在那些背景像素干扰的目标类上的识别能力。
在这里插入图片描述
baseline是mask obb,下表是与baseline 的比较
在这里插入图片描述
与当前的SOTA比较的表
在这里插入图片描述

新手小白,如有不对,欢迎批评指正!

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-24 10:34:02  更:2021-09-24 10:36:17 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 12:34:50-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码