IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文解读:GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network -> 正文阅读

[人工智能]论文解读:GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network

1.瓶颈问题:

小尺度目标,受限于缺乏足够的目标特征信息,使之很难从背景中区分出来,且小尺度目标一般都是低分辨率、模糊不清的,因此检测性能一般

CNN-based目标检测算法都需要使用到下采样操作,导致小尺度目标不仅损失了空间位置信息,且本来很少的目标特征几乎被背景上的特征给淹没了

2.本文贡献:

提出了一种用于小物体检测的新型统一端到端多任务生成对抗网络(MTGAN),可以与任何现有的检测器结合使用

在MTGAN中,生成器网络生成超分辨率图像,并引入多任务判别器网络,以同时区分真实的高分辨率图像与伪造图像,预测对象类别和细化边界框。 更重要的是,分类和回归损失被反向传播,以进一步指导生成器网络产生超分辨率图像,以便更容易分类和更好的定位。

最后,证明了MTGAN在目标检测的有效性,其中检测性能比几个最先进的检测器(主要用于小物体)提高了很多

3.解决方案:

?

(A) 整体网络输入图像

(B) 检测器将输入图像中的目标和背景分离(裁剪方式,相当于RPN提取ROI),之后将其用于训练生成器和判别器,或者是测试时提取ROI

(C) 检测器生成的正样本和负样本

(D) 生成器是一个超分辨率网络,将低分辨率图像生成超分辨率

(E) 判别器是一个多任务网络,其输入来自生成器生成的超分辨率图像,判断图像真假,图像分类,图像回归(相当于在原始判别器上加了分类和回归的分支,引入检测任务)

判别器是一个多任务网络,其梯度反传给生成器,让生成器生成的图像朝着以下方向生成(高分辨率,易于分类和回归)

判别器三个分支(检测图像真假分支最后用sigmoid输出,分类分支最后用softmax输出,回归分支最后输出为 (x,y,w,h))

生成器和判别器网络结构:(x5表示含有五层卷积的残差块)

?

?

总体设计目标函数:(这个只是大概的函数,后面会具体的拆分)

I^{LR}表示低分辨率图像

I^{HR}表示高分辨率图像

u 表示类别标签值

v 表示检测框回归标签值

θ 表示判别器网络参数

w 表示生成器参数

目标函数细节:

(1) MSE-LOSS 最小化使其接近真实图像,但缺点是比较模糊

(2) Adversarial Loss 加入对抗损失提高细节重建能力,骗过判别器

?

(3) Classification Loss 分类损失

?

和 分别代表生成的图像属于u类别的概率,真实图像输入u类别的概率。

(4)Regression Loss 回归损失,SR表示生成的超分,ui=0时是背景类无回归值

?

smmoth L1 loss?

?

总体目标函数:其中 α、β 和 γ 是权衡不同项的权重(α = 0.001, β = γ = 0.01)

4.实验:?

在COCO数据集上进行实验

初期GAN不太稳定,为了避免局部最优,首先训练一个基于MSE的SR网络来初始化生成器网络。

COCO minival subset

?

第一列:真实低分辨率图像

第二列:真实高分辨率图像

第三列:生成高分辨率图像

?

消融实验:

?

对比SOTA检测模型:

红色:模型预测

绿色:真实标签

?

作者结尾说还有不少改进的空间...

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-08 22:28:33  更:2022-03-08 22:31:26 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 16:29:10-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码