[人工智能] 论文解读：GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文解读：GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network -> 正文阅读

[人工智能]论文解读：GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network

1.瓶颈问题：

小尺度目标，受限于缺乏足够的目标特征信息，使之很难从背景中区分出来，且小尺度目标一般都是低分辨率、模糊不清的，因此检测性能一般

CNN-based目标检测算法都需要使用到下采样操作，导致小尺度目标不仅损失了空间位置信息，且本来很少的目标特征几乎被背景上的特征给淹没了

2.本文贡献：

提出了一种用于小物体检测的新型统一端到端多任务生成对抗网络（MTGAN），可以与任何现有的检测器结合使用

在MTGAN中，生成器网络生成超分辨率图像，并引入多任务判别器网络，以同时区分真实的高分辨率图像与伪造图像，预测对象类别和细化边界框。更重要的是，分类和回归损失被反向传播，以进一步指导生成器网络产生超分辨率图像，以便更容易分类和更好的定位。

最后，证明了MTGAN在目标检测的有效性，其中检测性能比几个最先进的检测器（主要用于小物体）提高了很多

3.解决方案：

（A）整体网络输入图像

（B）检测器将输入图像中的目标和背景分离（裁剪方式，相当于RPN提取ROI），之后将其用于训练生成器和判别器，或者是测试时提取ROI

（C）检测器生成的正样本和负样本

（D）生成器是一个超分辨率网络，将低分辨率图像生成超分辨率

（E）判别器是一个多任务网络，其输入来自生成器生成的超分辨率图像，判断图像真假，图像分类，图像回归（相当于在原始判别器上加了分类和回归的分支，引入检测任务）

判别器是一个多任务网络，其梯度反传给生成器，让生成器生成的图像朝着以下方向生成（高分辨率，易于分类和回归）

判别器三个分支（检测图像真假分支最后用sigmoid输出，分类分支最后用softmax输出，回归分支最后输出为 (x,y,w,h)）

生成器和判别器网络结构：（x5表示含有五层卷积的残差块）

总体设计目标函数：（这个只是大概的函数，后面会具体的拆分）

I^{LR}表示低分辨率图像

I^{HR}表示高分辨率图像

u 表示类别标签值

v 表示检测框回归标签值

θ 表示判别器网络参数

w 表示生成器参数

目标函数细节：

（1） MSE-LOSS 最小化使其接近真实图像，但缺点是比较模糊

（2） Adversarial Loss 加入对抗损失提高细节重建能力，骗过判别器

（3） Classification Loss 分类损失

和分别代表生成的图像属于u类别的概率，真实图像输入u类别的概率。

（4）Regression Loss 回归损失，SR表示生成的超分，ui=0时是背景类无回归值

smmoth L1 loss?

总体目标函数：其中 α、β 和 γ 是权衡不同项的权重（α = 0.001, β = γ = 0.01）

4.实验：?

在COCO数据集上进行实验

初期GAN不太稳定，为了避免局部最优，首先训练一个基于MSE的SR网络来初始化生成器网络。

COCO minival subset

第一列：真实低分辨率图像

第二列：真实高分辨率图像

第三列：生成高分辨率图像

消融实验：

对比SOTA检测模型：

红色：模型预测

绿色：真实标签

作者结尾说还有不少改进的空间...

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-03-08 22:28:33 更:2022-03-08 22:31:26

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/29 23:29:09-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码