IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Labels4Free: Unsupervised Segmentation using StyleGAN论文解读 -> 正文阅读

[人工智能]Labels4Free: Unsupervised Segmentation using StyleGAN论文解读

入选ICCV2021,官方page website,暂未开源
paper还是很有创意的,只是pipeline搭建起来很繁琐,还有很大的改进空间。

背景

styleGAN等生成对抗网络可以生成逼真的图像,生成器的中间特征已经有了前景和背景的特征学习能力,但目前没有方法研究让GAN生成图像的同时,还生成前景目标的mask。本篇paper正是为了解决该问题。
作者基于两种假设

  • 前景和背景是独立的,因此独立生成然后组合,也能生成逼真的图像。
  • 生成器的中间特征学习到了前背景特征分布,是可以利用起来,用于生成前景目标的mask的
    在这里插入图片描述

Method

基于以上假设,作者将stylegan增加了一个Mask分支。同时整个框架分成3个部分。

  • G G G,用于生成前景目标和mask,其中包含了一个预训练的stylegan和生成mask的 A A A网络
  • G b g G_{bg} Gbg?,用于生成背景图像,包含经过修改特征图的预训练的stylegan
  • D D D,判别器,从头训练。
    在这里插入图片描述

生成的图像通过以下公式得到:
G ( z ) × A ( z ) + ( 1 ? A ( z ) ) × G b g ( z ′ ) G(z) \times A(z) + (1-A(z)) \times G_{bg}(z') G(z)×A(z)+(1?A(z))×Gbg?(z)

Alpha Network

生成mask的A网络,类似Unet的结构,从stylegan中间特征出发,设计了一个逐层上采样特征融合的轻量型模型。
在文中,作者提到的这一段,笔者并没有理解啥意思,如果有看懂的人,可以帮笔者解答一下。
在这里插入图片描述

生成背景的 G b g G_{bg} Gbg?

作者刚开始是使用预训练的stylegan初始化的 G b g G_{bg} Gbg?,但实验失败了,作者猜测这是因为stylegan已经学习了背景和前景的特征,训练出来的模型,生成的图像总是混杂了前景,无法用于仅生成背景。作者又在其他数据集(MIT places)上训练,发现判别器可以很轻松鉴别出不属于目标数据集(FFHQ等)的背景分布,导致生成的mask质量不佳。
因此,作者做了一种极具大胆创新的做法,他认为,stylegan已经学会了辨别前景背景。找到哪些channel对应了背景特征,然后把其他channel设置为0,就能把生成前景目标的功能去除。
那么如何找到这些channel呢?作者提出了一种基于计算梯度图的方式。
在这里插入图片描述
这个过程有点类似grad-cam,计算出哪些位置对目标函数的影响最大,则那些位置最有可能是前景位置,然后在统计每一个layer的gradient map,每个channel的梯度和。作者通过这种方式发现,第一个constant layer和w code注入的那个层,对应的梯度和是最大的。
作者提到,通过阈值去判断哪些channel需要设置0,会让部分背景依然还有前景目标,因此训练中是采用更加安全的措施,直接将指定的layer(constant layer和w code注入的那个层)设置为0。

训练过程

作者仅训练A和D,其他都是freeze的。没有对D使用path regularization,并且没有使用style mixing。
D是从头训练的,因此是一个弱鉴别器(博弈中弱于G),避免D在初期就很容易鉴别前景和背景。
还使用了一个regularization,但笔者没有看懂其中的含义。留待以后在研究。

在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-06 11:07:54  更:2021-09-06 11:08:06 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 19:35:48-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码