IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【少样本图像生成】Towards Faster And Stabilized GAN training for high-fidelity few-shot image synthesis -> 正文阅读

[人工智能]【少样本图像生成】Towards Faster And Stabilized GAN training for high-fidelity few-shot image synthesis

【少样本图像生成】TOWARDS FASTER AND STABILIZED GAN TRAINING FOR HIGH-FIDELITY FEW-SHOT IMAGE SYNTHESIS 论文阅读笔记

开源代码: https://github.com/odegeasslbc/FastGAN-pytorch

首先这篇文章会分析一下模型的效果,优缺点,然后再解释网络结构。

模型效果分析

从论文里的图来看,效果是很不错的。以下是用1024x1024像素在2080-Ti GPU上训练的,数据集大小1000.左边训练了20小时,右边训练了10个小时。
细看的话还存在不少瑕疵,比如右边的男人图片有生成长发的错误。
在这里插入图片描述
再由于我个人需求,对动漫人物的生成做一下重点分析。这是对比了StyleGAN2和本文模型的效果,两个模型同样都训练了10个小时。粗看是没有什么问题的。然后是细节上的问题:两只眼睛颜色、大小会不一样(这个缺点我记得有一篇论文解决了,忘记是哪个了,之后补充一下。)头发和帽子也存在问题。根据作者公开的数据集,anime face数据集大小为120张512x512大小的图片。
在这里插入图片描述
然后是我人用了自己的数据集(399张相同动漫人物的图片),按照源代码的默认参数训练的模型。效果差强人意。训练了10000个迭代,每个迭代4 batch size。可以看到虽然每张图片都把人物的特点(帽子,帽子上的标,桃花,梅花眼)捕捉到了,但是人物却出现扭曲。如果要把这个模型适配到动漫人物,大概还需要参照其他模型做一下改变。
在这里插入图片描述
接下来就是技术上的部分了。

模型结构

整体网络结构包含一个generator,一个discriminator。作者对generator做了精简,在每一个分辨率只包含了一个卷积层,在大于512分辨率的高层只使用了3通道。这些都使得模型训练速度很快,而且也不大(G和D总共155MB)。

G中有一个创新结构——Skip-Layer channel-wise Excitation(SLE)模块。从名字来看,是残差块ResBlock里的skip-layer的变种,ResBlock可以让网络深度变得很深(网络太深会出现梯度消失\爆炸问题),但需要的计算资源较高。
看图,左边就是这个模块的网络结构。下面详细介绍一下:
在这里插入图片描述
这是ResBlock的结构。
在这里插入图片描述
对比Skip-Layer Excitation(SLE)模块和ResBlock,有几个区别:

  1. ResBlock最后是对两个特征图做的加法,而SLE做的是乘法。加法要求两个特征图分辨率相同,而乘法则没有这个要求,节约了大量计算。
  2. SLE拥有分离style和content的性质,它的输入有两个大小不一样的特征图,如果把小一点的特征图改为style图片,就可以实现风格迁移。

然后我们再看G的整体结构,稍微对模型做一下修改,它就可以生成任意大小(局限于2的次方)的图片。

接着是基于自监督学习的Discriminator。
它的实现思路很简单,不过效果惊人(以我做实验的数据来看,只有部分细节差强人意):将D视作一个encoder,然后用一个小型decoder辅助训练。encoder从图片里提取特征,然后这些特征被输入到decoder里面要求根据特征重建图片。这样就可以迫使D学习到特征的准确性(训练的时候重建效果远好于G,有没有可能出现数据泄露的问题?)。
decoder也是从零开始训练的,它只用了重建损失做训练。(公式里,G(f)是decoder从D提取的特征图再重建的图片,T(x)是对real sample做处理,使其可以计算损失)
在这里插入图片描述
思路和CycleGAN是有一些像的,只是本文里额外用了一个小decoder重建,而不是用G。(这样做的效果也许是减轻了运算压力?)
下面是整体D的结构。
省去一些细节的部分,可以看到decoder是在16x16像素和8x8像素进行重建的,分别重建的是图片的局部和整体。下面有一张我训练得到的重建图,可以看到重建效果是很不错的。(有一个奇怪的点是Loss一直没下降,所以会不会是D的问题?)
在这里插入图片描述
在这里插入图片描述
总体loss为(采用了hinge loss):
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-03 16:13:20  更:2022-03-03 16:18:07 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 2:40:35-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码