研究什么内容
研究如何把生成图片当中的内容拆分开
研究方法
为了把各种风格分开先得把控制信息分开输入,于是作者就分开输入了,在PGGAN的基础上分开输入,取得了好的效果。
个人理解
- 1.这里能取得好效果的主要原因是PGGAN的逐渐提升像素的训练模型。
- 2.这里一开始的时候分辨率低,所以一影响,影响的比较大,所以更能决定性别、脸的朝向这些大的特征。(4×4的时候如果影响其中一个像素在1024×1024当中将会影响256×256,所以可以决定这些大的方向)
- 3.之后越往后分辨率越高,影响的就会更加细粒度的内容,如:头发等,整体的大方向不变了。改变的是那些改变一类像素就可以改变的信息,例如改变表示头发的像素就可以改变像素。需要改变好几种像素才能改变脸部朝向,所以不能改变脸部朝向。
这里更像是作画的时候从一个大的轮廓到小细节的不断作画的过程
网络模型
介绍网络各部分
这里的(a)traditional说的是PGGAN (b)里的左侧是分布变化网路 (b)里面的A是经过映射网络得到的一个长度为(2*channel)的向量 (b)里面的AdaIN是style迁移模块 (b)里面的B是一个噪声,他的大小是(dim×dim×channel),也就是和当前层网络内传递的内容是一样一样的。
分布变化网络
这里主要是把Z分布变成一个W分布,Z分布是高斯分布也就是正态分布,就是我们随机取一个值,之后经过这个网络把他变成W,这个W是实际上控制图像风格的东西。
- 1.作者自述这里的好处是控制输入更加贴近当前数据集,生成的内容也就更加接近真实。也就是说高斯分布不太适应这种操作,换成这里针对数据集而单独训练出来的W分布更好。
- 2.另外这里也是在之后被证明是更加能促进style分离的,更能完成论文的分离出样式的操作
映射网络
这里主要是决定不同层的Synthesis network到底改变什么,也就是让网络更加适应这个输入。(实际上就是对w做了一个仿射变化变为A)
style迁移模块
风格迁移模块,实际上就是分布迁移模块,实际上就是通过改变分布最终改变风格: 另外我们需要注意一下这里的i是卷积的通道的角标,就是每个通道做的是不同的风格迁移,而不是所有整个feature map做相同的风格迁移,是按照通道进行的风格迁移。
噪声
这里的噪声注意是每个像素单独准备一个噪声,噪声的大小和原有的Synthesis network当中传递的内容是大小完全不同的,不同像素不同,不同通道之间也不同。
效果(下面所说的浅层是网络一开始的地方)
浅层网络结合输入的A决定大方向,深层网络结合输入的A决定小细节
这里是用SourceB来干扰SourceA,先干扰浅层,再干扰奢深层
个人理解
这里一开始的时候分辨率低,所以一影响,影响的比较大,所以更能决定性别、脸的朝向这些大的特征,之后越往后分辨率越高,影响的就会更加细粒度的内容,如:头发等,整体的大方向不变了。(这里更像是作画的时候从一个大的轮廓到小细节的不断作画的过程)
噪声可以生成细节,浅层网络的噪声决定大细节,深层网络的噪声决定小细节
a)都有噪声 b)都没噪声 c)深层有噪声 d)浅层有噪声
个人对这个噪声的理解
我觉得这里还是因为一开始的分辨率低,一个噪声在未来的结果当中会影响一大块,所以一个噪声影响一个大细节
|