Transferring GANs: generating images from limited data

Author Unit: Computer Vision Center Universitat Aut` onoma de Barcelona Spain

Authors: Yaxing Wang, Chenshen Wu, Luis Herranz, Joost van de Weijer, Abel Gonzalez-Garcia, Bogdan Raducanu

Code: https://github.com/yaxingwang/Transferring-GANs

Conference: ECCV 2018

Email: {yaxing, chenshen, lherranz, joost, agonzgarc, bogdan}@cvc.uab.es

Paper address: https://openaccess.thecvf.com/content_ECCV_2018/html/yaxing_wang_Transferring_GANs_generating_ECCV_2018_paper.html

Abstract. 我们尝试将 domain adaptation 应用到 GAN 中。我们评估了域自适应的几个方面，包括目标域大小的影响，源与目标域之间的相对距离，以及条件 GAN 的初始化。我们的结果表明，使用来自预训练网络的知识可以缩短收敛时间，并可以显著提高生成图像的质量，特别是在目标数据有限的情况下。我们表明，这些结论也可以得出条件 GAN ，即使预先训练的模型是没有条件的训练。我们的结果还表明，density 比 diversity 更重要，拥有一个或几个密集采样类的数据集是一个更好的源模型，而不是像 ImageNet 或 Places 这样更多样化的数据集。

Keywords: Generative adversarial networks, transfer learning, domain adaptation, image generation

1 Introduction

当使用预训练好的初始化网络时，可以用更少的图像来训练。

我们评估了几种 transfer 配置，并表明预先训练的网络可以有效地加速学习过程，并在数据有限的情况下提供有用的先验知识。
我们研究了源域和目标域之间的关系如何影响结果，并讨论了选择一个合适的预训练模型的问题，且看起来在判别任务的情况下更难进行选择。
我们评估了从无条件 GANs transfer 到有条件 GANs 的两种常见方法。

2 Related Work

Transfer learning/domain transfer: 对于训练数据有限或收敛速度慢的许多应用来说，通过微调预训练网络进行域自适应已成为默认方法[9,33]。

GAN:

cGAN:

3 Generative Adversarial Networks

3.1 Loss functions

这里是重述了一下 GAN 和 WGAN-GP 的损失函数。关于 WGAN 的介绍可以看这里。

3.2 Evaluation Metrics

使用了 FID 和 IW 来对 GAN 模型进行评估。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S1qAvoCm-1638889772402)(Transferring%20GANs%20generating%20images%20from%20limited%20d%20957e88d0a52b45eba1cd312f67146c76/Transferring_GANs_tab1.png)]

4 Transferring GAN representations

4.1 GAN adaptation

为了研究 domain transfer 对 GANs 的影响，我们将使用 WGAN-GP[15] 架构，该架构在生成器和鉴别器中都使用 ResNet。该生成器由一个全连接层、四个残差块和一个卷积层组成，鉴别器具有相同的设置。同样的架构也用于条件 GAN。

Implementation details 我们使用标准的超参数值生成 64×64 像素的图像。使用 Adam [24] 和 1e-4 的学习率，在 50K 次迭代（CelebA 的 10K 次迭代除外）期间用 batch size128 的图像训练源模型。对于微调，我们使用 64 的批量大小和 1e-4 的学习率（1K 目标样本的 1e-5 除外）。 Batch normalization 和 layer normalization 分别用于生成器和鉴别器。

4.2 Generator/discriminator transfer configuration

GAN 的两个网络 (生成器和鉴别器) 可以用随机或预先训练的权值 (来自源网络) 进行初始化。在第一个实验中，我们使用 ImageNet 预先训练的 GAN 来作源模型， 100K LSUN 卧室样本作为目标数据集，考虑了四种可能的组合。源 GAN 被训练为 50K 迭代。目标 GAN 被训练为 (额外的) 40K迭代。

结果如表1所示。有趣的是，我们发现转移鉴别器比转移生成器更重要。前者有助于改善 FID 和 IW 指标的结果，而后者仅在鉴别器已经转移时才有帮助，否则会损害性能。两者都转移获得最佳结果。我们还发现在这种情况下训练更加稳定。因此，在其余的实验中，我们评估了要么从头开始训练两个网络，要么对两者进行预训练。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XpWE0hof-1638889772418)(Transferring%20GANs%20generating%20images%20from%20limited%20d%20957e88d0a52b45eba1cd312f67146c76/Transferring_GANs_fig1.png)]
图1显示了有转移和无转移训练过程中FID和IW的演变。根据预先训练的模型改编的网络可以在显著减少的迭代中生成给定分数的图像。经过长时间的从头开始训练，可以显著减少这种差距，但预先训练的gan可以生成高质量的图像，而且迭代次数少得多。图2和图4显示了具体的示例，直观地说明了这些结论。

4.3 Size of the target dataset

训练图像的数量是获得真实图像的关键，特别是随着分辨率的增加。我们的实验设置包括生成 64×64 像素的图像，而 gan 通常需要数十万张训练图像才能获得令人信服的结果。我们在一个具有挑战性的环境中评估我们的方法， 我们只使用 LSUN 卧室数据集中的1000张图片，并使用 ImageNet 作为源数据集。请注意，一般来说，LSUN 卧室上评估的 gan 使用了 300 万张完整的图像。
在这里插入图片描述
表 2 显示了针对不同数量的目标域训练样本测量的 FID 和 IW。随着训练数据变得稀缺，训练集隐式地变得不那么具有完整数据集的代表性（即不那么多样化）。在本实验中，与从头训练的 GAN 相比，从预训练模型改编而来的 GAN 需要大约少 2 到 5 倍的图像就能获得相似的分数。 FID 和 IW 对这个因素很敏感，所以为了有一个下界，我们还测量了用作训练数据的特定子集和完整数据集之间的 FID。对于 1K 图像，该值甚至高于使用 100K 和 1M 图像训练后生成的样本的值。

初始化预先训练的 GAN 有助于改善所有情况下的结果，更重要的是目标数据是有限的。与下界的差异仍然很大，这表明在数据有限的情况下仍有有待改进的地方。

4.4 Source and target domains

源模型的域及其与目标域的关系也是一个关键因素。我们评估了源域和目标域的不同组合（详见表 3）。我们使用 ImageNet、Places、LSUN Bedrooms 和 CelebA 作为源数据集。请注意，ImageNet 和 Places 都涵盖了广泛的领域，分别在对象和场景中具有很大的多样性，而 LSUN Bedrooms 和 CelebA 则更密集地覆盖了一个狭窄的领域。作为目标，我们使用了较小的数据集，包括 Oxford Flowers、LSUN Kitchens（200 万张图像中的 50K 的子集）、Label Faces in the Wild (LFW) 和 CityScapes。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1bdPPwVq-1638889772429)(Transferring%20GANs%20generating%20images%20from%20limited%20d%20957e88d0a52b45eba1cd312f67146c76/Transferring_GANs_tab3.png)]

但也有一些有趣的例外。将 Flowers 作为目标的最佳源模型是ImageNet，这并不奇怪，因为它通常也包含花朵、植物和对象。更令人惊讶的是，根据FID (但 IW 没有这么明显) ，Bedrooms 也有竞争力。最有趣的例子可能是 kitchen，因为Places在数据集中有数千个kitchen，但也有更多不太相关的类。相比之下，Bedrooms 和 kitchen 虽然不是同一类，但在视觉和结构上仍然有很大的关联，所以 Bedrooms 中更大的相关图像集可能是一个更好的选择。在这一点上，FID 和 IW 并不一致，FID 显然更倾向于卧室，甚至是不太相关的ImageNet，而IW则有一点偏向于 Places。正如所料，CelebA是LFW的最佳来源，因为两者都包含人脸 (尽管具有不同的尺度)，但令人惊讶的是，卧室在这两个指标上的表现非常接近。对于 CityScapes，所有方法都有相似的结果 (在相似的范围内)，都有较高的 FID 和 IW ，这可能是由于到所有源域的距离很大。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-myXj6fVd-1638889772438)(Transferring%20GANs%20generating%20images%20from%20limited%20d%20957e88d0a52b45eba1cd312f67146c76/Transferring_GANs_fig3.png)]

4.5 Selecting the pre-trained model

4.6 Visualizing the adaptation process

5 Transferring to conditional GANs

5.1 Conditional GAN adaptation

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VUX581PB-1638889772443)(Transferring%20GANs%20generating%20images%20from%20limited%20d%20957e88d0a52b45eba1cd312f67146c76/Transferring_GANs_tab6.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fZ07Jm7P-1638889772450)(Transferring%20GANs%20generating%20images%20from%20limited%20d%20957e88d0a52b45eba1cd312f67146c76/Transferring_GANs_tab7.png)]

6 Conclusions

我们展示了如何将迁移学习的原理应用到生成特征中，以便使用 GAN 生成图像。GANs 和有条件的 GANs 受益于迁移的预先训练的模型，从而获得较低的 FID 评分和使用 less training data 来获得更具有辨识性的图像。与直觉相反，我们的实验表明， 传输判别器比传输生成器要关键得多 (但传输两个网络是最好的)。 值得注意的是，似乎需要一个更高的密度 (images per class) 来为图像生成学习良好的可转移特征，而不是 image discrimination (多样性似乎更关键)。因此， ImageNet 和 Places 虽然为判别器产生了优秀的可转移特征，但似乎不够密集，无法进行生成任务，而 LSUN 数据似乎是一个更好的选择，尽管它的多样性有限。然而，poor transferability 也可能与目前 GAN 技术的局限性有关，更好的 GAN 也会导致更好的 transferability。

我们的实验评估了在以前的工作中很少探索设置下的 GANs，并表明有许多开放的问题。这些设置包括在非常有限数据下的 GAN 和评估指标，为给定目标数据集估计最合适的预训练模型，以及设计更好的预训练 GAN 模型。

个人总结： 该论文就是将 fine-tuning 与 GAN 进行了一个结合，是这个方面的开篇之作，然后做了一些关于 transfer 影响因素的实验讨论。