?代码

https://github.com/eladrich/pixel2style2pixel

?相关工作

一、W空间和W+空间：

1、（styleGAN和StyleGAN2）W空间：将一个真实图像编码到一个512维的向量w∈W空间，很难准确重构。

以往的方法往往是遵循“invert first, edit later”（先反转，再编辑）的原则：

首先将图像转换为StyleGAN的潜在空间，然后以语义上有意义的方式编辑潜在代码，以获得新的代码，然后StyleGAN使用该代码生成输出图像。

2、（styleGAN encoder；styleGAN2 encoder）W+ 空间：一个扩展的潜在空间；利用额外的encoder生成18个不同的512维w向量的拼接（concatenation）；然后输入到预训练的styleGAN generator中，生成图像。此类方法往往需要在W+空间对于每一个图像都进行优化；通过encoder在W+空间推断一个近似向量作为好的初始点，然后进行后续优化。

二、GAN Inversion?

GAN 反演首次被提出：Jun-Yan Zhu, Philipp Krahenb ¨ uhl, Eli Shechtman, and ¨Alexei A Efros. Generative visual manipulation on the natural image manifold. In European conference on computer vision, pages 597–613. Springer, 2016

三种常见的反演方法：

直接优化潜在向量以最小化给定图像的误差，
训练编码器将给定图像映射到潜在空间
两者结合的混合方法

三、Latent Space Manipulation 潜在空间编辑

一般的方法往往遵循，先反转再编辑的步骤，本文提出的方法将输入图像编码到相应的（期望的）输出潜在（output latent）中，允许处理不在StyleGAN域中的输入。

四、Image-to-Image：图像到图像转换（略）

论文贡献

1、提出一种可以生成一系列style code的编码器，该系列style code构成了W+空间，可以输入到预训练的styleGAN 生成器，进行图像编辑。

提出的编码器可以直接将真实图像嵌入到W+空间，而不需要任何的优化。该encoder，基于一个Feature Pyramid Network（特征金字塔网络），从不同的金字塔尺度提取风格向量；然后直接输入到预训练好的styleGAN生成器的对应尺度层。

2、存在一个局限：输入的真实图像必须存在着一个可以编辑的潜在编码。为了解决这一问题，提出了一种将提出编码器和预训练styleGAN generator 相结合的image-to-image translation（图像转换）的通用框架。

使用从编码器网络的最后一层获得的512维向量，直接将给定的输入图像编码为W+，从而获得18个风格向量（意思是获得18个相同的风格向量嘛？）。但是此类方法，获得的图像在更精细的方面存在不足。StyleGAN中也表明，不同的style input ，对应于不同的细节级别，大致可以分为粗粒度、中粒度和细粒度三个级别。