1. 介绍

发表于2021年，来自德国海德堡大学IWR研究团队。最大的亮点在于其可以生成百万像素级别的图片。
在这里插入图片描述
VQGAN的突出点在于其使用codebook来离散编码模型中间特征，并且使用Transformer（GPT-2模型）作为编码生成工具。codebook的思想在VQVAE中已经提出，而VQGAN的整体架构大致是将VQVAE的编码生成器从pixelCNN换成了Transformer，并且在训练过程中使用PatchGAN的判别器加入对抗损失。

2. 详情

在这里插入图片描述
整理一下，输入x，通过编码器E得到z，然后离散化得到 $z_q$ ，然后解码器G得到 $\hat{x}$

训练的部分和VQ-VAE基本相同，自监督损失为：
在这里插入图片描述
另一部分损失为GAN中的对抗loss，比如用 $E(D(\hat{x}))$ 。
对于判别器D（patch-based）而言，其损失函数可以笼统地表示为
$L_{GAN}(\{E,G,Z \},D) = E(D(x))+E(1-D(\hat{x}))$
则优化目标为：

到这里，我们训练除了code book Z，cnn生成器E，和cnn解码器G

3. transformer使用

生成图片的时候，我们并没有x，因此在最终生成结果时，我们需要丢弃掉CNN生成器E，而使用transformer来生成z。我们从Z中选一个初始的code，然后用transformer一步步推出完整的code列表，然后再送入G进行解码。
训练方法是，使用当前的 $z_q\in R^{h\times w\times n_{z}}$ ，得到 $h w$ 个维度为 $n_{z}$ 的code，随机替换其中一部分code，即modified_indices，通过训练使用transformer重构出unmodified_indices。训练损失函数为cross-entropy交叉熵损失。