[人工智能] [论文阅读] Adversarial Latent Autoencoders

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> [论文阅读] Adversarial Latent Autoencoders -> 正文阅读

[人工智能][论文阅读] Adversarial Latent Autoencoders

[论文地址] [代码] [CVPR 20]

Abstract

自动编码器网络是一种无监督的方法，旨在通过同时学习编码器-生成器图来结合生成和表示特性。虽然被广泛研究，但它们是否具有与GANs相同的生成能力，或者学习不相干的表征，这些问题还没有被完全解决。我们引入了一个自动编码器来共同解决这些问题，我们称之为对抗性潜自动编码器(ALAE)。它是一个通用架构，可以利用最近对GAN训练程序的改进。我们设计了两个自动编码器：一个基于MLP编码器，另一个基于StyleGAN的生成器，我们称之为StyleALAE。我们验证了这两种架构的解缠特性。我们表明，StyleALAE不仅可以生成1024x1024的人脸图像，其质量与StyleGAN相当，而且在相同的分辨率下还可以产生基于真实图像的人脸重建和操作。这使得ALAE成为第一个能够与纯生成器类型的架构相比较并超越其能力的自动编码器。

Method

本文是一篇将GAN的训练思想与VAE相进行结合的文章，其推理过程如下：
在这里插入图片描述
即，输入图像 $x$ ，经过编码器 $E$ 编码后，得到潜空间的潜向量 $w$ 。由于 $w$ 是解缠的，因此当 $w$ 输入生成器 $G$ 后，同时对 $G$ 施加一定的噪声 $\eta$ ，那么得到的生成图像 $G(w,\eta)$ 除了能够对 $x$ 进行重建(VAE的基本要求)之外，还要能对 $x$ 原有的某些属性进行修改。

其训练过程如下，可以看到就是把GAN的训练过程搬了过来，引入了额外的判别器 $D$ ：
在这里插入图片描述
首先，对于真实的图像 $x$ ，在经过编码器 $E$ 编码后，得到的潜向量(图中未标明)应被判别器 $D$ 判定为"真"。
与之相对的，对于随机噪声 $z$ ，其经过一个映射 $F$ 后，同样应得到一个潜向量 $w$ 。那么这个 $w$ 与噪声 $\eta$ 送入生成器 $G$ 进行生成后，得到生成图像 $G(w,\eta)$ 。这个图像经过编码器 $E$ 进行编码，再次得到一个潜向量。那么这个潜向量应该满足两个性质：
①与生成前的潜向量 $w$ 保持一致(图中的 $\Delta$ )。这样可以保证生成器 $G$ 是以 $w$ 为主进行图像重建，而非简单把 $w$ 和噪声 $\eta$ 给混在一起(直接混在一起的话编码器 $E$ 是没法从重建图像 $G(w,\eta)$ 中重新把 $w$ 给提出来的)。
②应该尽可能像由真实图像编码出的潜向量相似，即应该骗过判别器 $D$ 。这么做其实也是间接约束生成的图像 $\eta)$ 应该与真实图像 $x$ 相似。