IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> [论文阅读] Adversarial Latent Autoencoders -> 正文阅读

[人工智能][论文阅读] Adversarial Latent Autoencoders

[论文地址] [代码] [CVPR 20]

Abstract

自动编码器网络是一种无监督的方法,旨在通过同时学习编码器-生成器图来结合生成和表示特性。虽然被广泛研究,但它们是否具有与GANs相同的生成能力,或者学习不相干的表征,这些问题还没有被完全解决。我们引入了一个自动编码器来共同解决这些问题,我们称之为对抗性潜自动编码器(ALAE)。它是一个通用架构,可以利用最近对GAN训练程序的改进。我们设计了两个自动编码器:一个基于MLP编码器,另一个基于StyleGAN的生成器,我们称之为StyleALAE。我们验证了这两种架构的解缠特性。我们表明,StyleALAE不仅可以生成1024x1024的人脸图像,其质量与StyleGAN相当,而且在相同的分辨率下还可以产生基于真实图像的人脸重建和操作。这使得ALAE成为第一个能够与纯生成器类型的架构相比较并超越其能力的自动编码器。


Method

本文是一篇将GAN的训练思想与VAE相进行结合的文章,其推理过程如下:
在这里插入图片描述
即,输入图像 x x x,经过编码器 E E E编码后,得到潜空间的潜向量 w w w。由于 w w w是解缠的,因此当 w w w输入生成器 G G G后,同时对 G G G施加一定的噪声 η \eta η,那么得到的生成图像 G ( w , η ) G(w,\eta) G(w,η)除了能够对 x x x进行重建(VAE的基本要求)之外,还要能对 x x x原有的某些属性进行修改。

其训练过程如下,可以看到就是把GAN的训练过程搬了过来,引入了额外的判别器 D D D
在这里插入图片描述
首先,对于真实的图像 x x x,在经过编码器 E E E编码后,得到的潜向量(图中未标明)应被判别器 D D D判定为"真"。
与之相对的,对于随机噪声 z z z,其经过一个映射 F F F后,同样应得到一个潜向量 w w w。那么这个 w w w与噪声 η \eta η送入生成器 G G G进行生成后,得到生成图像 G ( w , η ) G(w,\eta) G(w,η)。这个图像经过编码器 E E E进行编码,再次得到一个潜向量。那么这个潜向量应该满足两个性质:
①与生成前的潜向量 w w w保持一致(图中的 Δ \Delta Δ)。这样可以保证生成器 G G G是以 w w w为主进行图像重建,而非简单把 w w w和噪声 η \eta η给混在一起(直接混在一起的话编码器 E E E是没法从重建图像 G ( w , η ) G(w,\eta) G(w,η)中重新把 w w w给提出来的)。
②应该尽可能像由真实图像编码出的潜向量相似,即应该骗过判别器 D D D。这么做其实也是间接约束生成的图像 G ( w , η ) G(w, \eta) G(w,η)应该与真实图像 x x x相似。

从这里可以看到,ALAE的设计是比较巧妙的,在训练阶段是将噪声映射后送入生成器 G G G去生成,得到生成图像后,再编码,利用判别器判断其真实性,而非和GAN一样用判别器去直接判断图像本身是否生成;在测试阶段,则是按照传统的顺序,先用编码器 E E E编码,然后再用生成器 G G G生成。

按照原文的定义,其是将GAN中的生成器 G \mathcal{G} G和判别器 F \mathcal{F} F拆分为了两部分,即 G = G ° F \mathcal{G} = G \circ F G=G°F D = D ° E \mathcal{D} = D \circ E D=D°E

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-15 02:00:48  更:2022-09-15 02:01:54 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 22:52:30-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码