IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 阅读笔记 -> 正文阅读

[数据结构与算法]Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 阅读笔记

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation

?代码

https://github.com/eladrich/pixel2style2pixel

?相关工作

一、W空间和W+空间:

1、(styleGAN和StyleGAN2)W空间:将一个真实图像编码到一个512维的向量wW空间,很难准确重构。

以往的方法往往是遵循“invert first, edit later”(先反转,再编辑)的原则:

首先将图像转换为StyleGAN的潜在空间,然后以语义上有意义的方式编辑潜在代码,以获得新的代码,然后StyleGAN使用该代码生成输出图像

2、(styleGAN encoder;styleGAN2 encoder)W+ 空间:一个扩展的潜在空间;利用额外的encoder生成18个不同的512维w向量的拼接(concatenation);然后输入到预训练的styleGAN generator中,生成图像。此类方法往往需要在W+空间对于每一个图像都进行优化;通过encoder在W+空间推断一个近似向量作为好的初始点,然后进行后续优化。

二、GAN Inversion?

GAN 反演 首次被提出:Jun-Yan Zhu, Philipp Krahenb ¨ uhl, Eli Shechtman, and ¨Alexei A Efros. Generative visual manipulation on the natural image manifold. In European conference on computer vision, pages 597–613. Springer, 2016

三种常见的反演方法:

  1. 直接优化潜在向量以最小化给定图像的误差,
  2. 训练编码器将给定图像映射到潜在空间
  3. 两者结合的混合方法

三、Latent Space Manipulation 潜在空间编辑

一般的方法往往遵循,先反转再编辑的步骤,本文提出的方法将输入图像编码到相应的(期望的)输出潜在(output latent)中,允许处理不在StyleGAN域中的输入

四、Image-to-Image图像到图像转换(略)

论文贡献

1、提出一种可以生成一系列style code的编码器,该系列style code构成了W+空间,可以输入到预训练的styleGAN 生成器,进行图像编辑。

提出的编码器可以直接将真实图像嵌入到W+空间,而不需要任何的优化。该encoder,基于一个Feature Pyramid Network(特征金字塔网络),从不同的金字塔尺度提取风格向量;然后直接输入到预训练好的styleGAN生成器的对应尺度层。

2、存在一个局限:输入的真实图像必须存在着一个可以编辑的潜在编码。为了解决这一问题,提出了一种将提出编码器和预训练styleGAN generator 相结合的image-to-image translation(图像转换)的通用框架

使用从编码器网络的最后一层获得的512维向量,直接将给定的输入图像编码为W+,从而获得18个风格向量(意思是获得18个相同的风格向量嘛?)。但是此类方法,获得的图像在更精细的方面存在不足。StyleGAN中也表明,不同的style input ,对应于不同的细节级别,大致可以分为粗粒度、中粒度和细粒度三个级别。

?网络结构

紫色框--实际上通过随机抽样向量wR512,并通过复制w生成在w +中的,相应的潜在代码。style-mixing 如下图所示。

损失函数

?像素损失:

?

感知损失(感知相似度):

正则化损失:鼓励生成的style code 与styleGAN的平均style code的一致性

identity 损失:保证身份信息的一致性。 R表示预训练的ArcFace网络

总的损失函数:

数据集

AFHQ Cat and AFHQ Dog datasets

CelebA-HQ dataset

FFHQ dataset

?评价指标

重构图像质量:?Similarity # LPIPS # MSE # Runtime

Human Perceptual Study

?实验结果

StyleGAN Inversion styleGAN 反演)

?

目录

?代码

?相关工作

论文贡献

?网络结构

损失函数

数据集

?评价指标

?实验结果



  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-10-08 12:01:22  更:2021-10-08 12:04:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 6:55:29-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码