| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 数据结构与算法 -> Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 阅读笔记 -> 正文阅读 |
|
[数据结构与算法]Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 阅读笔记 |
Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation ?代码https://github.com/eladrich/pixel2style2pixel ?相关工作一、W空间和W+空间:1、(styleGAN和StyleGAN2)W空间:将一个真实图像编码到一个512维的向量w∈W空间,很难准确重构。 以往的方法往往是遵循“invert first, edit later”(先反转,再编辑)的原则: 首先将图像转换为StyleGAN的潜在空间,然后以语义上有意义的方式编辑潜在代码,以获得新的代码,然后StyleGAN使用该代码生成输出图像。 2、(styleGAN encoder;styleGAN2 encoder)W+ 空间:一个扩展的潜在空间;利用额外的encoder生成18个不同的512维w向量的拼接(concatenation);然后输入到预训练的styleGAN generator中,生成图像。此类方法往往需要在W+空间对于每一个图像都进行优化;通过encoder在W+空间推断一个近似向量作为好的初始点,然后进行后续优化。 二、GAN Inversion?GAN 反演 首次被提出:Jun-Yan Zhu, Philipp Krahenb ¨ uhl, Eli Shechtman, and ¨Alexei A Efros. Generative visual manipulation on the natural image manifold. In European conference on computer vision, pages 597–613. Springer, 2016 三种常见的反演方法:
三、Latent Space Manipulation 潜在空间编辑一般的方法往往遵循,先反转再编辑的步骤,本文提出的方法将输入图像编码到相应的(期望的)输出潜在(output latent)中,允许处理不在StyleGAN域中的输入。 四、Image-to-Image:图像到图像转换(略)论文贡献1、提出一种可以生成一系列style code的编码器,该系列style code构成了W+空间,可以输入到预训练的styleGAN 生成器,进行图像编辑。 提出的编码器可以直接将真实图像嵌入到W+空间,而不需要任何的优化。该encoder,基于一个Feature Pyramid Network(特征金字塔网络),从不同的金字塔尺度提取风格向量;然后直接输入到预训练好的styleGAN生成器的对应尺度层。 2、存在一个局限:输入的真实图像必须存在着一个可以编辑的潜在编码。为了解决这一问题,提出了一种将提出编码器和预训练styleGAN generator 相结合的image-to-image translation(图像转换)的通用框架。 使用从编码器网络的最后一层获得的512维向量,直接将给定的输入图像编码为W+,从而获得18个风格向量(意思是获得18个相同的风格向量嘛?)。但是此类方法,获得的图像在更精细的方面存在不足。StyleGAN中也表明,不同的style input ,对应于不同的细节级别,大致可以分为粗粒度、中粒度和细粒度三个级别。 ?网络结构紫色框--实际上通过随机抽样向量w∈R512,并通过复制w生成在w +中的,相应的潜在代码。style-mixing 如下图所示。 损失函数?像素损失: ? 感知损失(感知相似度): 正则化损失:鼓励生成的style code 与styleGAN的平均style code的一致性 identity 损失:保证身份信息的一致性。 R表示预训练的ArcFace网络 总的损失函数: 数据集AFHQ Cat and AFHQ Dog datasets CelebA-HQ dataset FFHQ dataset ?评价指标重构图像质量:?Similarity # LPIPS # MSE # Runtime Human Perceptual Study ?实验结果StyleGAN Inversion (styleGAN 反演) ? 目录 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/6 17:59:33- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |