| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> starGan-v2论文复现-代码完整 -> 正文阅读 |
|
[人工智能]starGan-v2论文复现-代码完整 |
github:https://github.com/clovaai/stargan-v2
解决问题理想的图片到图片的转换应该能够考虑到域内的各种各样的样式。但是这样的话,设计模型和学习模型都会变得复杂,因为域和样式都能有很多。 域(domain):一组可以在视觉上独特分类的图片,并且每一张图都有独特外观(称为样式style)。例如,可以设置图片的域是基于人的性别,这种情况下样式(style)可以包括妆容、胡须、发型等。 需要解决以下两点: 解决样式多样性(diversity):已知方法是向生成器(generator)中注入低纬度的latent code(可以从标准高斯分布中随机采样) 。 但是,由于这些方法仅考虑了两个域之间的映射,因此无法扩展到越来越多的域。例如,如果有K个域,这些方法需要训练K(K-1)个生成器来处理每个域之间的转换,从而限制了它们的实际使用。 解决可扩展性(scalability):一些统一的框架被提出。StarGAN 可以使用单个生成器学习所有可用域之间的映射,但是因为把预定标签作为附加输入使得映射是确定的,无法成为多模式。 解决方法: 为了解决以上问题,StarGAN v2这种可扩展方法被提出,它可以在多个域中生成各种图片。 StarGAN v2提出两个模块,一个映射网络mapping network和一个样式编码器style encoder。 映射网络学习将随机高斯噪声转换为style code,编码器则学习从给定的参考图像中提取style code。 考虑到多个域,两个模块都具有多个输出分支,每个分支都提供特定域的style code。 利用这些style code,生成器将学习成功地在多个域上成功合成各种图像。 内容1、框架X:图片集 生成器Generator 将输入图像x转换成能反映特定域style codes的输出图像G(x, s)。s 可以由mapping network F或者是style encoder E 提供。使用自适应实例归一化AdaIN 来将s注入G中。s 被设计成表示特定域y的样式,这样就不用向G提供y并且能够使G合成所有域的图像。 生成器将输入图像转换为反映特定于域(domain)的style code的输出图像。 给定一个latent code z和一个域y,映射网络F生成style code s = Fy(x)其中Fy(·)表示与域y相对应的F的输出。 F由带有多个输出分支的MLP组成,可为所有可用域提供样式代码。 F可以通过随机采样潜在向量z∈Z和域y∈Y来产生不同的style code。多任务架构使F可以有效地学习所有领域的样式表示。 映射网络将一个潜在的代码转换成多个域(domain)的style code,在训练过程中随机选择其中一个域(domain)。 给定图像x及其对应的域y,编码器E提取x的style code s = Ey(x)其中Ey(·)表示与域y相对应的输出。与F相似,样式编码器是多任务学习设置, E可以使用不同的参考图像生成不同的style code。这允许G合成反映参考图像x的样式s的输出图像。 样式编码器提取图像的style code,允许生成器执行参考引导的图像合成。
是一个多任务鉴别器,它由多个输出分支组成。每个分支Dy学习一个二进制分类,确定图像x是其域y的真实图像还是由G生成的假图像G(x,s)。 鉴别器从多个域(domain)区分真假图像。 效果图第一行和第一列图像是真实图像,而其余图像由模型StarGanv2生成的图像。模型参考图像中提取高级语义,如发型、妆容、胡须和年龄,同时保留参考图像的姿势和特点。下图反应了StarGanV2可以合成反映不同参考样式的图像,包括发型、妆容和胡须,而不会损害源特性。 损失函数对抗性目标 风格重构
风格多样化 s1和s2由两个随机的潜在编码(latent codes)z1和z2产生。最大化两个风格生成图像的差距,这种方式可以让生成器探索意义的风格特征以生成不同的图像。 保留原图特征 总损失函数 数据集CelebA-HQ 和新AFHQ数据集上评估StarGAN v2。 我们将CelebA-HQ分为男性和女性两个域,将AFHQ分为猫,狗和野生动物三个领域。 除主要标签外,我们不使用任何其他信息(例如CelebA-HQ的面部属性或AFHQ的品种),并让模型无需监督即可学习样式等信息。将所有图像调整为256×256分辨率以进行训练 。 Animal Faces HQ(AFHQ): 15000张512*512动物图片。猫,狗和野生动物分别有5000张图。每个域,500张用于测试。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/12 13:40:39- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |