| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 风格迁移篇---SAnet:风格注意网络下的任意风格转换 -> 正文阅读 |
|
[人工智能]风格迁移篇---SAnet:风格注意网络下的任意风格转换 |
这里写目录标题论文地址: http://arxiv.org/abs/1812.02342 代码地址: https://github.com/GlebSBrykin/SANET Abstract任意风格转换旨在合成具有图像风格的内容图像,以创建以前从未见过的第三个图像。最近的任意风格转换算法发现平衡内容结构和风格模式很有挑战性。此外,由于基于补丁的机制,很难同时维护全局和局部样式的模式。在本文中,我们介绍了一种新的风格注意网络(SANet),该网络根据内容图像的语义空间分布高效灵活地集成局部风格模式。新的身份丢失函数和多级特征嵌入使我们的SANet和解码器能够在丰富样式模式的同时尽可能保留*指示等贡献内容结构。实验结果表明,我们的算法实时合成的样式化图像的质量高于最先进的算法生成的图像。 1. Introduction艺术风格转移是一种通过在内容图像上均匀地从给定风格图像合成全局和局部风格图案,同时保持其原始结构来创建艺术的技术。最近,Gatys等人[5]的开创性工作表明,从预训练的深度神经网络中提取的特征之间的相关性可以很好地捕捉风格模式。Gatys等人[5]的方法是1 arXiv:1812.02342v5[cs.CV]2019年5月23日,足够灵活,可以组合任意图像的内容和样式,但由于迭代优化过程,速度太慢。 为了降低这一过程的计算成本,已经做出了重大努力。基于前馈网络,开发了几种方法[1、8、12、22、3、14、19、26、29]。前馈方法可以有效地合成样式化图像,但仅限于固定数量的样式或提供的视觉质量不足。 对于任意样式转换,一些方法[13、7、20]整体调整内容特征,以匹配样式特征的二阶统计量。AdaIN[7]简单地调整内容图像的均值和方差,以匹配样式图像的均值和方差。虽然AdaIN通过传输特征统计信息有效地结合了内容图像的结构和样式模式,但由于该方法过于简化,其输出质量受到影响。WCT[13]使用协方差而不是方差,通过白化和着色过程将内容特征转换为样式特征空间。通过在预先训练的编码器-解码器模块中嵌入这些风格化特征,无风格解码器合成了风格化图像。然而,如果特征具有大量维度,则WCT将相应地需要计算昂贵的操作。Avatar Net[20]是一个基于补丁的样式装饰器模块,它将内容特征映射为样式模式的特征,同时保持内容结构。阿凡达网不仅考虑整体风格分布,还考虑局部风格模式。然而,尽管做出了宝贵的努力,这些方法仍然不能反映风格图像的细节纹理,扭曲内容结构,或者无法平衡局部和全局风格模式。 在这项工作中,我们提出了一种新的任意风格传输算法,该算法实时合成高质量的风格化图像,同时保留内容结构。这是通过一种新型的注意力网络(SANet)和一种新的身份丢失函数实现的。对于任意风格转换,我们的前馈网络由sanet和解码器组成,通过根据内容特征在空间上重新排列风格特征来学习内容特征和风格特征之间的语义相关性。 我们提出的SANet与化身网络的风格特征装饰器密切相关[20]。然而,有两个主要区别:该模型使用1)学习的相似核而不是固定的相似核;2)软注意而不是硬注意。换言之,为了风格装饰的目的,我们将自注意力机制更改为可学习的基于软注意力的网络。我们的SANet使用可学习的相似性核将内容特征图表示为与其每个位置相似的样式特征的加权和。使用训练过程中的身份丢失,输入相同的图像对,并训练我们的模型以恢复相同的结果。在推理时,用样式图像替换其中一个输入图像,并基于样式特征尽可能多地恢复内容图像。与内容-风格的权衡不同,身份丢失有助于保持内容结构而不损失风格的丰富性,因为它有助于根据风格特征恢复内容。我们工作的主要贡献如下:
2. Related Work任意样式转换。任意风格转换的最终目标是同时实现并保持泛化、质量和效率。尽管最近取得了一些进展,但现有方法[5、4、1、8、12、22、3、6、10、11、23、24、28、18]在泛化、质量和效率之间进行了权衡。最近,人们提出了几种方法[13、20、2、7]来实现任意样式的转换。AdaIN算法通过传输全局特征统计信息,简单地调整内容图像的均值和方差,以匹配样式图像的均值和方差。WCT执行一对特征变换(白化和着色),用于在预训练的编码器-解码器模块中嵌入特征。Avatar Net引入了基于补丁的特征装饰器,该装饰器将内容特征转换为语义最近的风格特征,同时最小化其整体特征分布之间的差异。在许多情况下,我们观察到WCT和AvatarNet的结果不能充分表示细节纹理或保持内容结构。我们推测,WCT和Avatar Net可能无法合成详细的纹理样式,因为它们预先训练了通用编码器-解码器网络,这些网络是从样式特征差异很大的通用图像(如MS-COCO数据集[15])中学习的。因此,这些方法考虑将样式特征映射到特征空间中的内容特征,但无法控制样式的全局统计信息或内容结构。虽然化身网络可以通过基于补丁的样式装饰器获得局部样式模式,但样式图像中样式模式的规模取决于补丁大小。因此,不能同时考虑全局和局部风格模式。相比之下,AdaIN可以很好地转换纹理和颜色分布,但不能很好地表示局部风格的图案。在这种方法中,存在另一种规模适应的内容和风格损失的组合,在内容和风格之间进行权衡。在本文中,我们尝试使用SANets和提出的身份丢失来解决这些问题。这样,所提出的风格转换网络可以表示全局和局部风格模式,并在不损失风格丰富性的情况下保持内容结构。 自我注意力机制。我们的风格注意力模块与最近用于图像生成和机器翻译的自注意力方法[25,30]有关。这些模型通过关注所有位置并在嵌入空间中取其加权平均值来计算序列或图像中某个位置的响应。该算法通过稍微修改自注意力机制来学习内容特征和风格特征之间的映射。 3. Method本文提出的风格传递网络由编码器-解码器模块和风格注意模块组成,如图2所示。所提出的前馈网络有效地生成高质量的风格化图像,适当地反映全局和局部风格模式。我们新的身份丢失功能有助于保持内容的详细结构,同时充分反映风格 3.1. Network Architecture我们的风格传递网络以内容图像Ic和任意风格图像为输入,并使用前者的语义结构和后者的特征合成风格化图像Ic。在这项工作中,预训练VGG-19网络[21]被用作编码器,对称解码器和两个SANet被联合训练用于任意样式的传输。我们的解码器遵循[7]的设置。 为了充分结合全局样式模式和局部样式模式,我们将从不同层(Relu 4 1和Relu 5 1)编码的VGG特征映射作为输入,并结合两个输出特征映射,从而集成了两个SANet。从内容图像Ic和样式图像Is对中,我们首先在编码器的特定层(例如,Relu 4 1)提取其各自的VGG特征映射Fc=E(Ic)和Fs=E(Is)。 在对内容和样式图像进行编码后,我们将两个特征映射提供给SANet模块,该模块映射内容特征映射Fc和样式特征映射Fs之间的对应关系,生成以下输出特征映射: 然后,通过将F mcsc馈送到解码器中来合成样式化的输出图像ic,如下所示: 3.2. SANet for Style Feature Embedding图3显示了使用SANet模块嵌入样式特征。编码器的内容特征映射Fc和样式特征映射Fs被归一化,然后转换为两个特征空间f和g,以计算f ic和f J之间的注意力,如下所示: 我们的SANet的网络结构类似于现有的非局部块结构[27],但输入数据的数量不同(SANet的输入由Fc和Fs组成)。SANet模块可以通过学习映射内容和样式特征图之间的关系(例如亲和力),在内容特征图的每个位置适当嵌入局部样式模式。 3.3. Full System如图2所示,我们使用编码器(预训练VGG-19[21])来计算用于训练SANet和解码器的损失函数: 样式损失定义如下:
当Wf、Wg和Wh固定为标识矩阵时,内容特征图中的每个位置都可以转换为样式特征图中语义最近的特征。在这种情况下,系统无法解析足够的样式特征。在SANet中,虽然Wf、Wg和Wh是可学习矩阵,但我们的风格转换模型可以通过只考虑风格损失Ls的全局统计信息来训练。 为了考虑内容特征和风格特征之间的全局统计和语义局部映射,我们定义了一个新的身份丢失函数,如下所示:
内容和风格损失控制着内容图像结构和风格模式之间的权衡。与其他两种损失不同,身份损失是从相同的输入图像计算的,样式特征没有差异。因此,身份丢失集中保持内容图像的结构,而不是更改样式统计。因此,身份丢失使得能够同时保持内容图像的结构和参考图像的风格特征 4. Experimental Results图2显示了基于拟议SANets的我们风格的传输网络的概述。演示站点将通过https://dypark86.github.io/SANET/. 4.1. Experimental Settings我们使用MS-COCO[15]对内容图像进行训练,使用WikiArt[17]对风格图像进行训练。这两个数据集包含大约80000个训练图像。我们使用了Adam优化器[9],学习率为0.0001,批量大小为五个内容风格的图像对。在训练过程中,我们首先将两幅图像的较小维度重新缩放到512,同时保持纵横比,然后随机裁剪256×256像素的区域。在测试阶段,我们的网络可以处理任何输入大小,因为它是完全卷积的。 4.2. Comparison with Prior Work为了评估我们的方法,我们将其与三种类型的任意样式变换方法进行了比较:Gatys等人[5]提出的迭代优化方法,两种基于特征变换的方法(WCT[13]和AdaIN[7]),以及基于面片的方法Avatar Net[20]。 定性示例。在图11中,我们展示了通过最先进的方法合成的风格转换结果的示例。补充材料中提供了其他结果。注意,在我们的模型训练期间,没有观察到任何测试风格的图像。 基于优化的方法[5]允许任意样式转换,但可能会遇到错误的局部最小值(例如,图11中的第2行和第4行)。AdaIN[7]简单地调整内容特征的均值和方差来合成样式化图像。然而,由于内容和样式之间的权衡,其结果不太吸引人,并且通常保留内容的一些颜色分布(例如,图11中的第1、2和8行)。此外,AdaIN[7]和WCT[13]有时都会产生扭曲的局部样式模式,这是因为整体调整了内容特征,以匹配样式特征的二阶统计量,如图11所示。尽管化身网络[20]根据内容图像的语义空间分布用样式模式装饰图像,并应用多尺度样式转换,但由于其依赖于面片大小,它通常不能同时表示局部和全局样式模式。此外,在大多数情况下,它不能保持内容结构(图11中的第4列)。相反,在大多数示例中,我们的方法可以解析不同的样式模式,例如全局颜色分布、纹理和局部样式模式,同时保持内容的结构,如图11所示。 与其他算法不同,我们的可学习SANet可以灵活地解析足够级别的样式特征,而无需最大程度地对齐内容和样式特征,而无需考虑较大的域差距(图11中的第1行和第6行)。该SANet在语义上区分了内容结构,并将相似的风格模式转移到具有5个相同语义的区域。我们的方法为每种类型的语义内容转换不同的风格。在图11(第3行)中,我们的样式化图像中的天空和建筑物使用不同的样式模式进行样式化,而其他方法的结果在天空和建筑物之间具有模糊的样式边界。 我们还在图4中提供了结果的详细信息。我们的结果展示了多尺度风格模式(例如,颜色分布、灌木笔划以及风格图像中粗糙纹理的白色和红色模式)。Avatar Net和WCT会扭曲笔刷笔划,输出模糊的头发纹理,并且不会保留人脸的外观。AdaIN甚至不能保持颜色分布。 用户研究。我们使用了14幅内容图像和70幅风格图像,总共合成了980幅图像。我们为每个受试者随机选择了30种内容和风格组合,并以随机顺序向他们展示了通过五种比较方法获得的风格化图像。然后,我们要求受试者指出他/她最喜欢的每种风格的结果。我们收集了80位用户的2400张选票,并在图5中显示了每种方法的投票百分比。结果表明,与其他方法相比,我们的方法得到的程式化结果更受欢迎。 效率表1显示了该方法和其他方法在两个图像尺度(256和512像素)下的运行时性能。我们测量了运行时性能,包括样式编码的时间。基于优化的方法[5]由于其迭代优化过程,计算成本不现实。相比之下,我们的多尺度模型(Relu 4 1和Relu 5 1)算法对于256和512像素图像分别以59 fps和18 fps的速度运行,而单尺度(仅Relu 4 1)算法对于256和512像素图像分别以83 fps和24 fps的速度运行。因此,我们的方法可以实时处理风格转换。我们的模型比基于矩阵计算的方法(WCT[13]和Avatar Net[20])快7-20倍。 4.3. Ablation Studies损失分析。在本节中,我们展示了内容风格丧失和身份丧失的影响。图6(a)显示了通过将λidentity1、λidentity2和λs分别固定在0、0和5,同时将λc从1增加到50而获得的结果。图6(b)显示了通过将λc和λs分别固定在0和5,并分别将λidentity1和λidentity2从1增加到100和从50增加到5000而获得的结果。在没有身份丢失的情况下,如果我们增加内容丢失的权重,内容结构会得到保留,但由于内容丢失和样式丢失之间的权衡,样式模式的特征会消失。相反,在不丢失内容的情况下增加身份丢失的权重,可以在保持样式模式的同时尽可能地保留内容结构。然而,内容结构的变化的失真是不可避免的。因此,我们结合了内容风格损失和身份损失来维护内容结构,同时丰富风格模式。
多级特征嵌入。图7分别显示了从Relu 4 1和Relu 5 1获得的两个样式化输出。当仅使用Relu 4 1进行样式转换时,可以很好地保持样式特征和内容结构的全局统计信息。然而,当地风格的图案并不常见。相比之下,Relu 5 1有助于添加局部风格模式,例如圆形模式,因为感受野更宽。然而,内容结构被扭曲,笔触等纹理消失。在我们的工作中,为了丰富样式模式,我们将从不同(Relu 4 1和Relu 5 1)层编码的VGG特征映射作为输入,并结合两个输出特征映射,集成了两个SANet 4.4. Runtime Controls在本节中,我们通过几个应用展示了我们方法的灵活性。 内容-风格权衡。可以在训练期间通过调整等式6中的样式权重λs来控制样式化程度,或者在测试期间通过在馈送到解码器的特征映射之间插值来控制样式化程度。对于运行时控制,我们调整了mcsc的样式化特性← ? αF mcsc+(1? α) F mccc和?α ∈ [0, 1]. 通过将两幅内容图像作为模型的输入,获得了映射F-mccc。当α=0时,网络尝试重建内容图像,当α=1时,尝试合成最具风格的图像(如图8所示)。 样式插值。为了在多个样式图像之间插值,可以将来自不同样式的mcsc的特征映射的凸组合馈入解码器(如图9所示)。 空间控制。图10显示了在空间上控制样式化的示例。此外,还需要一组掩码M(图10第3列)作为输入,以映射内容区域和样式之间的空间对应关系。我们可以通过用M J F mcsc替换F mcsc在每个空间区域中分配不同的样式,其中J是一个简单的maskout操作。 5. Conclusions在这项工作中,我们提出了一种新的任意风格转换算法,该算法由风格注意网络和解码器组成。我们的算法是有效的。与[20]中基于补丁的样式装饰器不同,我们提出的SANet可以通过使用传统的样式重建损失和身份损失进行学习来灵活地装饰样式特征。此外,提出的身份丢失有助于SANet保持内容结构,丰富局部和全局风格模式。实验结果表明,该方法合成的图像优于其他最先进的任意样式传输算法。 Acknowledgments.致谢。本研究由文化、体育和旅游部(MCST)和韩国创意内容署(KOCCA)在2019年文化技术(CT)研发计划中提供支持 References[1] D. Chen, L. Y uan, J. Liao, N. Y u, and G. Hua. StyleBank: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 1:21:13- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |