| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【论文学习】《One-shot Voice Conversion by Separating Speaker and Content Representations with IN》 -> 正文阅读 |
|
[人工智能]【论文学习】《One-shot Voice Conversion by Separating Speaker and Content Representations with IN》 |
《One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization》论文学习文章目录? 摘要? ? ? ?近年来,在没有并行数据的情况下,通过训练单个模型在输入语音转换(VC)为多个不同说话人的多目标场景下,成功实现了语音转换。但该模型存在局限性,只能将训练数据中说话人进行语音转换,从而缩小了VC的适用场景。在本文中,我们提出了一种新颖的一次性VC方法,它可以分别通过源说话人和目标说话人的一个示例语音来执行VC,并且在训练过程中源说话人和目标说话人甚至不需要出现。这是通过将说话人和内容表示与实例规范化(IN)分开来实现的。客观和主观评价表明,我们的模型能够生成与目标说话人相似的声音。除了性能测量之外,我们还证明了该模型能够在没有任何监督的情况下学习有意义的说话人表征。 ? 1 介绍? ? ? ?VC的目标是在保持语音内容不变的情况下,对语音信号的非语言信息进行转换。非语言信息可能涉及说话人身份(《Voice conversion using sequence-to-sequence learning of context posterior probabilities》,《Voice conversion based on speaker-dependent restricted boltzmann machines》,《Non-parallel voice conversion using i-vector plda: Towards unifying speaker verification and transformation》)、口音或发音(《Automatic speech pronunciation correction with dynamic frequency warping-based spectral conversion》,《Generative adversarial networks for unpaired voice transformation on impaired speech》)等。VC可以用于一些下游任务,如多说话人文本到语音(《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》,《Machine speech chain with one-shot speaker adaptation》)和表达性语音合成(《Towards end-to-end prosody transfer for expressive speech synthesis with tacotron》,《Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis》),也可以用于一些应用,如语音增强(《Improving the intelligibility of dysarthric speech towards enhancing the effectiveness of speech therapy》,《Generative adversarial network-based postfilter for statistical parametric speech synthesis》,《Wavecyclegan: Synthetic-to-natural speech waveform conversion using cycle-consistent adversarial networks》)或发音纠正(《Automatic speech pronunciation correction with dynamic frequency warping-based spectral conversion》,等等。在本文中,我们将重点研究说话人身份转换的问题。 ? 2 提出方法?? 2.1 变分自动编码器? ? ? ?设
x
x
x为声学特征片段,
x
x
x为训练数据中所有声学片段的集合。设
E
s
E_s
Es?为说话人编码器,
E
c
E_c
Ec?为内容编码器,
D
D
D为解码器。训练
E
s
E_s
Es?生成说话人表示
z
s
z_s
zs?。
E
c
E_c
Ec?被训练生成内容表示
z
c
z_c
zc?。我们假设
p
(
z
c
∣
x
)
p(z_c|x)
p(zc?∣x)是一个条件独立的高斯分布,其单位方差与(《Unsupervised image-toimage translation networks》)相同,即
p
(
z
c
∣
x
)
=
N
(
E
c
(
x
)
,
I
)
p(z_c|x) = N (E_c(x), I)
p(zc?∣x)=N(Ec?(x),I)。重构损失如式1所示。 ?? 2.2 特征分解的实例归一化? ? ? ?乍一看,根据2.1节的描述,不清楚两个编码器
E
s
E_s
Es?和
E
c
E_c
Ec?是如何分别对说话人和内容信息进行编码的。本文发现,在不进行仿射变换的情况下,只需在
E
c
E_c
Ec?中加入实例归一化(IN),就可以在保留内容信息的同时去掉说话人信息。在计算机视觉(《Arbitrary style transfer in real-time with adaptive instance normalization》)中,类似的思想已经被证实是有效的。 ? 3 实现细节?? 3.1 架构? ? ? ?我们在编码器和解码器中使用Conv1d层一次处理所有的频率信息,如图2所示。在说话人编码器和内容编码器中都使用了ConvBank层,以便更好地捕获长期信息(《Tacotron: Towards end-to-end speech synthesis》)。我们对说话人编码器应用了一段时间的平均池化,以强制说话人编码器只学习全局信息。在内容编码器中使用实例规范化层对全局信息进行规范化。解码器中使用PixelShuffle1d(《Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network》)层进行上采样。一层用于向解码器提供全局信息。说话人表征
z
s
z_s
zs?首先经过残差DNN处理,然后通过仿射层进行变换,再进入每一层。 ?? 3.2 声学特征? ? ? ?我们使用梅尔尺度谱图作为声学特征。我们首先消除了沉默,并将音量正常化,然后将音频转换为24kHz。之后,我们以50毫秒的窗口长度、12.5毫秒的跳跃长度和2048毫秒的STFT窗口大小对音频执行STFT。然后将谱图的幅度转换为512维梅尔谱图。用相减均值除以标准差的方法对梅尔谱图进行归一化处理。为了将梅尔标度谱图转换为波形,我们采用近似逆线性变换来恢复线性标度谱图(《Gansynth: Adversarial neural audio synthesis》)。并用GriffinLim算法100次迭代重建相位。 ?? 3.3 训练细节? ? ? ?我们用ADAM优化器以
0.0005
0.0005
0.0005的学习速率训练提出的模型,
β
1
=
0.9
\beta_1 = 0.9
β1?=0.9,
β
2
=
0.999
\beta_2 = 0.999
β2?=0.999。我们将批量大小设置为256。为了防止模型过拟合,我们将Dropout应用到每一层,并设置比例为
0.5
0.5
0.5,权重衰减为
0.0001
0.0001
0.0001。
λ
r
e
c
λ_{rec}
λrec?为
10
10
10,
λ
k
l
λ_{kl}
λkl?为
0.01
0.01
0.01。我们为
20
20
20万次迭代(小批量)训练模型。更多的细节可以在我们的实现代码中找到。 ? 4 实验? ? ? ?我们在CSTR VCTK语料库(《Superseded-cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit》)上评估了我们的模型。这些音频数据是由109名讲英语的人产生的,他们都有不同的口音。我们随机抽取20个说话人的话语作为我们的测试集,剩下的话语将被分割为
90
90%
90的训练集和
10
10%
10的验证集。虽然我们在训练时将段长度设置为128,但由于是全卷积结构,在推理阶段模型可以处理任意长度的输入。在去除所有少于128帧的话语后,训练集包含大约16000条语音。 ?? 4.1 解纠缠评估? ? ? ?为了观察IN层的效果,我们进行了消融研究,验证了它可以帮助内容编码器去除说话人特征信息。我们训练另一个网络(包含1024个神经元和ReLU激活的5层DNN),根据内容编码器编码的潜在表征对说话人身份进行分类。比较了内容编码器加IN、内容编码器不加IN、内容编码器不加IN和语音编码器加IN三种设置下的分类精度。结果如表1所示。我们可以看到,将IN应用于内容编码器时,分类精度明显较低。但我们也发现,即使我们没有在内容编码器中应用IN,其精度也没有预期的高。这可能是由于说话人编码器能够通过adaIN控制解码器的信道统计,整个模型倾向于从说话人编码器而不是从内容编码器学习说话人信息。为了进一步证实这一假设,我们测试了上述第三种设置下的分类精度,即不是将IN应用于内容编码器,而是应用于说话者编码器。我们可以看到,由于平均池化随时间的特性结合IN层(输出零向量),说话人编码器不能再拥有完整的说话人信息,因此整个模型倾向于通过内容编码器流动更多的说话人信息,提高了分类精度。 ?? 4.2 说话人嵌入可视化? ? ? ?我们发现,即使我们没有明确地向编码器(《Learning speaker representations with mutual information》)添加任何目标或约束,说话人编码器也能学习到与扬声器相关的有意义的嵌入。我们通过说话人编码器输入(在训练过程中)出现过和未出现的说话人的语音,并在图3中用t-SNE在2D空间中绘制其嵌入图。我们发现,不同的说话人说的话是完全分开的。我们还利用这些嵌入方法对说话人id进行了分类实验。设置与第4.1小节相同。出现过的说话人的正确率为0.9973,未出现的说话人的正确率为0.9998,说明说话人编码器在嵌入空间中学习到了合理的表征。 ?? 4.3 客观评估??? 4.3.1 全局方差? ? ? ?为了证明我们的模型能够转换说话人的特征,我们使用全局方差(GV)作为光谱分布的可视化。全局方差已被用作一种方法,以方差分布(《A speech parameter generation algorithm considering global variance for hmm-based speech synthesis》)来看语音转换结果是否与目标说话人匹配。我们评估了4个转换例子中每个频率指标的总体方差:男性到男性,男性到女性,女性到男性,女性到女性。结果如图4所示,我们发现我们生成的样本在方差分布方面确实与目标说话人匹配。 ? ? ? ? ??? 4.3.2 频谱图实例? ? ? ?图5显示了一些频谱热力图的例子。我们可以看到,我们的模型能够对基频(f0)进行转换,在男女转换和女男转换中都保留了原有的语音内容。 ?? 4.4 主观评估? ? ? ?对转换后的声音(包括男性对男性、男性对女性、女性对男性、女性对女性,共四对说话人)进行主观评价。这四对说话人在训练过程中都是不可见的,所以我们提出的方法只使用一个源语音和一个目标语音输出每对说话人的转换结果。然后我们让评测人员用4个分值来评估两条语音之间的相似性,即相同的绝对肯定、相同的不确定、不同的不确定和不同的绝对肯定。这两条语音是一个源说话人语音或一个目标说话人语音的转换结果。结果如图6所示。我们的模型能够生成与目标说话人相似的声音。 ? 5 结论? ? ? ?我们提出了一种解决一次性无监督VC的新方法,通过应用实例归一化来强制模型学习分解后的表示。这样,我们就可以用一条语音对未出现过的说话人进行VC。主观和客观评价表明,在与目标说话人的相似度方面取得了良好的效果。此外,解缠实验和可视化表明,在我们提出的方法中,说话人编码器在没有任何监督的情况下学习有意义的嵌入空间。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 17:24:55- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |