| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 读《MULTI-SPEAKER MULTI-STYLE TEXT-TO-SPEECH SYNTHESIS WITH SINGLE-SPEAKER SINGLE-STYLE TRAINING DATA》 -> 正文阅读 |
|
[人工智能]读《MULTI-SPEAKER MULTI-STYLE TEXT-TO-SPEECH SYNTHESIS WITH SINGLE-SPEAKER SINGLE-STYLE TRAINING DATA》 |
概要 在现有的跨说话人风格转换任务中,需要具有多风格录音的源说话人为目标说话人提供风格。然而,一个人很难表达所有预期的风格。本文提出了一种更通用的任务,即通过组合来自多个说话人语料库的任何风格和音色来产生表达性语音,其中每个说话人都有一个独特的风格。 尽管TTS在许多场景中都得到了成功的应用,但如何根据不同的说话风格和音色,创建富有表现力的合成语音,是更好的用户体验所需要的。 本文的研究成果可概括为: 在[9]之后,稍加修改的Tacotron2[4]版本被用作编码器-解码器骨干。 当说话风格和说话人身份之间存在精确对应时,从全局的角度来看,说话人信息和说话人风格信息就会陷入深深的纠缠。因此,找到说话人信息和风格信息的本质区别是至关重要的。实际上,**说话人的音色信息是全局信息,即与说话人身份相关的音色基本上不会随着说话风格的变化而变化。相比之下,说话风格主要是局部信息,一般以细粒度的韵律呈现,会随着不同的发声单位而变化,。**将韵律直接表示为全局嵌入与我们的例子中的说话者嵌入很难区分。 提出了一个细粒度的韵律编码器,来建模音素级韵律。在训练阶段,韵律特征通过音高、持续时间和能量来表示,均在音素层面。 同时,通过文本编码器输出和风格嵌入作为输入,优化了基于文本的韵律预测器。在推理阶段,韵律预测器是为语音合成提供说话风格信息 由于本文提出的方法是基于明确的韵律特征,它允许我们通过调整韵律特征的值来控制韵律特征。具体来说,通过将韵律特征乘以或除以一个尺度,我们可以灵活地控制合成语音的韵律,从而进一步增强合成语音的表现力。 数据集 实验中使用了一个内部的普通话多说话者语料库,每个说话者都有独特的说话风格。共有6位演讲者,每个人都有自己独特的风格,包括阅读、电台主播、讲故事、客户服务(CS)、诗歌和游戏角色。与前四种说话风格相比,后两种说话风格的表现力更强,分别由一个孩子和一个游戏角色记录下来。总时长为20小时,所有录音都被降采样至16kHz。随机抽取每个说话人的10句话作为测试集进行主观评价。 评判指标 风格相似性:风格相似性是比较自然语音和合成语音的预期说话风格之间的相似性。利用人类评分实验对这一相似性进行了均值评价(MOS)。在采用的数据库中,采用阅读风格的演讲者(DB11)是一个公共数据库。因此在评价中,采用DB1作为目标音色来表达不同的说话风格。邀请20名(性别平衡)母语普通话听众参与评估。 对比方法 为了评估所提出的模型在SRM2TTS任务上的性能,本工作比较了两种最先进的风格转换方法,即Multi-R[12]和PB[15]。Multi-R[12]是一种基于tacotron multi -reference的韵律转换方法。PB [15]是一种基于韵律瓶颈的跨说话人风格传递模型。为了公平的比较,被比较的Multi-R和PB采用与我们提出的模型相同的Tacotron骨干 风格相似度和说话人相似度的MOS评价如表1所示。从表中可以看出,我们的模型在所有风格类别中表现最好。请注意,基于参考的方法Multi-R在所有说话风格中获得最低的MOS分数。这主要是因为当每个说话者都有独特的说话风格时,这种基于参考的方法很难将说话者的音色和风格分离开来。因此,当模仿的口语风格与阅读风格(游戏和诗歌)显著不同时,这种基于参考的方法的表现就会差得多。 在说话人相似度方面,三种模型之间没有明显的MOS差异,说明PB中的风格转移和所提出的方法相比风格转移能力非常有限的Multi-R并没有给音色带来明显的负面影响。相反,所提方法甚至在除CS和Poetry之外的所有风格类别中都达到了最好的speaker similarity MOS,表明所提方法在SRM2TTS任务中表现良好。 w/o all,模型退化为一个通用的多说话人模型 风格控制 由于我们在韵律预测模块中明确使用了韵律特征,即音高、持续时间和能量,所以我们可以通过调整韵律特征来轻松控制韵律。 总结 本文提出了一种通用的程式化语音合成任务。这项任务被称为SRM2TTS,旨在通过将一个说话者的任何说话风格与另一个说话者的音色相结合,产生富有表现力的合成语音。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/6 18:02:19- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |