| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 读《STRENGTHNET: DEEP LEARNING-BASED EMOTION STRENGTH ASSESSMENT FOR EMOTIONAL SPEECH SYNTHESIS》 -> 正文阅读 |
|
[人工智能]读《STRENGTHNET: DEEP LEARNING-BASED EMOTION STRENGTH ASSESSMENT FOR EMOTIONAL SPEECH SYNTHESIS》 |
从客观角度来说,情感信息难以被标记和量化,大多数方法不能准确衡量同一类情感语音之间的强弱差异,多数数据集只有根据情绪分类的粗粒度标签,直接利用标签信息参与训练往往会导致合成情感语音的风格较为平均,表现力相对较差 Abstract 近年来,情感语音合成技术取得了令人瞩目的成绩。利用情感属性排序函数得到的情感强度描述,可以灵活地控制合成语音的情感强度。 Introduction 情感语音合成(Emotional speech synthesis, ESS),如情感文本到语音、情感语音转换等,旨在产生具有期望情感类别的表达性语音。在话语中控制情绪的强度是情绪渲染的关键。一般情况下,可以使用预定义的强度描述符灵活地控制合成语音的情感强度。 最简单的情绪强度控制方法是将情绪表示向量加权为一个标量[1],该标量的可解释性较差。为了得到一个有意义的强度描述符,一些研究[2,3]试图遵循“相对属性”[4],基于<中性、情绪性>言语对量化情绪强度。排名[4]的属性学习了在某一特定属性上有显著差异的两个样本之间的差异,这在计算机视觉中得到了广泛的研究[5,6]。 StrengthNet由基于卷积神经网络(CNN)的声学编码器,声学编码器从输入的mel-spectrum中提取high-level特征。 在目前情绪语音合成阶段,将ESS模型与其他相关模型(如语音情绪识别[10])联合训练,可以实现可控的ESS[1]或增强情绪表现力的[11]。然而,现有的联合训练模型只考虑情绪类别,而忽略了情绪强度。传统的基于排序函数的情绪强度预测方法仅在数据预处理阶段进行[2,3],无法在ESS模型的训练阶段进行深度整合。因此,我们希望获得一个基于深度学习的情绪预测模型,可以作为情绪语音合成的前端模块(aims for可控)或后端模块(作为感知损失[12]等),以提高情绪表达性能。 STRENGTHNET 3.1.1 声学编码器 3.1.2 强度预测器 为了监督强度预测器的训练,我们在平均池化层后面定义了一个平均绝对误差(MAE)损失L_(utter-str),以迫使预测的话语级强度得分α接近地面真值。 3.1.3 情感预测器 3.2 数据增强 为此,我们首先构建两个集合,分别为O和S,分别包含有序和相似的配对样本。具体来说, 对于每个数据集Dk (k∈[1,k]),从中性言语中抽取一个样本,从情感言语中抽取另一个样本,构建有序集o。我们期望情感样本的情感强度高于中性样本。 增强后的数据将代表一个更全面的集,从而最小化训练集和验证集之间的距离,以及任何未来的测试集。 3.3 Run-time Inference 在推理过程中,网络以任何情绪言语提取的mel-spectrum作为输入特征,预测其情绪强度得分和情绪类别,此外,我们的网络可以直接用于预测新的情绪言语数据集的情绪强度,而无需再训练,我们认为这是显著的 对于每个数据集,我们选取快乐、悲伤、愤怒、惊讶和中性5个情绪类,构建<中性、情感>配对言语,训练排名函数。在“网络”的训练过程中,我们进行了4个情绪班的研究,分别是快乐、悲伤、愤怒和惊讶。 4.3 实验结果 1)网络(拟议),是我们提出的模型,由声编码器、力量预测器和辅助情绪预测器组成; 图3显示了这些系统在话语水平上的整体表现。利用实验数据报告情绪强度预测的MAE值和情绪类别预测的准确性。提出的网络优于强度w/o Lcat和强度w/o Lf str,并获得最佳性能,这归因于多任务和框架约束策略。具体来说,我们发现,网络达到最低的MAE分数为0.072,最高的情绪识别准确率(SER Acc)为0.874。综上所述,多任务学习与框架约束相结合可以有效地学习输入melc -spectrum中的情绪强度线索,并进行类别预测 4.3.2 数据增强实验 我们在ESD、ESD+RAVDESS、ESD+SAVEE三种数据集设置上训练。 如表1所示,我们观察到我们的网络在RAVDESS和SVAEE数据集上的MAE低于排名函数。更重要的是,在“StrengthNetESD+RAVDESS”和“StrengthNetESD+SAVEE”的情况下,MAE在SVAEE和RAVDESS上分别达到了最低的0.173和0.102。从结果可以看出,我们提出的强度方法可以通过数据增强策略降低对不可见数据的总体MAE,比属性排序函数具有更好的模型泛化性能。 总结 本文提出了一种基于深度学习的语音情感强度评估模型,用于情感语音合成任务,简称“力量网”。实验结果表明,在多任务框架和框架约束策略下,本算法能够实现对情感强度的准确预测。在数据增强策略的帮助下,模型泛化效果也很好。据我们所知,所提出的力量网是第一个端到端言语情绪强度评估模型。在未来的工作中,我们打算将我们的力量网集成为情感语音合成模型的前端或后端,以增强输出情感语音的情感表现力。 原文代码 LINK |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/4 15:46:32- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |