abstract
motivation:控制TTS合成的韵律,并实现情感强度的显示可调节;
methods
- Tacotron2-GMM attention框架
- reference encoder:CNN block+GRU
- emotion classfier:7种情感的分类
- loss函数
style loss
-
图像上用Gram matrix表征图像的局部统计特征,该方法也被引入语音计算mel谱频率域特征的信息,比如loudness,stress, speed, pitch, etc, 这些都和情感密切相关。 -
因此,可以把reference encoder编码的gram matrix看作是不同conv filter提取的频率特征表示,是特征在提取过程中量化表示的结果。 -
emotion scalar:可以通过调节gram matrix的数值,实现对情感强度的控制。训练过程中,emotion scalar=1;该数值设置不能无限大,否则会变成另外一种情感或者模型失效; -
通过minimize style loss,实现target mel和reference mel情感风格的高度接近。 其中,I/G为 -
Gram Matrix在数学形式上是向量内积延伸到矩阵内积的结果
- 格拉姆矩阵用于度量各个维度自己的特性以及各个维度之间的关系。内积之后得到的多尺度矩阵中,对角线元素提供了不同特征图各自的信息,其余元素提供了不同特征图之间的相关信息。这样一个矩阵,既能体现出有哪些特征,又能体现出不同特征间的紧密程度。
主观测试
- 用三个不同强度的scale控制合成的情感,然后让受测者对听到的语音进行情感强度的选择,对角线数值越大,说明scale对情感强度的控制越明显。
- 该方法的主要优点在于可以控制情感的强弱,但是对于情感类别的控制合成任务上,效果和one-hot标签的情感区别不大。(one-hot情感标签的前提是情感之间没有相关性)。
|