| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> 人工智能 -> 读《JOINT AND ADVERSARIAL TRAINING WITH ASR FOR EXPRESSIVE SPEECH SYNTHESIS》 -> 正文阅读 |
|
|
[人工智能]读《JOINT AND ADVERSARIAL TRAINING WITH ASR FOR EXPRESSIVE SPEECH SYNTHESIS》 |
|
Abstract Introduction 受辅助ASR任务和对抗性训练公式的启发,我们提出将ASR任务与对抗性训练的思想相结合,以防止样式编码器对内容信息进行编码,从而消除样式嵌入中的内容信息。我们的TTS模型通过添加样式编码器和共享层扩展了Tacotron[1]模型。本文的贡献总结如下
2 proposed Model 2.2 Pre-train ASR Model LAS是一种带注意的序列到序列ASR模型,它直接将音频序列转换为文本序列。模型结构如图1(b)所示。LAS模型主要包括两个子模块:侦听器和拼写器(Listener and Speller)。Listener是编码器,Speller是基于注意机制的解码器。共享层的结构是一个BLSTM,它是侦听器的一部分,与修改后的Tacotron中的共享层相同。监听器用于提取输入音频序列的高维特征。Speller是一个RNN网络,其功能是将侦听器中的高维特征转换为字符序列。 2.3. Joint training of TTS and ASR 1 预训练了一个LAS模型
3.2. Results and Evaluations 3.2.1. Objective Evaluation 总损失分析:我们在实验中根据WER选择了重构损失和对抗损失的组合权重,最初损失设置为L_recon-L_adv。我们发现当总损失为L total 2时,存在一个较高的WER,模型最终崩溃。同时,我们发现当Ladv的权值越小,所合成的语音质量也越好。因此,我们使用一种自适应的对抗权学习策略来防止c 3.2.2. Subjective Evaluation 我们可以看出,我们提出的模型在并行和非并行风格传递方面优于基准模型,这进一步证明了我们提出的模型不仅可以有效地缓解风格与内容信息之间的纠缠,还可以提高模型的风格传递性能。
说了但是有啥也没说,就根据TTS与ASR联合提出了一个对抗学习防止崩溃的策略公式,其他啥也没干,感觉也没咋说明白 |
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年11日历 | -2025/11/24 11:06:37- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |