[人工智能] Neural Text to Speech Synthesis

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Neural Text to Speech Synthesis -> 正文阅读

[人工智能]Neural Text to Speech Synthesis

作者：tanxu
会议：IJCAI 2020
单位：微软

文章目录

acoustic model

AR & LSTM model

Tacotron（location sensitive attention)

在这里插入图片描述

DurIAN

单独的duration model，时长显示可控

NAR & CNN/Transformer model

DeepVoice 3

全CNN结构，推理加速，支持不同的声学特征输出（vocoder: world, GL, WaveNet），支持multi-speaker（2000人，小数据量）

TransformerTTS

和tacotron结构类似，将encoder&decoder中的lstm替换为transformer；并行化训练，且质量与tacotron2相当；因为并行化计算，attention的鲁棒性不足（??)

Fastspeech2

在这里插入图片描述

在这里插入图片描述

fastspeech是基于teacher-student方法训练，知识蒸馏过程中有信息损失；
fastspeech2为了解决一对多的问题，加入额外的条件输入（duration，pitch，energy），训练阶段这些特征直接从target中提取，infer阶段是predictor预测的（predictor和FastSpeech2模型一起训练）；

VITS

在这里插入图片描述

FLOW-based， end2end

vocoder

在这里插入图片描述

LPCNet

AR model，BFCC，～20M

HiFiGan

NAR model，mel, ~54M

PWG

Advanced topics in TTS

在这里插入图片描述

expressive

在这里插入图片描述

Synthesize clean speech for noisy speakers

？？【120/434】

adaptive for everyone

basemodel的泛化性要足够强，因为target speaker的风格可能有异于基础数据库，这样性能就会明显下降；
少量数据的情况下，只finetune部分相关参数；（拆分成phn encoder, speaker encoder等多个部分，只更新speaker encoder)
AdaSpeech 2：少量说话人数据
AdaSpeech 3：朗读风格到自由风格

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2022-02-16 13:05:31 更:2022-02-16 13:08:43

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/30 11:50:10-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码