作者:tanxu 会议:IJCAI 2020 单位:微软
acoustic model
AR & LSTM model
Tacotron(location sensitive attention)

DurIAN
- 单独的duration model,时长显示可控

NAR & CNN/Transformer model
DeepVoice 3
- 全CNN结构,推理加速,支持不同的声学特征输出(vocoder: world, GL, WaveNet),支持multi-speaker(2000人,小数据量)

TransformerTTS
- 和tacotron结构类似,将encoder&decoder中的lstm替换为transformer;并行化训练,且质量与tacotron2相当;因为并行化计算,attention的鲁棒性不足(??)

Fastspeech2
 

- fastspeech是基于teacher-student方法训练,知识蒸馏过程中有信息损失;
- fastspeech2为了解决一对多的问题,加入额外的条件输入(duration,pitch,energy),训练阶段这些特征直接从target中提取,infer阶段是predictor预测的(predictor和FastSpeech2模型一起训练);
VITS

vocoder

LPCNet
HiFiGan
PWG
Advanced topics in TTS

expressive

Synthesize clean speech for noisy speakers
??【120/434】
adaptive for everyone
- basemodel的泛化性要足够强,因为target speaker的风格可能有异于基础数据库,这样性能就会明显下降;
- 少量数据的情况下,只finetune部分相关参数;(拆分成phn encoder, speaker encoder等多个部分,只更新speaker encoder)
- AdaSpeech 2:少量说话人数据
- AdaSpeech 3:朗读风格到自由风格

|