声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询?http://yqli.tech/page/data.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
?vTTS: visual-text to speech
本文是东京大学在2022.03.28更新的文章。区别于tts使用纯文本语言信息作为输入,该文章使用视觉文本(文本当成图片)作为输入,使其合成语音更加自然,而且在不添加任何模块情况下可以实现重读、情感等控制。具体的文章链接
https://arxiv.org/pdf/2203.14725.pdf
(我介绍该文章主要感觉本文想法奇特有趣)
1?研究背景
传统的 TTS 将音素或字符等语言信息转换为声学特征,并从中合成语音波形。但该种方式失去了字符本质上具有的视觉特征,因此本文提出了视觉文本语音合成系统(vTTS),这是一种从视觉文本(即,文本作为图像)合成语音的方法。实验结果表明,?vTTS 能够生成自然度与传统 TTS 相当或更好的语音,而且它无需额外的标签和架构就可以将视觉文本中的重读和情感属性迁移到语音中。另外,?与传统 TTS 相比,该系统对稀有字符及集外字符的鲁棒性更强。
2?详细设计
?本文的系统架构很简单,主要在FastSpeech2基础上添加视觉特征抽取模块visual?feature?extractor,具体如图1?所示。图2展示了该网络具体结构,其输入的图片生成如图2c展示,其蓝色为窗长,及每个字符可看左右多少字符?。图3是展示不同类型文本样例,其中字体、重读可以直接控制语音重读和情感?。
3?实验
本文在日语、韩语和英文上进行试验?。Table 1展示合成语音的MOS,其c文窗长?。从结果可知,在韩文和日语上,vTTS可以产出比传统TTS更好的音频?,而且窗长C的效果跟语?言类型相关。Table 2是重读实验结果,其效果媲美真实?值。Table 3是字体携带情感效果?。?Table 4和Table 5则是对稀有字符及集外字符的鲁棒性实验,实验表明本文系统vTTS鲁棒性?更好。
4?总结
本文提出了视觉文本到语音(vTTS),这是一种从视觉文本(即,文本作为图像)合成语音的方法。?vTTS 能够生成自然度与传统 TTS 相当或更好的语音,它无需额外的标签和架构就可以将视觉文本中的重点和情感属性转移到语音中,并且对于生僻文字及集外文字更加鲁棒。
|