IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 语音合成(TTS)论文优选:视觉文本语音合成vTTS: visual-text to speech -> 正文阅读

[人工智能]语音合成(TTS)论文优选:视觉文本语音合成vTTS: visual-text to speech

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询?http://yqli.tech/page/data.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

?vTTS: visual-text to speech

本文是东京大学在2022.03.28更新的文章。区别于tts使用纯文本语言信息作为输入,该文章使用视觉文本(文本当成图片)作为输入,使其合成语音更加自然,而且在不添加任何模块情况下可以实现重读、情感等控制。具体的文章链接

https://arxiv.org/pdf/2203.14725.pdf


(我介绍该文章主要感觉本文想法奇特有趣)

1?研究背景

传统的 TTS 将音素或字符等语言信息转换为声学特征,并从中合成语音波形。但该种方式失去了字符本质上具有的视觉特征,因此本文提出了视觉文本语音合成系统(vTTS),这是一种从视觉文本(即,文本作为图像)合成语音的方法。实验结果表明,?vTTS 能够生成自然度与传统 TTS 相当或更好的语音,而且它无需额外的标签和架构就可以将视觉文本中的重读和情感属性迁移到语音中。另外,?与传统 TTS 相比,该系统对稀有字符及集外字符的鲁棒性更强。

2?详细设计

?本文的系统架构很简单,主要在FastSpeech2基础上添加视觉特征抽取模块visual?feature?extractor,具体如图1?所示。图2展示了该网络具体结构,其输入的图片生成如图2c展示,其蓝色为窗长,及每个字符可看左右多少字符?。图3是展示不同类型文本样例,其中字体、重读可以直接控制语音重读和情感?。

3?实验

本文在日语、韩语和英文上进行试验?。Table 1展示合成语音的MOS,其c文窗长?。从结果可知,在韩文和日语上,vTTS可以产出比传统TTS更好的音频?,而且窗长C的效果跟语?言类型相关。Table 2是重读实验结果,其效果媲美真实?值。Table 3是字体携带情感效果?。?Table 4和Table 5则是对稀有字符及集外字符的鲁棒性实验,实验表明本文系统vTTS鲁棒性?更好。

4?总结

本文提出了视觉文本到语音(vTTS),这是一种从视觉文本(即,文本作为图像)合成语音的方法。?vTTS 能够生成自然度与传统 TTS 相当或更好的语音,它无需额外的标签和架构就可以将视觉文本中的重点和情感属性转移到语音中,并且对于生僻文字及集外文字更加鲁棒。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-30 18:23:58  更:2022-03-30 18:26:18 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 12:27:12-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码