[人工智能] 2022年2月语音合成（TTS)和语音识别(ASR)论文月报

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 2022年2月语音合成（TTS)和语音识别(ASR)论文月报 -> 正文阅读

[人工智能]2022年2月语音合成（TTS)和语音识别(ASR)论文月报

论文统计每月更新一次，主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出，但不影响统计。统计过程难免存在疏漏，因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。读者有什么建议可以直接给我发消息，我将不断修改该统计。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

?（二月份我分享文章有点少，主要最近手头活没干完，自己没那么多精力阅读）

一语音合成篇

表一给出具体分类说明，表二为每种分类的具体情况。2022年2月的语音合成相关的文章有23篇，比1月份的情况还少，呈下降趋势。但与2021年的1月份和2月份来说是增加了（图1为2021年论文情况，不保证遗漏情况，2021年度具体参见https://mp.weixin.qq.com/s/507imeCyF8cyH6rSlVKr6A）。从表二的具体方向文章数量可知，声学模型、歌唱和音乐合成、声码器和多模态的文章较多，尤其声码器lpcnet作者又发了两篇关于lpcnet的文章。声音转换的文章跟去年一样，但没有预料的增长，更多工作趋向无监督或者端到端的?方向研究。总体研究情况没有出现特别亮眼的?系统。

表一? 语音合成分类说明?

分类	说明
前端	多音字，韵律，g2p等等。
声学模型	语言特征转声学特征，attention工作，多说话人以及双重学习
声码器	波形生成
个性化	少数据，脏数据应用等自适应
多语言	多语言模型
歌唱合成	歌唱和音乐合成
情感	风格和情感
多模态	主要搜集talking head文章
声音转换	基于GAN方案和特征解耦方案
S2S	?speech-to-speech
其它	基于EEG合成，开源数据，MOS评测以及语音合成的应用

表二语音合成文章情况表（单位：篇）

	篇数
1月	27
2月	23

	1月	2月
前端	2	0
声学模型	4	5
声码器	1	5
个性化	1	2
多语言	1	1
歌唱合成	5	3
情感风格	2	2
多模态	4	3
声音转换	4	2
s2s	1	0
其它	2	0

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图1?2021年语音合成论文情况柱状图

语音合成的文章列表请访问http://yqli.tech/page/tts_paper.html

2022.02月份的文章

二?语音识别篇

语音识别的文章分类参照表三说明。表四为每个方向的具体文章数据量和本月的文章总量，其中2月份ASR相关的文章有44篇，比1月份相对增长，尤其一些参加比赛的文章比较多，比如M2MeT?等等。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 表三? 语音识别分类说明?

分类	说明
general	包括传统、混合语音识别，以及对asr的优化
ctc	ctc优化
rnn-t	rnn-t的优化
aed	aed优化
dataset	开源数据库
data aug	数据增广
lm	语言模型研究
multilingual	多语音系统以及code-switch
personal	少数据量自适应以及个性化ASR
rescoring	多种模型联合打分
unsupervised	无监督或者自监督学习
accent?,dialect	口音和方言
other	其它方向研究，包括系统评价标准等等
robust	鲁棒性
multichannel	多通道

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?表四? 语音识别文章数量统计（单位：篇）

	篇数
1月	35
2月	44

	1月	2月
general	12	10
ctc	1	0
rnn-t	3	1
aed	1	1
dataset	3	0
data augmentation	1	1
lm	2	2
multilingual	2	1
personal	0	7
rescoring	1	1
unsupervised	2	3
accent	1	0
multichannel	0	4
robust	0	0
other	6	13