| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 音频降噪模型汇总 -> 正文阅读 |
|
[人工智能]音频降噪模型汇总 |
前言从事语音降噪增强算法开发多年了,上学期间和入行的前段都是做传统信号处理算法。19年以后基于深度学习的语音降噪模型凭借其优秀的处理效果,一时风头无两,似乎每个人都开始走上了模型降噪的路子。 特别是从2020年微软开始举办的Deep Noise Suppression Challenge – INTERSPEECH 2020(DNS)开始,各个高校、科研院所和相关企业都参与进来施展武艺。后续又举办了Deep Noise Suppression Challenge – ICASSP 2021和Deep Noise Suppression Challenge – INTERSPEECH 2021 比赛中多数只关注实时/非实时性,赛道约束的比较少,对模型的参数量和计算量要求比较开放,所以基本上参赛的模型都把自己武装得很“强壮”,把已知的有用的技巧融合到自己的模型中,更有一些模型基本是模块的排列组合。所以本人非常希望主办方能够开辟一条小模型赛道,可以迅速应用于现实,提升通话品质。 实际工作中,想要模型落地,考虑的可不止这些,目前端侧对算法开销要求比较苛刻,PC还好一些,像手机、平板这些设备的算法落地需要更加严格的模型选型和剪枝、量化。 模型选型,需要从模型的效果、参数量、计算量、占用内存大小、时延等方面着手开始考虑拆解问题,当然了,如果小模型就可以满足降噪的效果需求,那恭喜你,可以跳过下面的步骤,去训练模型、马上就可以工程化落地了。如果小模型不能work,那就需要根据落地设备的存储空间和开销限制,寻找若干个效果远超降噪效果需求的大模型,然后通过压缩手段(剪枝、量化等)将模型的参数量和计算量降下来,过程中可能出现效果下降的现象,这就是一个经验性尝试的打磨过程了。 本文将近些年的经典网络和最近提出的新网络的关键参数、简介、开源代码都整理在这里,目前只是简单的罗列,后续会针对每一个模型详细分析或者转载其他博主的优秀文章。希望对语音降噪算法的学习和应用过程有所帮助,如果不准确的地方,请大家批评指正。 干货分享:欢迎收藏点赞 一、模型全景二、模型简介Conv-TasNetYi Luo, Nima Mesgarani Conv-TasNet 是Yi Luo在继2017年提出TasNet之后,又一端到端的语音分离模型。
DC-U-NetHyeong-Seok Choi DC-Unet结合了深度复数网络和Unet的优点来处理复数值谱图,利用复数信息在极坐标系下估计语音的幅值和相位。同时提出了weighted-SDR loss。该方法是通过许多卷积来提取上下文信息,从而导致较大的模型和复杂度。 DPRNNYi Luo??, Zhuo Chen?, Takuya Yoshioka? DPRNN将长序列输入分割为较小的块,并迭代地应用块内和块间RNN。 3、代码 PHASENDacheng Yin1, Chong Luo2, Zhiwei Xiong1, and Wenjun Zeng2 PHASEN可以准确估计信号的幅值和相位信息。作者设计了一套双流网络结构(TSB, two-stream block,幅度流和相位流),并且双流之间有信息交互,交互发生在TSB模块结束的部分;设计了FTB(frequency transformation blocks)模块,用于获得频域上的长时间跨度的关系,FTB分布在TSB模块的开始和结束位置,FTB高效整合全局频域相关性,尤其是谐波相关性,通过对于 FTB 参数的可视化,我们可以发现 FTB 自发地学到了谐波相关性。。 DemucsAlexandre Défossez Nicolas Usunier Léon Bottou Demucs是一个waveform-to-waveform 模型,由U-Net 结构和双向 LSTM构成。 SuDoRM-RFEfthymios Tzinis, Zhepei Wang, Paris Smaragdis 全称:SUccessive DOwnsampling and Resampling of Multi-Resolution Features多分辨率特征的连续下采样和重采样。 2、效果 DC-CRNYanxin Hu1;?, Yun Liu2;?, Shubo Lv1, Mengtao Xing1, Shimin Zhang1, Yihui Fu1, Jian Wu1, Bihong Zhang2, Lei Xie1 DCCRN组合了DCUNET 和CRN的优势,在相同的模型参数大小情况下,仅用了1/6的DCUNET计算量,就达到了DCUNET的效果。
DTLNNils L. Westhausen and Bernd T. Meyer SepformerCem Subakan1, Mirco Ravanelli1, Samuele Cornell2, Mirko Bronzi1, Jianyuan Zhong3 是DPRNN的一个变种算法,主要由multi-head attention 和 feed-forward layers组成。采用了DPRNN引入的双路径框架,并将RNN替换为a multiscale pipeline composed of transformers,可以学习短期和长期依赖关系。 SDD-NetAndong Li1;2, Wenzhe Liu1;2, Xiaoxue Luo1;2, Guochen Yu1;3, Chengshi Zheng1;2, Xiaodong Li1;2 Deep Noise Suppression Challenge – INTERSPEECH 2021 第一名 DPCRNXiaohuai Le1;2;3, Hongsheng Chen1;2;3, Kai Chen1;2;3, Jing Lu1;2;3 Deep Noise Suppression Challenge – INTERSPEECH 2021 第四名 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 6:28:33- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |