IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 《ASV-Subtools 声纹识别实战》课程 -> 正文阅读

[人工智能]《ASV-Subtools 声纹识别实战》课程

AI工匠学堂icon-default.png?t=M5H6https://xjw.h5.xeknow.com/s/2XhsYq

ASV-Subtools简介

近年来,随着深度学习的快速发展,简单易用、性能稳定、开发高效的深度学习框架越来越被科研和工业界人员所需要。其中,TensorFlow和Pytorch则是目前深度学习的主流框架。为了方便进行声纹识别技术相关的研究,厦门大学智能语音实验室(XMUSPEECH)团队经过近两年的开发,基于KaldiPyTorch推出了一套高效、易于开发扩展的声纹识别开源工具—ASV-SubtoolsASV-Subtools的设计理念在于代码高度复用的同时保持模块分化和开发自由。因此,体现出以下四个特点:

  • 高效性:集成Kaldi和PyTorch各自的优点,实现完整的深度声纹识别系统;

  • 可读性:代码中包括了注释说明和教程文档,增加了代码可读性,方便用户轻松上手;

  • 通用性:将核心模块分离出来,支持扩展到新的模型。最新架构,如SE-block、ECAPA-TDNN,可以使用Torch内部的标准组件轻松扩展到ASV-Subtools中;

  • 灵活性:用户只需通过简单地编辑配置文件,就能探索不同的网络架构、池化层、损失函数以及其他组件,实现最优异的性能。

目前,该工具已在GitHub上发布。关于该工具的介绍论文(ASV-Subtools: Open Source Toolkit for Automatic Speaker Verification),已被语音顶会 ICASSP 2021?录用。

?

实战性能

ASV-Subtools充分结合了Kaldi 在语音信号和后端处理的高效性以及PyTorch 开发和训练神经网络的便捷灵活性。封装了很多实用、高效的脚本,其中包括数据集处理、数据扩增、特征提取、静音消除、Kaldi模型训练、x-vector加速提取、后端打分和指标计算等。此外,该工具还提供了大量高层框架和神经网络训练相关的脚本,这也是ASV-Subtools的核心内容。相比按序采样,ASV-Subtools还提供了说话人均衡采样来解决说话人不均衡问题。网络训练完之后,ASV-Subtools将提取出来的x-vector 写为ark格式文件,利用Kaldi进行后端处理并进行相似度判别打分。

前端训练框架

ASV-Subtools框架结构

ASV-Subtools整体框架结构如图所示。提供了大量模型组件(nnet),方便开发者进行网络配置,当然,用户也可直接选择使用PyTorch提供的原生组件进行构建。框架的底层为基于Python实现的各个基本对象,如对应到Kaldi映射目录的Kaldi_dataset,采样方法samples,模型基本组件components、activation和loss,训练有关的训练流程trainer,训练进度显示reporter,优化器以及学习率综合配置等。

后端优化

考虑到数据集的规模往往较为庞大,该工具对所有数据集处理脚本均进行了速度优化,如代码上的时间复杂度优化或使用多进程进行提速。此外,由于后端处理有很多可能的复杂组合,用于后端打分的训练集、注册集和测试集之间也有较多种处理方法,为了用户灵活配置,ASV-Subtools中实现了一个高效的打分脚本(scoreSet.sh):当给定数据处理顺序,该脚本通过图的深度遍历方法自动将整个打分过程连接起来。具体如图所示,这极大地方便了用户进行后端调试,无需每次重写代码。

后端打分集脚本原理示意图

基线结果

目前为止,ASV-Subtools已开发了众多声纹识别中常用的算法和网络架构,例如使用一维卷积等价实现的标准x-vector网络,还集成了多种PLDA自适应的技术,解决现实情况下域不匹配的问题,并提供了多种实验配置的运行示例。大量实验结果表明ASV-Subtools显示出稳定性和可靠性,并在OLR Challenge 2020~2021?连续两届“东方语种识别竞赛”中做为赛事基线系统,同时也做为声纹识别竞赛CNSRC 2022的基线系统之一。

ASV-Subtools 声纹识别实战

语音之家-AI工匠学堂推出ASV-Subtools 声纹识别实战》课程声纹识别受到越来越多的重视,应用于刑侦、人机交互声纹口令验证、银行声纹身份验证等领域,工业界岗位需求迫切。这门课程强调实战,结合开源工具,让学员在较短的时间内,快速掌握算法研究和产品开发的能力。

讲师力量

课程目录

课程必备入门基础

shell脚本

Python语言

课程收获

全套课程服务

  • 怎么上课?在哪上课?

    报名后,班主任会引导你按时上课。本门课程采取录播的形式,电脑/手机都能随时看课,同时配有微信学习群,授课教师、助教老师在线答疑解惑。

  • 我可以在任何时间学习课程吗?课程有效期是多久?

    课程有效期内,任何时间都可以学习。本门课一共设置9节课,学习期2个月,课程有效期为开课后一年,可在一年内反复学习。

  • 有不懂的地方,是否有专门的老师来提供帮助?

    除了授课教师外,本门课还配有班主任及助教老师,班主任会督促引导你按时学习,学习中有不懂的地方助教老师或授课老师在线提供帮助。

  • 答疑课中我的问题一定会被回答到么?

    课程学习中,会安排老师做在线答疑课,班主任会提前收集学生提问,答疑课后有问题也可以随时在学习群里提问,有问必答。

  • 怎么进入该课程答疑群?

    报名后,由班主任邀请进入本门课程学习群。

  • 课程不满意,可以退款吗?

    开课学习7天内不满意可无条件退款。

  • 课程学完后,如果还需要求职帮助,怎么办?

    在你学完全部课程后,老师会为你做一份专属的学习情况总结,如果你还有求职需要,可以联系你的班主任问询。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-07-03 10:48:33  更:2022-07-03 10:52:26 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/14 1:08:25-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码