IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 深度学习与人类语言处理学习笔记(一)—— 语音分离(理论篇) -> 正文阅读

[人工智能]深度学习与人类语言处理学习笔记(一)—— 语音分离(理论篇)

Speech Separation

Speech Separation包含Speech Enhancement和Speaker Separation两种,这里主要讲的是Speaker Separation。

1. Evaluation

提到的两个指标都是值越大越好。

1.1 Signal-to-noise ratio(SNR)

该研究方向是有评价指标的,第一个是SNR,但是该方法很容易受限于声音音量的大小,如果输出结果和真实结果方向一致只是声音大小存在差异,也会导致SNR评价结果不高,但是如果因此调整音量,又会导致预测有偏差的结果SNR评价结果更差:
在这里插入图片描述

1.2 Scale invariant signal-to-distortion ratio(SI-SDR)

因此可以采用SI-SDR这样一个评价指标,可以解决上述问题如图所示:
在这里插入图片描述
在实际应用中,往往会计算对应的SI-SDR improvement,以及其他的评价指标,如图:
在这里插入图片描述

2. Deep Clustering

在训练过程中,存在ground-truth的对应问题,无法确定构建预测和groud-truth对来优化网络,如图:
在这里插入图片描述

2.1 Masking

在Deep Clustering中,将输出结果看成是Mask,然后将Mask的结果和原始matrix X点乘,再生成最终输出的结果,如图:
在这里插入图片描述
Ideal Binary Mask是通过比较两种分离的对应位置数值的大小来构建对应的Mask Matrix,将对应的Mask乘以原始Matrix就可以获得对应的分离后的人声:
在这里插入图片描述
因此可以构建一个Mask Generation网络,将Ideal Binary Mask作为训练目标,从而使得网络自动学习对应的Mask:
在这里插入图片描述
在Deep Clustering中,将原始频谱图输入到Embedding Generation网络中将每个网格转成对应的向量,再通过K-means对当前向量进行分类(如按说话人的个数分类,事先定好类别个数),从而生成对应的Mask:
在这里插入图片描述

3. Permutation Invariant Triaining(PIT)

将预测结果分别和ground-truth进行一一对应,选择loss较小的分配结果来调整模型,不断调整对齐:
在这里插入图片描述

4. TasNet - Time-domain Audio Separation Network

2019年提出的一个语音分离的模型,如图:
在这里插入图片描述
其中Encoder和Decoder细节如下:
在这里插入图片描述
Separator部门由wavenet构成:
在这里插入图片描述
在这里插入图片描述
总的路线细节如下:
在这里插入图片描述

5. 存在问题

5.1 未知说话人的个数

在实际场景中,往往不知道有多少人在讲话,则每次仅分离一个说话人出来,然后将分离出的复合语音进一步分离:
在这里插入图片描述

5.2 多个麦克风

则将多个麦克风的输入作为输入:
在这里插入图片描述

5.3 基于视频的语音增强分离

通过视频辅助语音的分离:
在这里插入图片描述
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-15 11:47:53  更:2021-10-15 11:49:41 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 10:25:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码