IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 深度学习与人类语言处理学习笔记（一）—— 语音分离（理论篇） -> 正文阅读

[人工智能]深度学习与人类语言处理学习笔记（一）—— 语音分离（理论篇）

文章目录

Speech Separation

Speech Separation

Speech Separation包含Speech Enhancement和Speaker Separation两种，这里主要讲的是Speaker Separation。

1. Evaluation

提到的两个指标都是值越大越好。

1.1 Signal-to-noise ratio（SNR）

该研究方向是有评价指标的，第一个是SNR，但是该方法很容易受限于声音音量的大小，如果输出结果和真实结果方向一致只是声音大小存在差异，也会导致SNR评价结果不高，但是如果因此调整音量，又会导致预测有偏差的结果SNR评价结果更差：
在这里插入图片描述

1.2 Scale invariant signal-to-distortion ratio（SI-SDR）

因此可以采用SI-SDR这样一个评价指标，可以解决上述问题如图所示：
在这里插入图片描述
在实际应用中，往往会计算对应的SI-SDR improvement，以及其他的评价指标，如图：

2. Deep Clustering

在训练过程中，存在ground-truth的对应问题，无法确定构建预测和groud-truth对来优化网络，如图：
在这里插入图片描述

2.1 Masking

在Deep Clustering中，将输出结果看成是Mask，然后将Mask的结果和原始matrix X点乘，再生成最终输出的结果，如图：
在这里插入图片描述
Ideal Binary Mask是通过比较两种分离的对应位置数值的大小来构建对应的Mask Matrix，将对应的Mask乘以原始Matrix就可以获得对应的分离后的人声：

因此可以构建一个Mask Generation网络，将Ideal Binary Mask作为训练目标，从而使得网络自动学习对应的Mask：
在这里插入图片描述
在Deep Clustering中，将原始频谱图输入到Embedding Generation网络中将每个网格转成对应的向量，再通过K-means对当前向量进行分类（如按说话人的个数分类，事先定好类别个数），从而生成对应的Mask：

3. Permutation Invariant Triaining（PIT）

将预测结果分别和ground-truth进行一一对应，选择loss较小的分配结果来调整模型，不断调整对齐：
在这里插入图片描述

4. TasNet - Time-domain Audio Separation Network

2019年提出的一个语音分离的模型，如图：
在这里插入图片描述
其中Encoder和Decoder细节如下：

Separator部门由wavenet构成：

总的路线细节如下：

5. 存在问题

5.1 未知说话人的个数

在实际场景中，往往不知道有多少人在讲话，则每次仅分离一个说话人出来，然后将分离出的复合语音进一步分离：
在这里插入图片描述

5.2 多个麦克风

则将多个麦克风的输入作为输入：
在这里插入图片描述

5.3 基于视频的语音增强分离

通过视频辅助语音的分离：
在这里插入图片描述

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2021-10-15 11:47:53 更:2021-10-15 11:49:41

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/28 20:33:41-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码