Speech Separation
Speech Separation包含Speech Enhancement和Speaker Separation两种,这里主要讲的是Speaker Separation。
1. Evaluation
提到的两个指标都是值越大越好。
1.1 Signal-to-noise ratio(SNR)
该研究方向是有评价指标的,第一个是SNR,但是该方法很容易受限于声音音量的大小,如果输出结果和真实结果方向一致只是声音大小存在差异,也会导致SNR评价结果不高,但是如果因此调整音量,又会导致预测有偏差的结果SNR评价结果更差:
1.2 Scale invariant signal-to-distortion ratio(SI-SDR)
因此可以采用SI-SDR这样一个评价指标,可以解决上述问题如图所示: 在实际应用中,往往会计算对应的SI-SDR improvement,以及其他的评价指标,如图:
2. Deep Clustering
在训练过程中,存在ground-truth的对应问题,无法确定构建预测和groud-truth对来优化网络,如图:
2.1 Masking
在Deep Clustering中,将输出结果看成是Mask,然后将Mask的结果和原始matrix X点乘,再生成最终输出的结果,如图: Ideal Binary Mask是通过比较两种分离的对应位置数值的大小来构建对应的Mask Matrix,将对应的Mask乘以原始Matrix就可以获得对应的分离后的人声: 因此可以构建一个Mask Generation网络,将Ideal Binary Mask作为训练目标,从而使得网络自动学习对应的Mask: 在Deep Clustering中,将原始频谱图输入到Embedding Generation网络中将每个网格转成对应的向量,再通过K-means对当前向量进行分类(如按说话人的个数分类,事先定好类别个数),从而生成对应的Mask:
3. Permutation Invariant Triaining(PIT)
将预测结果分别和ground-truth进行一一对应,选择loss较小的分配结果来调整模型,不断调整对齐:
4. TasNet - Time-domain Audio Separation Network
2019年提出的一个语音分离的模型,如图: 其中Encoder和Decoder细节如下: Separator部门由wavenet构成: 总的路线细节如下:
5. 存在问题
5.1 未知说话人的个数
在实际场景中,往往不知道有多少人在讲话,则每次仅分离一个说话人出来,然后将分离出的复合语音进一步分离:
5.2 多个麦克风
则将多个麦克风的输入作为输入:
5.3 基于视频的语音增强分离
通过视频辅助语音的分离:
|