一、引言

??语音增强的主要目标是从含噪语音信号中提取纯净语音信号，在自动语音识别、助听器中有着广泛的应用。深度语音增强方法可分为两大类：1) 基于映射的语音增强方法; 2) 基于掩模的语音增强方法。

二、基于映射的语音增强方法

??基于映射的语音增强方法按不同的域(时域/频域)处理，可分为两大类：
????1) 基于频谱映射的语音增强方法：通过神经网络学习含噪语音信号频谱到干净语音信号频谱之间的映射关系。
????2) 端到端语音增强方法：通过神经网络学习含噪语音信号时域波形到干净语音信号时域波形之间的映射关系。

2.1 频谱映射系统模型

??频谱映射系统模型如下图所示，

??语音特征提取和时域重构具体流程如下所示，

??训练阶段：
????1) 输入：本文实验采用的输入特征为带噪语音信号对数幅度谱。值得注意的是，参照文献[1]采用扩帧技术，如输入5帧对数幅度谱数据时，网络输出为预测的第3帧对数幅度谱数据，如下图所示。

????2) 标签：为干净语音信号的对数幅度谱，如当输入5帧对数幅度谱数据时，输出为预测的第3帧对数幅度谱数据。
????3) 损失函数：MSE损失函数， $L_{\text {Loss }}=\|\hat{\mathbf{L}}-\mathbf{L}\|_{2}^{2}$
????备注：对输入的对数幅度谱进行归一化可加速网络的收敛，且本文实验采用BN层对输入特征进行归一化。

三、实验分析

3.1 实验数据集及参数设置

????训练所用干净语音信号：TIMIT-TRAIN中DR1所有干净语音信号；测试所用干净语音信号：TIMIT-TEST中DR1前10条干净语音信号；合成含噪语音信号信噪比(dB)：[-5, 0, 5, 10]；合成含噪语音信号所用噪声来源：NoiseX-92中的3种噪声 [‘babble’, ‘destroyerengine’, ‘factory1’] 。
????参数设置：短时傅里叶变换长度：N_fft = 512, 窗长：win_length=512, 窗移：hop_length=128 , 窗函数：‘hamming’；训练相关参数epoch=30, lr=1e-4, batch_size=16。