Motivation
目前研究者们开始在时域中探索深度神经网络的语音增强功能。有论文证明了全卷积神经网络对时域语音增强的有效性。也有论文训练了一种在时域中使用频域丢失的模型来提高增强语音的感知质量,但它并没有解决实时增强的问题。基于TCNN序列建模的成功实现,以及基于编码器-解码器的体系结构对时域语音增强的有效性,本文提出将两者结合,以获得一个实时增强系统。该模型具有基于编码器-解码器的体系结构,由因果卷积层组成。在编码器和解码器之间插入TCM,学习过去的长期依赖关系。
Method
A ?扩张因果卷积
给定输入序列x0,...,xtx0,...,xt和对应的输出序列y0,...,yty0,...,yt,因果约束意味着预测y^ty^t仅依赖于x0,...,xtx0,...,xt,而不依赖于未来的输入xt+1,...,xTxt+1,...,xT。在施加因果约束的情况下,TCNNs由因果层和膨胀卷积层组成。确保了信息不会从未来泄露到过去。扩张卷积有助于增加感受野。接受范围越大,网络就越能回顾过去。图1说明了kernal size=2的扩张的因果卷积的例子。
B残差块
此外,TCNN由残差块组成,残差块由3个卷积组成:输入1x1卷积、depthwise卷积和输出1x1卷积。输入卷积用于将输入通道的数量增加一倍。输出卷积被用来返回到原始的通道数,这使得输入和输出的加法兼容。depthwise卷积用于进一步减少参数的数量。在depthwise卷积中,通道的数量保持不变,每个输入通道只有一个滤波器用于输出计算。在正常的卷积中,每个输出通道使用的滤波器数量与输入通道的数量相同。输入卷积和中间卷积之后是PReLU非线性和批量归一化。
C TCNN
提出的TCNN有三个组成部分:编码器、解码器和TCM。编码器和解码器由二维因果卷积层组成,TCM由一维因果卷积层和扩张卷积层组成。该框架的框图如图3所示。
编码器的输出被reshape为大小为T×256的一维信号。TCM对reshape后的输出进行操作,并产生相同大小的输出。TCM由三个?dilation blocks堆叠在一起。?dilation blocks是由6个膨胀率呈指数递增的残差块体叠加而成的。在?dilation blocks中,残差块的扩张率分别为2020、2121、2222、2323、2424和2525。解码器是编码器的镜像,由一系列二维因果转置的卷积(反卷积)层组成。
D提出的模型体系结构参数
?实验步骤
WSJ0 SI-84数据集包含83名说话者(42名男性,41名女性)的7138个话语。我们为测试集选择了6个说话者。其余77位说话人被用来创建训练集。为了训练噪音,我们使用了来自音效库的10000个非语音声音,在-5 dB、-4 dB、-3 dB、-2 dB、-1 dB和0 dB的信噪比下生成训练话语。
对于测试集,我们使用来自Auditec CD的两种具有挑战性的噪音(babble和自助餐厅))。创建了两个测试集。第一个测试集使用了来自训练者的6个说话者(3个男性和3个女性)的话语。第二个测试集是由6个(3个男性和3个女性)不包括在训练集中的说话者的话语创建的。这两组测试用来评估受过训练和未受过训练的说话人的表现。
实验结果
首先,我们将TCNN与训练有素的演讲者的基线进行比较。结果见表2。与LSTM相比,STOI在信噪比和信噪比上均有6.1%的平均改善。PESQ在-5 dB时提高0.14,在-2 dB时提高0.17。同样,与CRN相比,STOI在信噪比和PESQ上都提高了4%,在-5 dB和-2 dB上分别提高了0.04和0.09。
?接下来,我们在未经训练的演讲者身上比较这些模型。结果见表3。在性能改进中观察到类似的趋势,除了在这种情况下,TCNN在PESQ得分方面也显著优于CRN。这说明CRN模型对训练集中的说话人过拟合。
所提出的模型具有更少的参数。
总结
提出了一种新颖的全卷积神经网络用于实时语音增强。提出的TCNN在频域显著优于现有的实时系统。此外,所提出的框架具有更少的可训练参数。此外,通过对网络的编码器和解码器进行简单的修改,系统很容易适应不同的帧大小。未来的研究包括探索TCNN模型用于其他语音处理任务,如去混响,回声消除和说话人分离。
2022.2.13
|