[人工智能] TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME DOMAIN

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME DOMAIN -> 正文阅读

[人工智能]TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME DOMAIN

Motivation

目前研究者们开始在时域中探索深度神经网络的语音增强功能。有论文证明了全卷积神经网络对时域语音增强的有效性。也有论文训练了一种在时域中使用频域丢失的模型来提高增强语音的感知质量，但它并没有解决实时增强的问题。基于TCNN序列建模的成功实现，以及基于编码器-解码器的体系结构对时域语音增强的有效性，本文提出将两者结合，以获得一个实时增强系统。该模型具有基于编码器-解码器的体系结构，由因果卷积层组成。在编码器和解码器之间插入TCM，学习过去的长期依赖关系。

Method

A ?扩张因果卷积

给定输入序列x0,...,xtx0,...,xt和对应的输出序列y0,...,yty0,...,yt，因果约束意味着预测y^ty^t仅依赖于x0,...,xtx0,...,xt，而不依赖于未来的输入xt+1,...,xTxt+1,...,xT。在施加因果约束的情况下，TCNNs由因果层和膨胀卷积层组成。确保了信息不会从未来泄露到过去。扩张卷积有助于增加感受野。接受范围越大，网络就越能回顾过去。图1说明了kernal size=2的扩张的因果卷积的例子。

B残差块

此外，TCNN由残差块组成，残差块由3个卷积组成：输入1x1卷积、depthwise卷积和输出1x1卷积。输入卷积用于将输入通道的数量增加一倍。输出卷积被用来返回到原始的通道数，这使得输入和输出的加法兼容。depthwise卷积用于进一步减少参数的数量。在depthwise卷积中，通道的数量保持不变，每个输入通道只有一个滤波器用于输出计算。在正常的卷积中，每个输出通道使用的滤波器数量与输入通道的数量相同。输入卷积和中间卷积之后是PReLU非线性和批量归一化。

C TCNN

提出的TCNN有三个组成部分：编码器、解码器和TCM。编码器和解码器由二维因果卷积层组成，TCM由一维因果卷积层和扩张卷积层组成。该框架的框图如图3所示。

编码器的输出被reshape为大小为T×256的一维信号。TCM对reshape后的输出进行操作，并产生相同大小的输出。TCM由三个?dilation blocks堆叠在一起。?dilation blocks是由6个膨胀率呈指数递增的残差块体叠加而成的。在?dilation blocks中，残差块的扩张率分别为2020、2121、2222、2323、2424和2525。解码器是编码器的镜像，由一系列二维因果转置的卷积(反卷积)层组成。

D提出的模型体系结构参数

?实验步骤

WSJ0 SI-84数据集包含83名说话者(42名男性，41名女性)的7138个话语。我们为测试集选择了6个说话者。其余77位说话人被用来创建训练集。为了训练噪音，我们使用了来自音效库的10000个非语音声音，在-5 dB、-4 dB、-3 dB、-2 dB、-1 dB和0 dB的信噪比下生成训练话语。

对于测试集，我们使用来自Auditec CD的两种具有挑战性的噪音(babble和自助餐厅))。创建了两个测试集。第一个测试集使用了来自训练者的6个说话者(3个男性和3个女性)的话语。第二个测试集是由6个(3个男性和3个女性)不包括在训练集中的说话者的话语创建的。这两组测试用来评估受过训练和未受过训练的说话人的表现。

实验结果

首先，我们将TCNN与训练有素的演讲者的基线进行比较。结果见表2。与LSTM相比，STOI在信噪比和信噪比上均有6.1%的平均改善。PESQ在-5 dB时提高0.14，在-2 dB时提高0.17。同样，与CRN相比，STOI在信噪比和PESQ上都提高了4%，在-5 dB和-2 dB上分别提高了0.04和0.09。