1、语音基础

2、模型结构

2.1 卷积神经网络

1 时频域上的卷积
相比于二维的图像输入，语音信号往往是一维时序信号，直接使用一维时序信号建模效果差。因此要在网络的输入中也采用经过处理的帧级别特征，比如MFCC特征或者FBANK特征。
如果我们利用相邻的语音帧信息，整合成二维语谱图作为输入，则此时的输入输出与图像识别任务很像，就可以利用二维卷积操作对输入的语谱图特征进行处理。在卷积神经网络语音识别系统中，通常会采用整合了相邻帧的二维语谱特征图作为输入。

相比于前馈神经网络语音识别系统，卷积神经网络有如下两个优势：

语音的语谱图在时间维度和频率维度上都有着很强的局部相关性，而卷积神经网络由于其局部连接的特性，能够更好地对这种局部相关性建模。对于前馈神经网络来说，尽管每两层间所有的神经元都相互连接，却很难对输入特征图的局部相关性建模。
基于卷积神经网络的神经元是局部且稀疏连接的，而且卷积核的参数是针对输入特征图的每一个元素共享的，卷积神经网络对于输入和输出是等变的。具体来说，在处理一维时间数据时，时间维度的平移并不会影响卷积操作的整体结果。同样，对于频率维度的变化，比如不同的说话人或是不同的说话风格所带来的频率维度的平移，卷积神经网络也能够更好地提取出不受这些变化影响的语音特征。

现实生活中的语音信号，往往是非线性的、时变的、多样的，会受到各种各样因素的影响而呈现出很大的不同。具体来说，说话人自身的一些特性比如性别、年龄、所处环境下的噪声和混响，以及拾音设备引起的信道差异等，都会影响语音信号的声学建模。依据上述两个卷积神经网络的优势，可以利用卷积的不变性来减少语音信号本身的多样性带来的问题，卷积神经网络可以更好地提取信号的声学特征，从而获得更好的语音识别效果。

2 时域上的卷积
尽管基于频率维度的卷积在实际的语音识别任务应用中取得了不错的效果，但这种基于语谱特征图的卷积结构缺乏信号层面的物理意义。以图像为例，在输入图像上做的卷积操作可以被视为滤波器组的滤波操作。图像的长和宽属于一个维度的两个方向，而语谱特征图的长和宽分别表示输入的时间维度和频率维度。在语谱图上的卷积操作与在图像上的卷积操作不同，难以用信号层面的物理意义来解释。

接下来，我们会介绍基于时域信号的卷积方法，即以原始波形（Raw Waveform）信号为输入的卷积神经网络。
一直以来，语音识别系统都会先对信号进行分帧处理，将其转换到时频域提取声学特征，例如MFCC、FBANK等，再进行声学建模。

一方面因为在转换到时频域之后，语音信号的特点更加明显，能够提取到对应于其声学本质的特征；
一方面因为原始语音信号波形的语义信息往往和频率和相位的变化相关，而这些变化在时域层面十分不显著，直接对时域进行建模相对困难。

然而，现在广泛采用的一些特征提取方法会舍弃一些低能量的部分，也就是说，输入给声学模型的信息是不完整的。这样人为的特征提取结果不一定能够提供最适合声学建模的特征，因此，直接从时域学习，以语音信号波作为输入是一种有效的替代方案。

传统的特征提取方法，会转换到时频域提取声学特征，相当于在原始信号上进行的滤波操作，如FBANK特征就是滤波器组所得到的不同特征值的特征。如前文所述，对于原始的一维输入语音信号而言，卷积操作等同于滤波，不同的卷积核等同于不同的滤波器。因此，可以用卷积神经网络替代传统的滤波器组的特征提取。

对于输入的时域语音信号，不同的卷积核相当于一组滤波器。经过时域样本点的滤波（卷积）与池化操作，可以得到每一帧的特征向量，这与传统信号处理方法得到的特征向量类似，可以用于之后的声学建模部分。
一些研究结果表明，使用卷积神经网络直接对时域语音信号建模，所构建的语音识别系统的性能能够与传统的基于信号处理方法进行特征提取再构建声学模型的语音识别系统相媲美，甚至在某些条件下能获得更好的性能。

Google的CLDNN模型，将卷积神经网络与循环神经网络结合，利用卷积神经网络更好地提取声学特征，再利用循环神经网络对这些帧级别的声学特征进行处理和建模，将网络逐层堆叠，能够获得很好的识别准确率。百度提出的Deep-Speech模型结构，应用VGGNet和包含残差连接的卷积层结构，也显著降低了错误率。
在结构上，深层神经网络通常指多个卷积块的堆叠。卷积块由卷积层、激活函数层和池化层组成。不同于浅层的卷积神经网络，深层网络往往采用更小的卷积核，比如3×3或者4×4。同时网络的整体设计多呈现出金字塔形结构，随着输入的前向传播，每层输出特征图的通道数逐渐增加，并最终被输送到末端堆叠的全连接层结构中。同时，相比于浅层卷积神经网络，输入特征图的维度可以在频率维度和时间维度上扩展，模型可以更好地处理更多更全面的输入信息。

在这里插入图片描述
上图给出了一种深度卷积神经网络的结构示例，其具有10层卷积层与5层池化层，每两层卷积层后会接一层池化层，最后有4层全连接层。所有的卷积核大小都为3×3，通道数从64逐渐增长到256。
尽管在结构上没进行有针对性的设计，深层卷积神经网络在抗噪鲁棒语音识别任务中仍然表现出了很好的性能[348, 349, 355。正如前面提到的，由于卷积神经网络对于输入输出的等变性，它能够更好地建模在时间维度或者是频率维度上发生扰动的语音信号。而堆叠的多层卷积层能够更好地从输入数据中提取声学信息，从而达到降噪的目的。
通常认为，深层卷积神经网络的前几层卷积，能够起到抗噪提升鲁棒性的作用。具体来说，堆叠的卷积层从带噪的语音特征中提取所需要的抗噪声学特征，再传递给后层做分类。深度卷积神经网络对于不同的噪声类型如加性噪声、信道失配及回声都有很好的抗噪鲁棒性。