IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 11.FREQUENCY AND TEMPORAL CONVOLUTIONAL ATTENTION FORTEXT-INDEPENDENT SPEAKER RECOGNITION(2019.10) -> 正文阅读

[人工智能]11.FREQUENCY AND TEMPORAL CONVOLUTIONAL ATTENTION FORTEXT-INDEPENDENT SPEAKER RECOGNITION(2019.10)

题目:用于独立于文本的说话人识别的频率和时间卷积注意力

论文地址:https://arxiv.org/abs/1910.07364

摘要:大多数最近的与文本无关的说话人识别方法都应用注意力或类似技术来聚合由深度神经网络 (DNN) 前端生成的帧级特征描述符。在本文中,我们提出了卷积注意力的方法,用于在基于卷积神经网络 (CNN) 的前端中独立建模时间和频率信息。我们的系统利用卷积块注意模块 (CBAM) [1] 进行适当修改以适应频谱图输入。在 VoxCeleb [2, 3] 说话人验证基准上,建议的 CNN 前端配备了建议的卷积注意模块,其性能明显优于无注意和空间 CBAM 基线。我们最好的模型在 VoxCeleb1 测试集上实现了 2.031% 的相等错误率,这比可比较的最先进结果有了相当大的改进。为了更彻底地评估频率和时间注意力在现实世界条件下的影响,我们通过从输入频谱图中随机删除频率箱和时间帧来进行消融实验,得出的结论是,不是对任何一个实体进行建模,而是同时对时间和时间进行建模。频率注意力转化为更好的现实世界表现。

1.介绍

????????与文本无关的说话人识别领域最近取得的大部分进展可以归因于基于深度神经网络 (DNN) 的说话人嵌入,它已经远远超过了传统的最先进的系统,例如 i-vector+PLDA 框架。

????????基于端到端深度学习的说话人识别系统通常由两个组件组成:(i)用于提取帧级特征的 DNN 前端; (ii) 这些帧级特征的时间聚合到话语级嵌入。最近的大多数工作利用基于卷积神经网络 (CNN) 的前端模型从频谱图输入中提取帧级特征描述符。

????????虽然次优,因为它不会根据内容区分帧,但时间平均是最常用的帧级特征聚合技术之一[2,3,4]。最近的一些工作已经提出使用统计或基于字典的方法进行聚合来缓解这个问题。 [5] 提出了统计池化层,它结合了时间帧加权聚合的均值和标准差统计。最近,[6] 提出了时间分布投票 (TDV),用于在短段说话人验证中聚合其 UtterIdNet 前端提取的特征,尤其是亚秒级持续时间。 [7] 提出使用基于字典的 NetVLAD 或 GhostVLAD [8] 来聚合时间特征,使用基于 34 层 ResNet 的前端进行特征提取。许多最近的工作 [9, 10, 11, 12] 提出了基于注意力的技术来聚合帧级特征描述符,以赋予更具辨别力的帧更大的重要性。

????????计算机视觉领域中一个突出的注意机制是卷积注意 [1, 13],它有助于在整个 CNN 特征提取网络中对空间和通道注意进行建模。在本文中,我们提出了基于卷积块注意模块 (CBAM) [1] 的卷积注意方法,用于说话人验证。这项工作的主要贡献有两个:(i)我们提出了基于 CBAM 的卷积注意模块,用于建模频率和时间注意,即。 f -CBAM 和 t-CBAM,以及用于捕获频率和时间注意力的等权复合模块,称为 ft-CBAM;并且,(ii)我们进行消融实验,以更彻底地评估所提出的注意模块及其在现实世界条件下的表现,得出的结论是,不是对任何一个实体进行建模,而是同时对时间和频率注意进行建模,从而转化为更好的现实世界表现。

2.相关工作

????????注意力机制在计算机视觉、口语理解和自然语言处理方面取得了重大进展,通过专注于关键特征并抑制不重要的特征来提高深度神经网络的建模能力。对于说话人识别,[9],[10]利用自注意力来聚合帧级特征。 [11] 将注意力机制与统计池 [5] 相结合,提出了注意力统计池。最近,[12] 采用多头注意力 [14] 的思想进行特征聚合,优于 I-vector+PLDA 基线 58%(相对)。然而,通过仅对 DNN 前端生成的特征描述符而不是整个前端模型应用注意力或类似技术,最近的大多数工作是 (i) 没有充分利用 DNN 前端模型的表示能力; (ii) 在此过程中单独对时间注意力进行隐式建模。与上述方法相反,所提出的模块在特征提取模块中应用了注意力,天生就提高了模型的表示能力。

????????最近,[15] 提出使用门控卷积神经网络 (GCNN) 进行说话人识别。与用于帧级特征聚合的门控注意力池方法相匹配,他们在 SRE16 和 SRE18 数据集上评估了 GCNN 在 x 向量 [16] 系统中的性能。相比之下,我们提出了明确建模频率和时间注意力的附加模块。 [17] 提出了一种类似于 [13] 的编码器解码器样式注意模块,用于在噪声条件下提取空间和通道注意以进行自动语音识别。相比之下,我们提出了基于 [1] 的卷积注意模块,该模块对频率和时间注意以及通道注意进行建模,这大大优于说话人验证的空间注意基线。

2.1 CBAM:简要概述

????????最近,[1] 提出了一种新的网络模块,名为“卷积块注意模块”(CBAM),它在输入特征图上依次应用通道注意和空间注意子模块。

????????CBAM 由两个部分组成,即。通道注意模块和空间注意模块。以下等式可用于总结整个注意力过程:

????????其中表示逐元素乘法,F是输入特征图,是CBAM模块的最终输出,分别表示通道和空间注意力操作。通道注意模块利用特征的通道间关系,通过最大池化和平均池化压缩输入特征图的空间维度,然后使用共享 MLP 层进行投影,生成一维通道注意图。空间注意模块利用特征的空间间关系,关注感兴趣对象的空间位置。它沿通道轴应用和连接平均池化和最大池化操作的输出,生成一个有效的特征描述符,然后是一个 7x7 卷积层。

?????????然而,与计算机视觉的模态表示空间中高度相关的点,轴表示对象在笛卡尔坐标系中的空间位置不同,频谱图的轴表示完全不同的域:频率和时间。由两种模态的特征空间的轴表示的实体之间的这种脱节需要有针对性的卷积注意模块,因为现有的卷积注意方法所需的先决条件可能不再适用于语音域中的有效建模注意。

3.提出的方法

????????通道注意模块(Eq.1)在输入特征图中提取有关通道重要性的一般信息,并按原样使用。我们建议对空间注意力子模块进行适当的更改,以对频率和时间注意力进行建模,即。 f -CBAM 和 t-CBAM 分别用于频谱图输入。

????????因此,我们提出的模块的输入是(Eq. 1),使得 其中 C 表示输入通道的数量,H 和 T 分别表示沿频率和时间轴的维度。

?3.1 f-CBAM

????????对于频率注意建模,我们需要将注意模块的感受野限制为仅关注输入的 y 轴。

????我们聚合沿 x 轴平均输入特征图 的时间信息,以生成有效的特征描述符 ,它本质上为每个时间帧分配相等的统计重要性。

????????其中 表示在输入特征图上具有大小为 1×T 的内核的平均池化操作。

????与空间注意力子模块类似,我们然后通过生成两个特征图来聚合通道信息:,表示在 上跨通道维度应用的平均池化操作和最大池化操作,并将它们连接起来。最后,在这个级联特征描述符上,我们应用一个矩形 7x1 卷积核来生成频率注意图,其中 H 表示输入特征 中的频率 bin 总数。

?

????????这里,σ 表示 sigmoid 函数,f 7×1 表示具有矩形 7×1 内核的卷积操作。然后在原始输入特征图上沿时间维度广播 。?

?图 1. 提出的 f -CBAM 模块。 z 轴表示时间轴(使用尺寸 > 1 以图形方式表示)。

3.2 t-CBAM

????????t-CBAM 遵循类似于 f-CBAM 的过程来建模时间注意,尽管将注意模块的感受野限制在时间轴,即 x 轴。

3.3 ft-CBAM

????????ft-CBAM 由 f -CBAM 和 t-CBAM 组成,在输入特征图上并行应用。然后对两者生成的特征图进行平均。 ft-CBAM 可以看作是原始空间 CBAM 的一个特例,后者的 7×7 卷积滤波器由两个独立的 7×1 和 1×7 操作表示。

3.4?拟建管道

????????CNN 前端:我们提出了一个改进的 50 层 PreActivation ResNet [18],此后表示为 PRN-50v2,作为我们的 CNN 前端,用于编码任意长度的频谱图输入(表 1)。通过将残差块中的层顺序更改为 BN-ReLU-Conv,与可比较的 ResNet [19] 对应物相比,预激活 ResNet 提高了优化的简易性以及泛化性能。

????????注意力:在适用的情况下,适当的 CBAM 模块集成在建议的前端模块中每个残差块的末尾。

????????特征聚合:继 [7] 之后,他们证明了时间平均的不足之处,GhostVLAD [8] 池化层在 CNN 前端之后应用。作为参考,还提供了使用时间平均池的实验结果。在 GhostVLAD 池化层之后应用 256 维全连接嵌入层,产生紧凑的话语级特征描述符。最后,最后一个带有 softmax 输出的全连接层,用于在端到端分类设置中训练模型,使用 ArcSoftmax [20] 优化功能。

表 1. 修改后的 PreActResNet 前端。 ReLU 和 BatchNorm 层被省略。每行描述过滤器大小、过滤器数量和相应的输出大小。与具有大约 25 M 参数的标准 PreActResNet-50 相比,所提出的模型有 4.7 M。

4.实验和结果

4.1?基准数据集和训练细节

????????我们使用 VoxCeleb 数据集来评估所提出的方法,在 VoxCeleb2'dev' 集 [3] 上训练我们的模型,该集由 5、994 个扬声器组成,并在 VoxCeleb1 [2] 验证测试集 [3] 上进行测试。

????????训练详细信息:对于训练,使用 20 毫秒宽、10 毫秒跳跃长度的汉明窗口和对应于每个话语的随机 2 秒时间裁剪的 320 点 FFT 生成频谱图,然后是每个频率区间的平均值和方差归一化。初始学习率为 0.01 的随机梯度下降优化器每 15? 个时期衰减 0.1 倍,用于训练。

4.2 实验

????????使用所提出的无注意力模型以及遵循类似基准协议作为基线的先前工作的结果,我们首先进行直接比较分析,以研究注意力对说话人验证性能的影响。

????????此外,为了对提议的注意力模块进行更全面的评估并模拟可能发生类似扰动的现实条件,我们进行了三个消融实验:(i) 随机频率掩蔽; (ii) 随机时间掩蔽; (iii) 随机频率和时间掩蔽。每个输入频谱图都有 40% 的概率被增强,每个输入最多有两个掩码实例。每个掩码实例最多可以掩码 30 个随机选择的频率区间和最多 40 个随机选择的时间步长。

4.3 结果

?表 2. VoxCeleb1 测试集的验证结果。 TAP:时间平均池,SAP:自注意力池,ASP:注意力统计池,MHA:多头注意力,TDV:时间分布投票。所有提出的模型都大大优于现有的基线。

????????表2 将建议模型的性能与 VoxCeleb1 测试集上的现有基准进行了比较。所有提出的模型都大大优于先前的结果,基于 ft-CBAM 的最佳模型实现了 2.031% 的 EER。正如 [7] 所证明的,使用 GhostVLAD 代替 TAP 可以全面提高性能。 tCBAM 变体已经对时间注意力进行了建模,因此收益最小,而 f -CBAM 变体的改进最大(EER 为 2.457 % 对 2.13%)。

????????空间 CBAM 变体的性能与提议的 PRN-50v2 模型的无注意变体相当。空间 CBAM 和 ftCBAM 在性能上的巨大差异可归因于感受野的差异:与 ft-CBAM 不同,空间 CBAM 的单方形 7x7 内核的感受野将基本上跨越特征空间中的不同实体,用于频谱图输入。

????????表 3 显示了消融实验的结果。 ftCBAM 在所有条件下都显着优于所有其他变体。特定注意力变体之间的性能差距取决于所应用的变形类型:f -CBAM 和 t-CBAM 之间的差异从 0.05%(时间掩蔽)增长到 0.11%(频率掩蔽)。 总的来说,表 2 和表 3 的结果表明,时间和频率重要性的同时建模提高了说话人验证性能。

?表 3. VoxCeleb1 测试集的消融实验结果 (EER%)。每个实验重复 5 次并报告平均值。仅使用基于 GhostVLAD 聚合的模型。

5.结论

????????在本文中,我们提出了用于说话人识别的卷积注意方法,即。 f -CBAM 和 t-CBAM 用于建模频率和时间注意力,以及同时建模两者的复合模块,恰当地命名为 ft-CBAM。建议的配备 ft-CBAM 和 GhostVLAD [8] 的 PRN-50v2 模型明显优于所有基线,在 VoxCeleb1 测试集上实现了 2.03% 的 EER。经验证据表明,在 DNN 前端对注意力进行建模,以及同时对时间和频率注意力进行建模,可以提高说话人验证性能。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-13 11:15:05  更:2022-09-13 11:16:56 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 18:02:28-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计