[人工智能] Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding阅读笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding阅读笔记 -> 正文阅读

[人工智能]Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding阅读笔记

主要看模型方法

Abstract

提出一个串行多层多头注意力针对neural speaker embedding，之前是将一帧的特征聚集起来进行表示。我们提出利用堆叠式的self-attention机制的分层架构获得更精细的特征。串行注意力机制包含一堆self-attention模块，多层堆叠可以学出更多有区别的embedding。

1 Introduction

略

2 Attention in Neural Speaker Embedding

Neural speaker embeddings是使用DNNs提取的语音话语的固定维表示，x-vector使用最广泛。在x-vector中，temporal aggregation用于将frame-level features转换为单个固定维度向量。全连接层用于将话语级别特征映射到说话人特征。但是某些frames对于辨别说话者是更独特、更重要的相比于其他帧。（It is believed that），不是给每一帧分配相同的权重，而是经常应用注意力机制。

2.1 Statistics pooling

设 $h_t$ 是frame processor network的输出的向量，通过statistics pooling，计算 $h_t$ 沿着时间轴的均值和方差

$\mu = \frac 1 T \sum _{t=1} ^{T} h_t$

$\sigma = \frac 1 T \sqrt{\sum _{t=1}^{T}h_t\cdot ht -\mu \cdot \mu}$

$.$ 表示每个元素乘法，element-wise multiplication

2.2 Attentive statistics pooling

2.3 self-attentive pooling

3 Serialized Multi-head Attention

介绍所提出的串行多层多头注意力机制。由三个主要的stage组成：a frame-level feature processor, a serialized attention mechanism, and a speaker classifier。

frame-level feature processor: 使用TDNN提取高级特征。

图1的中间部分，一个序列化的注意机制被用来将可变长度的特征序列聚合成一个固定维度的表示。

图1的顶部是前馈分类层。类似于xvector，整个网络被训练成将输入序列分类成说话者类别。

在这里插入图片描述

3.1 Serialized attention

serialiuzed attention机制由N个相同的层堆叠而成，每层由两个堆叠一起的模块组成，self-attention module和feed forward module。每个模块周围使用residual connection。在两个模块之前使用归一化。

我们建议使用堆叠的self-attention，以串行的方式将信息从一层聚合并传播到下一层，而不是并行的multi-head attention。

最初的multi-head attention，输入序列被分成几个称为头的同质子向量。然而，更深的架构增加了特征表达能力，可以在不同级别学习和聚合更多的特征。本文提出的serialized attention mechanism中，self-attention以串行的方式执行，允许模型从更深的层中聚合具有时间上下文的信息。