[人工智能] 论文笔记 A survey of Transformers

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文笔记 A survey of Transformers -> 正文阅读

[人工智能]论文笔记 A survey of Transformers

论文笔记 A survey of Transformers

1.介绍

改进版本的各种former在如下三个方面改进了vanilla Transformer:

模型效率，因为Self-Attention的时间和内存效复杂度导致其在处理长序列时效率比较低
模型泛化，很难在小批量数据集上进行训练，
模型迁移，将Transformer适应去特定的下游应用。

提出一个新的分类，根据三个方面：模型改进、预训练、应用。

2.背景：介绍架构

2.4 和其他进行比较

2.4.1 自注意力分析

是一种灵活的可以处理可变长度的机制，可以理解为一个权重从输入动态生成。优势如下：
（1）和全连接层拥有同样的最大路径长度，更能建模长期依赖，和全连接层相比，参数更少，在处理可变长度输入时更加灵活。
（2）和卷积层相比不需要叠加很多层
（3）和RNN相比更容易并行

2.4.2 归纳偏置

Transformer通常跟CNN和RNN相比较，CNN通过共享卷积核参数增强了平移不变形和局部性的归纳偏置，RNN通过携带他的马尔科夫结构携带了时序不变性以及局部性的归纳偏置，但是，Transformer架构对于数据的结构信息做出了较少的假设，却也使得其容易在小规模数据及上过拟合。
另外一个与之相关的架构是具有消息传递的图神经网络。Transformer可以视作定义在完全有向图（具有自循环）的图神经网络，每一个输入为图中的一个点。所不同的是，Transformer没有引入关于数据结构的先验知识，消息传递机制仅仅依赖于输入之间的相似性

3.分类系统

按照三个来分类：架构改变、预训练方法、应用

4.Self-Attention：跟Attention相关的变种

在实际应用中仍然有两个挑战：

复杂度 o(T^2)
结构性先验知识，并没有引入输入之间的structural bias,甚至是顺序信息都需要从输入中学到，所以，Transformer很容易在小批量或者中批量数据及上过度拟合。

4.1 Sparse Attention

在标准的Transformer里，每一个记号都要attend其他记号。然而在训练好的Transformer里，注意力矩阵在大部分输入点都很稀疏，限制每个query 所attend的数目。
根据确定稀疏连接的方法，将其分为两种。position-based和content-based

4.1.1 position-based

attention权重矩阵根据某种预定义的模式来确定，可以解构为一些原子模式

4.1.1 Atomic Sparse Attention

1.为了处理Sparse Attention在建模长期以来的不足，添加一些全局结点作为信息传递的中转站
2.band attention
3.dilated attention
4.random attention
5.block attention

4.1.2 一些复合的模式

Star-Transformer、Longformer、ETC、Bigbird、Sparse Transformer

4.1.3 扩展的Sparse 模式

其中一个，应用于文本，BP-Transformer

4.1.2 基于内容的

以输入为条件
routing transformers
reformer
SAC
sparse sinkhorn attention

4.2 Linear Attention

$QK^{T}$ 的计算与T的平方成正比，如果可以 $Q^{、}(K^{、T}V)$ 这样算的话，就可以有用O(T)的复杂度，即使用 $\phi(Q)\phi(K)^{T}$ 代替 $exp(QK^{T})$ , $\phi$ 被称之为feature map，
主要有两个关键点，feature map,融合方法