| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> transformer综述汇总与变形分析(持续更新) -> 正文阅读 |
|
[人工智能]transformer综述汇总与变形分析(持续更新) |
Note: 本文收集transformer领域的较流行的综述文章,将认为比较重要的内容整理在一起,用于学习和提供思路。1.谷歌:Efficient Transformers: A Survey(2020年9月)2.华为、北大:A Survey on Visual Transformer(2020年12月)3.复旦大学邱锡鹏组综述:A Survey of Transformers(2021年6月15日)该篇综述以transformer结构变形为重点,分析了Module-level、Arc-level、PTM等结构和方法,给出了明确清晰的变形思路和路径。 随着transfomer的成功,各种基于原始transfomrer的变形不断被提出,作者将其归纳为3个方面:
attention-module这里关注一下softmax函数,
D
k
\sqrt{D_{k}}
Dk??的作用是为了缓解softmax函数的梯度消失问题。 Model usage
Model analysishidden-dimension :D
inductive biastransformer经常用来和CNN与RNN比较。众所周知,CNN利用共享的局部核函数施加平移不变性和局部性(局部权值共享)的归纳偏差,类似的,RNN通过其马尔可夫结构携带时间不变性和局部性的归纳偏差。Transformer结构对于数据的结构信息几乎不作任何假设,这使得trnasformer成为一种灵活、通用的体系结构,同时带来的负面影响就是在小数据集上容易过拟合。 另一种密切相关的网络类型是带有消息传递的图神经网络(GNNs)[149]。Transformer可以被看作是在一个完整的有向图(带有自循环)上定义的GNN,其中每个输入都是图中的一个节点。Transformer和GNNs之间的关键区别在于,Transformer没有引入关于输入数据结构的先验知识——Transformer中的消息传递过程完全依赖于内容的相似性度量。 TAXONOMY OF TRANSFORMERS大量transformer模型变形已经被提出,主要可以分为以下三个方面:
这篇文章主要关注结构方面的修改。 attentionself-attention 在transformer中扮演重要角色,但是在实际应用中仍然面临两个挑战:
下图是原子稀疏注意力模式的组合形成的一些表征模式。
未来方向:
4.中科院、东南大学、联想公司 :A Survey of Visual Transformers(2021年11月)5.清华、南开:Attention Mechanisms in Computer Vision:A Survey(2021年11月)该篇综述关注注意力机制的发展,从attention的角度叙述模型发展。 人类视觉系统中的注意力机制可以视为一个动态选择的过程,通过对输入重要性进行自适应的加权来实现。 General form日常生活中,人类看见一个场景,将快速聚焦于一个感兴趣的判别区域,并可以快速处理,以上过程可以写为一个注意力通用形式,** a t t e n t i o n = f ( g ( x ) , x ) attention=f(g(x),x) attention=f(g(x),x)**这里g(x)产生注意力,对应于有关判别区域的处理过程。f(g(x),x)表示基于attention g(x)处理输入x,这与处理重要区域以及获取信息时一致的。 通过以上定义,可以将现有的所有注意力公式表示为以上形式,以self-attention以及squeeze-and-excitation(SE) attention 为例,对于self-attention channel attentionchannel attention 自适应地重新校准每个通道的权重,可以将其视为一个对象选择过程,从而确定要注意的内容(what to pay attention to )。SENet 首次提出了channel attention。根据图4顺序进行了说明 spatial attention空间注意力可以看作是一种自适应的空间区域选择机制:where to pay attention。根据图4顺序进行了说明 Temporal attention时间注意力可以看作是一种动态的时间选择机制,决定when to attention ,因此通常用于视频处理。根据图4顺序进行了说明 Branch attention分支注意力可以被看作是一种动态的分支选择机制:which to pay attention,与多分支结构一起使用。 Channel & Spatial Attention通道与空间注意力结合了通道注意力和空间注意力的优点。它自适应地选择重要对象和区域,The residual attention network 开创了channel&spatial attention 领域,强调了信息特征在空间和通道维度上的重要性。它采用自下而上的结构,由几个卷积组成,生成一个3D(高度、宽度、通道)attention map。然而,它有很高的计算成本和有限的应用领域。 为了利用全局空间信息,之后的工作引入了global average pooling 增强了特征识别,同时解耦通道注意力和空间注意力提升了计算效率。其它工作将self-attention应用于channel&spatial 注意力探索两两之间的交互。还有工作使用空间注意力机制扩大感受野。 Spatial & Temporal Attention时空注意力结合了空间和时间注意力的优点能够自适应选择重点区域和关键帧。一些工作分计算时间注意力和空间注意力,也有一些联合生成时空attention maps。 future Direction
6.华为:A Survey on Vision Transformer(2022年年2月)该篇综述从应用场景角度对transformer模型进行review,介绍了各种有关backbone的transformer模型,high/mid-level vision ,low-level vision ,and video tasks,同时简单介绍了有效的transformer方法。 按照应用场景将transformer分类: Vision transformer基于transformer模型的应用,包括图像分类、high/mid-level vision,low-level vision and video processing.简单总结self-attention机制与模型压缩在高效transformer中的应用。 除了CNN,transformer也可以作为图像分类的backbone。Wu等人将ResNet作为一个baseline,并使用视觉transformer来代替卷积的最后阶段。具体来说,他们应用卷积层来提取低级特征,然后将其输入视觉transformer。对于vision transformer,他们使用tokenizer(标记器)将像素分组为少量视觉标记,每个标记代表图像中的一个语义概念。这些视觉标记直接用于图像分类,transformer用于模拟标记之间的关系。如图4所示,这些作品可以分 为pure transformer,以及将CNN和transformer相结合。我们在表2和图6中总结了这些模型的结果,以展示backbone的发展。除了监督学习,视觉transformer还探索了自监督学习。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 11:39:10- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |