| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 揭秘 local vision transformer 到底好在哪 by 南开、北大、微软亚研 -> 正文阅读 |
|
[人工智能]揭秘 local vision transformer 到底好在哪 by 南开、北大、微软亚研 |
Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight论文地址: https://arxiv.org/pdf/2106.04263.pdf
摘要
简介作者从这几个方面来研究 local attention 的机制,首先是稀疏连接,它是用来控制模型的复杂度的;然后是权重共享,是用来降低训练中对数据量的要求的;最后是动态权重预测,是用来提高模型能力的。 作者将 local attention 重新表达为一个在通道方向上的(channel-wise),空间上局部连接的(spatially-locally),且有着动态连接权重(dynamic connection weights)的层。 主要的特点总结如下:
作者将 local attention 与 depth-wise convolution 进行对比,因为它也是个通道方向上的,局部空间连接的层,且在稀疏连接上比较相似。主要的区别在于权重共享的模式:depth-wise convolution 是在空间方向上共享权重(即长宽方向),而不是在通道方向上。此外,depth-wise convolution 也能从动态连接权重上获益。 当作者将 Swin Transformer 中的 local attention 换成带有动态权重共享的 depth-wise convolution 后,发现它达到了与 Swin Transformer 相同甚至更好的结果,且动态深度卷积有着更低的计算复杂度。 主要的几点总结如下,直接搬上原文,但意思和上面的差不多:
理解局部注意力稀疏连接,权重共享,及动态权重稀疏连接意思是在有的输出神经元及输入神经元之间没有连接,它在没有减少神经元的同时,降低了模型的复杂度。 权重共享的意思是有些连接的权重是相等的,它在没有增加训练数据量的情况下,减少了模型的参数量,并增加了网络的尺寸。 动态权重是指针对每个实例,都学习了一套特定的连接权重。它提高了模型的能力。 局部注意力的性质(光看这个图可能有一点点难理解,其实作者画一个立方体可能会更好理解。我觉得图(a)其实是一个3x3的kernal,做的是一个普通版本的convolution操作。图(b)体现的是一个nxn(n为feature map的size)的kernel在某一个channel上的操作,即kernal size和feature map的size一样大。图?是3x3的kernal在某一个channel上的操作,依此类推。) 局部注意力的聚合过程其实可以表达如下: y i = ∑ j = 1 N k w i j ⊙ x i j \mathbf{y}_{i}=\sum_{j=1}^{N_{k}} \mathbf{w}_{i j} \odot \mathbf{x}_{i j} yi?=j=1∑Nk??wij?⊙xij? 其中 w i j ∈ R D \mathbf{w}_{i j} \in \mathbb{R}^{D} wij?∈RD 是由注意力权重 a i j ?or? { a i j 1 , a i j 2 , … , a i j M } a_{i j} \text { or }\left\{a_{i j 1}, a_{i j 2}, \ldots, a_{i j M}\right\} aij??or?{aij1?,aij2?,…,aijM?} 组成的权重向量,上面讲到的三个点,直接截图如下,即体现了 local attention 中的那几个特点。
与 depth-weise convolution 的关系它用一个单独的 filter 对每个通道做卷积: X  ̄ d = C d ? X d \overline{\mathbf{X}}_{d}=\mathbf{C}_{d} \otimes \mathbf{X}_{d} Xd?=Cd??Xd? ,其中 X ˉ d \bar X_d Xˉd? 和 X d X_d Xd? 分别是第d个通道的输出及输入特征图, C d C_d Cd? 是对应的 kernel weight。 相似点:都是稀疏连接,在通道间没有连接,且每个位置只与某一通道的一个小窗口中的位置连接; 不同点:首先是权重共享,depth-wise convolution 是在空间方向上共享(即长宽方向上),而 local attention 是在通道间或者每组通道间共享;其次,depth-wise convolution 的连接权重是静态的,并学习成为模型的参数,而 local attention 的是动态的,是根据每个实例预测出来的,且 depth-wise convolution 也能从动态权重中获益,比如使用 SENet 中的权重预测机制;最后是窗口的表示方式,local attention 用一个集合来表示位置,会造成空间顺序信息的丢失,因此它用位置嵌入来隐式地探索空间信息,而 depth-wise 卷积是用一个向量来表示,它使用有相对位置索引的权重(the weights indexed by the relative position),将局部窗口中的信息聚合起来。 Relation Graph这张图没太看明白,粘贴在下面 其它剩下的内容其实还挺多,特别是 Appendix 中的内容,也很值得看。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/17 18:37:10- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |