IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【论文研读】DeepViT:Towards Deeper Vision Transform -> 正文阅读

[人工智能]【论文研读】DeepViT:Towards Deeper Vision Transform

论文笔记【1】-- DeepViT: Towards Deeper Vision Transformer

CVPR 2021 DeepViT: Towards Deeper Vision Transformer

DeepViT论文? ? ??DeepViT Code

Phenomenon 现象:CNNs与ViTs的对比过程中,事实上,已知网络越深,性能越好。但是,ViTs所呈现的效果却不尽如此,堆积到32个blocks的效果还不如24blocks ? Why?

Why?原因:ViTs很依赖于self-attention,在深层结构中,self-attention无法学习有效的表征学习概念,阻碍了模型获得预期的性能增益。attention map逐渐变得相似,甚至某些层后相同!即,在深度ViT模型的顶层,特征图往往是相同的。(attention map相似度的判断:余弦相似度,余弦相似矩阵计算不同层次的attention map的跨层相似度)= attention collapse(注意力分散/崩溃)?

Method 方法:

  1. Higher Dimension Space : 出发点增加维度会增加token的表达能力,那么更多信息的情况下,注意力图之间的相似度就会减少。效果:随着embedding dimension的增长,相似的block的数量在下降,同时模型的Acc在上升。但是,增加embedding dimension也会显著增加计算成本,带来的性能改进往往会减少,且需要更大的数据量来训练,增加了过拟合的风险。
  2. Add temperature in self-attention:出发点缓解过渡平滑over-smoothing现象,在过渡平滑的地方进行锐化,通过添加temperature λ的减小可以让attention map的分布变得更加的sharp,使得attention map的数值拉开,在实际实现的时候作者使得 λ的值随着层数的加深而逐渐衰减,或者干脆把 λ设置为可学习的参数。效果:只起到非常小的作用。
  3. Drop attention:出发点:因为对于不同的block来说,会随机drop掉不同的值,故attention maps之间的相似性可以得到减少。效果:只起到非常小的作用。
  4. Re-attention出发点:同一transformer块的不同head的attention map的相似性相当小,很明显,来自同一自我注意力层的不同head关注输入token的不同方面。利用可学习的方式交换来自不同attention head的信息,动态融合它们来重新生成各层的注意力映射图,以增加它们在不同层次上的多样性,内存消耗和性能可以忽略不计。效果:相似的block的数量在下降,同时模型的Acc在上升,ViT可以做深些啦!

Result 结果:普通的self-attention的attention map的特点是:只学习到一些局部的patch之间的relationship,而且在网络的深层时attention map很接近。Re-attention的attention map的特点是:学习到更大范围内的patch之间的relationship,而且在网络的深层时attention map有差别。整体:发现了attention collapse,并提出了一种新的Re-attention,以最小的计算量和内存开销来解决这个问题。通过Re-attention,能够在增加vit的深度时保持一个不断增加的性能。

Other 遗留:不同的head作用不一样,head作用小的给的权重就小。attention就是权重?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-02-26 11:31:25  更:2022-02-26 11:32:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 19:36:31-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码