IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> VIT论文介绍 -> 正文阅读

[人工智能]VIT论文介绍

1. 引言

本文来讲解一篇论文 VIT, 这篇算是引起VIT跟CNNs之争的开端。

论文链接: 戳我

Transformer结构原本应用于自然语言处理,本篇希望找到可以在不用CNN情况下使用纯Transformer构架在图像分类任务上使用少量运算资源来训练达到更好的结果。

闲话少说,我们直接开始吧!

2. TransFormer特点

一般来说,Transformer的一些优点如下:

  • 具有优秀的运算效率与扩展性
  • 可以透过大量数据做预训练并微调在其他数据集来减少运算资源
  • Attention(注意力机制)

Transformer缺乏的部分:

  • 需要大量训练数据
  • 缺乏像CNN固有的归纳偏差(Inductive bias)如平移不变性(translation equivariance)、局部性(locality)
  • 训练数据量不足时会无法达到很好的泛化能力

3. 相关工作

以前就有许多实验希望将图像应用在Transformer上,大致可以分为以下三种方式:

  • 将图像每个pixel对局部做attention(local multi-head dot-product self attention),基本上可以完全取代CNN
  • 采用稀疏Transformer,利用估计方式取得Global self-attention,目的是为了关注整张图像
  • 利用不同大小的Blocks来衡量attention,但在极端情况下只能沿着轴做

以上三种方式虽然均可以应用在图像任务上,但需要大量运算资源与硬件需求。

2020年Cordonnier提出一种方式,从输入图片取出2 x 2大小的patch并采用full self-attention,这与本篇采用的方式最为接近,但本篇进一步证明了使用大量训练数据训练的Transformer就比CNN SOTA具有更高的性能。

4. 实现方法

VIT的网络结果如下图所示:

在这里插入图片描述
主要的处理流程如下:

  • Path-embeddings: 将输入为 [H, W, C] 的图像,依照 [P, P, C] 的大小切成 N 份,再通过linear projection 到 D维,输出尺寸变为 [N, D]。
  • Append class token embedding: 像 BERT 一样在第0位添加一个可以学习的 embedding 来作为类别的token,输出为 [N+1, D]。
  • Concat position-embeddings: 直接用1D的position embeddings,从0开始到N,文中有实验用2D的也差不多,输出为 [N+1, D+1]。
  • 经过 L 层 transformer encoder: Transformer encoder 如上图右。
  • 做 classification: 在 class token 那个位置上的输出后接 MLP head 用以做分类classification。

5. 实验结果

最终的定量的实验结果如下:
在这里插入图片描述
定性的结果如下:
在这里插入图片描述

通过上面的实验可以说明 Transformer 可以经过足够大量数据做预训练后,最终的效果会比 CNN 的效果要好。

进而我们来观察不同数据规模的影响,如下所示:
在这里插入图片描述
上面的图片为作者将模型经过不同大小训练子集 (9M、30M、90M) 做预训练,随着数据量的提升发现 ViT 的性能也逐渐增强,表示卷积的归纳偏差使用于较小的训练数据集,大规模的数据集可以使用 Transformer。

我们将学到的Attention进行可视化,如下:

在这里插入图片描述
上图为作者将训练模型的 Attention map可视化后的效果,可以发现注意力机制在图像分类任务上具有语义上的关联性。

6. 总结

本篇论文实现将Transformer应用于图像分类任务上,不同于其他方式将特定图像归纳偏差引入模型构架,而是将一张图片拆解成多个大小相同的patch块,透过在大量数据集上预训练进而达到比CNN构架更好的结果; 同时ViT 可以适用于输入各种大小尺寸的图像,推荐大家多多使用!

在这里插入图片描述
关注公众号《AI算法之道》,获取更多AI算法资讯。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-14 09:57:29  更:2022-05-14 09:58:18 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 5:40:38-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码