| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> VIT论文介绍 -> 正文阅读 |
|
[人工智能]VIT论文介绍 |
1. 引言本文来讲解一篇论文 VIT, 这篇算是引起VIT跟CNNs之争的开端。 论文链接: 戳我 Transformer结构原本应用于自然语言处理,本篇希望找到可以在不用CNN情况下使用纯Transformer构架在图像分类任务上使用少量运算资源来训练达到更好的结果。 闲话少说,我们直接开始吧! 2. TransFormer特点一般来说,Transformer的一些优点如下:
Transformer缺乏的部分:
3. 相关工作以前就有许多实验希望将图像应用在Transformer上,大致可以分为以下三种方式:
以上三种方式虽然均可以应用在图像任务上,但需要大量运算资源与硬件需求。 2020年Cordonnier提出一种方式,从输入图片取出2 x 2大小的patch并采用full self-attention,这与本篇采用的方式最为接近,但本篇进一步证明了使用大量训练数据训练的Transformer就比CNN SOTA具有更高的性能。 4. 实现方法VIT的网络结果如下图所示:
5. 实验结果最终的定量的实验结果如下: 通过上面的实验可以说明 Transformer 可以经过足够大量数据做预训练后,最终的效果会比 CNN 的效果要好。 进而我们来观察不同数据规模的影响,如下所示: 我们将学到的Attention进行可视化,如下:
6. 总结本篇论文实现将Transformer应用于图像分类任务上,不同于其他方式将特定图像归纳偏差引入模型构架,而是将一张图片拆解成多个大小相同的patch块,透过在大量数据集上预训练进而达到比CNN构架更好的结果; 同时ViT 可以适用于输入各种大小尺寸的图像,推荐大家多多使用!
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 5:40:38- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |