IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Vision Transformer(ViT) -> 正文阅读

[人工智能]Vision Transformer(ViT)

??论文地址:?https://arxiv.org/pdf/2010.11929v2.pdf

????????基于纯自注意力机制的Transform模型,现在在自然语言处理领域占据着首要的地位,它主要是在大型文本语料库上进行预训练,然后在较小的特定任务的数据集上进行微调。而在计算机视觉领域,卷积神经网络仍然占主导地位,受Transformer的影响,很多新的基于注意力机制的架构的想法也用进了计算机视觉当中,比方说有的将CNN与自注意力机制相结合,有的使用轴注意力来完全替代卷积操作。

????????Vision Transformer(ViT)是想尽可能少地对Transformer进行修改,将Transformer的架构直接用在图像上。ViT将图片分割成一个个16*16大小的patch,也就是对应着Transformer中一个一个的词,将这些patch的线性嵌入序列作为Transformer的输入。ViT在大数据集ImageNet-21k和JFT-300M数据集上进行预训练,在多个图像识别基准上接近或者是高于当前最好的方法。由于缺少一些归纳偏置,在中小型数据集上训练出来的ViT的效果是比不上当前最好的方法的。

????????ViT尽可能地遵循最初地Transformer架构,如果你了解Transformer和Bert,那对你来说将会很简单。下图描述了整个ViT模型的架构。

?????????标准的Transformer的输入是一个一个token嵌入的一维序列,为了处理二维的图像,ViT将H * W * C图片先切成N *( P^2 * C )的patch,patch的大小为 P * P,C为通道数,N=(H*W)/(P*P)为图片切割的patch的个数。然后将patches进行flatten展平操作,得到patch embedding。P^2*C可以理解成Transfromer里边dmodel,也就是模型的维度。然后是在patch embedding上加上一个位置编码(position embedding),位置编码的计算和Transformer中相同。对于分类方面和Bert相同,引入了class token。

????????Transformer Encoder由多头自注意力块MSA和MLP块组成,Layernorm(LN)在每个块之前应用,在每个块之后应用残差连接。

ViT的Transformer实现过程:

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-11 23:59:55  更:2022-01-12 00:01:49 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/18 23:44:50-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码