IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Transformer综述2——《Transformers in Vision A Survey》 -> 正文阅读

[人工智能]Transformer综述2——《Transformers in Vision A Survey》

Abstract

Transformer模型:自注意力机制和自我监督
自监督用于大规模未标注数据的预训练

主流识别任务:图像分类 目标检测 行为识别 分割
多模态任务:视觉问答、视觉推理、视觉基础;视频处理(活动识别和视频预测)
低级视觉:图像超分辨率、图像增强和彩色化和3D分析

背景介绍

BERT(Bidirectional Encoder Representations from Transformers)
GPT(Generative Pre-trained Transformer)
RoBERTa(Robustly Optimized BERT Pre-training)
T5(Text-to-Text Transfer Transformer)

大规模数据集上的自我监控允许培训复杂模型,而无需手动注释成本,从而学习对给定数据集中存在的实体之间的有用关系进行编码的可概括表示。这是一个重要特征,因为与其他形式的深度学习模型(如CNN和RNN)相比,自我注意假设最小的诱导偏差。自注意层通过学习令牌集合元素(token set)之间的关系来考虑给定序列中的广域上下文。

基础知识

自我监督(ssl)

用于在大型未标注语料库预训练Transformer,然后用一个小的标记的数据集微调到目标任务。
ssl的基本思想是填空,尝试预测图像中被遮挡的数据,时间视频序列中未来或过去的帧,或者预测一个pretext任务(核心)。
例如:输入的旋转量,应用于图像块的排列或灰度图像的颜色。
另一种方法是通过对比学习。使用麻烦的转换用于创建同一图像的两种修改版本,即不改变底层语义(图像样式化和裁剪)和语义变化(用同一场景中的另一个目标替换目标,或通过对图像进行较小的对抗性更改来更改类)
最后,对模型进行训练,使其对麻烦转换保持不变,并强调对可能改变语义标签的微小改变进行建模。

SSL分两阶段:首先,训练模型通过解决借口任务来学习底层数据的有意义表示。根据数据属性和任务定义自动生成借口任务的伪标签(无需任何手动注释)。在第二阶段,第一阶段训练的模型使用标记数据在下游任务上进行微调。下游任务的示例包括图像分类、对象检测和动作识别。

自我注意

允许捕获序列元素之间的“长期”信息和依赖关系,而传统的循环模型发现编码这种关系很难。

自我注意机制是transformers不可分割的组成部分,它明确地为结构化预测任务建模序列中所有实体之间的交互。基本上,自我注意层通过聚合来自完整输入序列的全局信息来更新序列的每个组成部分。
自我注意的目标是通过根据全局上下文信息对每个实体进行编码来捕获所有元素之间的相互作用。
在这里插入图片描述
卷积运算与自我注意的主要区别在于,权重是动态计算的,而不是卷积运算中的静态权重(对于任何输入都保持不变)。此外,自我注意对输入点数量的排列和变化是不变的。因此,与需要网格结构的标准卷积相比,它可以轻松地对不规则输入进行操作。
它具有编码器-解码器结构。编码器由六个相同的层组成,每层有两个子层:一个多头自我注意块和一个简单的位置全连接前馈网络。如图所示,在每一层之后使用残差连接和层规范化。注意,与同时执行特征聚合和特征转换的常规卷积网络不同,这两步在Transformer中解耦,自注意力层仅执行聚合,前馈层执行转换。解码器包括六个相同的层。每个解码器层有三个子层,前两个子层(多头自注意和前馈)类似于编码器,而第三个子层对相应编码器层的输出执行多头注意。

Transformer&自注意力在视觉中

全局自注意力:不受输入特征大小限制——引入一个以非局部方式层,该层将注意力应用于整个要素地图,同时通过设计稀疏注意图降低非局部运算的计算复杂度。

局部自注意力:试图在给定的邻域内建立关系模型,将注意力限制在给定像素位置周围的特定窗口内,以减少计算开销。

目标检测中的Transformer

1.首次使用Transformer 侵入检测问题
2.将扩展到多尺度体系,侧重于提高检测效率,侧重于提高效率

DETR
将目标检测视为一个使用Tansformer和损失函数预测问题。
DETR主要优点是,他消除了对手工制作的模块和操作的依赖,这种方式,对于复杂结构化任务,对先验知识和仔细地工程设计的依赖性得到了放松。

在这里插入图片描述
可变形DETR
解决计算成本大、收敛速度慢的问题
只关注真个特征映射中的稀疏元素,不管其空间大小。

Transformer未解决问题&未来展望

1.高计算成本:Transformer参数复杂度高
2.高数据成本:Transformer需要通过查看大量的示例来找出图像属性。
3.新颖的设计:直接将Transformer使用
4.Transformer的可解释性:
5.硬件
6.自我监督模式

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-05 10:51:48  更:2021-09-05 11:01:54 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 16:38:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码