IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Visual_Transformers_Token_based_Image_Representation_and_Processing_for_Computer_Vision -> 正文阅读

[人工智能]Visual_Transformers_Token_based_Image_Representation_and_Processing_for_Computer_Vision

Visual Transformers: Token-based Image Representation and Processing for Computer Vision

2020 CVPR

img

1. 摘要

? 计算机视觉通过(A)将图像表示为均匀排列的像素阵列和(B)卷积高度局部化的特征取得了显著的成功。然而,卷积对所有图像像素一视同仁,不考虑重要性;明确地对所有图像中的所有概念建模,而不考虑内容;以及尽力将空间距离的概念联系起来。在这项工作中,我们通过(A)将图像表示为语义视觉标记(semantic visual token)和(B)运用transformer来密集地建模标记关系来挑战这一范式。我们的Visual Transformer在语义标记空间中操作,基于上下文明智地处理不同的图像部分。这与需要更多数量级计算的像素空间Transformer形成鲜明对比。使用先进的训练方法,我们的VTs显著优于卷积同行,将ImageNet Top-1上的ResNet精度提高4.6到7个点,同时使用更少的FLOP和参数。对于LIP和COCO的语义分割,基于VT的特征金字塔网络(FPN)在降低FPN模块错误率6.5的同时,提高了0.35个MIU点。

2. 方法

2.1 Tokenizer

参考:

LatentGNN: Learning Efficient Non-local Relations for Visual Recognition

Graph-Based Global Reasoning Networks

Symbolic Graph Reasoning Meets Convolutions

image-20220221154511370

  1. Filter-based Tokenizer

    基于核的Tokenizer,使用卷积来使用固定卷积核对像素进行分组;缺点在于,许多高级语义概念是稀疏的,每个概念可能只出现在几个图像中,固定的学习权重集合Wa对所有这样的高级概念进行建模会潜在地浪费计算。

    image-20220221155521030

  2. Recurrent Tokenizer

    image-20220221160934902

    上一层的tokens指的是什么?是一次预测产生的tokens还是指有多层的tokenizer

2.2 Transformer

先前有利用图卷积进行关系感知,但是这样的操作使用固定的权重,这意味着每个token或节点都被绑定了一个特点的概念,即使有的概念只出现在几个图像中。

使用transformer的原因:依赖于输入的权重,从而支持具有可变含义的可视tokens,用更少的标记覆盖更多可能的概念。

2.3 Projector

image-20220221161944157

3. 应用视觉transformer到视觉模型中

img

外链图片转存中…(img-XXBtVIcQ-1645432267352)]

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-02-22 20:35:25  更:2022-02-22 20:37:21 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 19:59:48-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码