IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 恒源云(Gpushare)_VSA:一个可变形尺寸窗口自注意力模型 -> 正文阅读

[人工智能]恒源云(Gpushare)_VSA:一个可变形尺寸窗口自注意力模型

文章来源 | 恒源云社区

原文地址 | VSA

原文作者 | 咚咚


伙伴们,好久不见了啊。

最近平台各种功能上线,实在抽不出时间搬运大佬们的文章,不是小编消极怠工哦~

这不,稍微有点时间空下来,小编就立即去社区精心挑选了一篇文章分享给你们啦。

走过路过,不要错过呀!废话不多说,正文走起🏃?♀?
👇👇👇

摘要

  1. 引入主题: 窗口自注意力已经在视觉Transformer中得到了广泛的探索,以平衡性能、计算复杂度和内存占用。
  2. 现存问题: 目前的模型采用预先定义的固定大小窗口设计,限制了它们建模长期依赖关系和适应不同大小对象的能力。
  3. 解决方法: 提出了可变尺寸窗口注意(VSA)来从数据中学习自适应窗口配置。具体来说,基于每个默认窗口中的token,VSA 使用了一个窗口回归模块来预测目标窗口的大小和位置。通过对每个注意头独立采用 VSA,可以建立长期依赖关系模型,从不同窗口捕获丰富的上下文,促进窗口之间的信息交换。
  4. 实验结果: VSA 是一个易于实现的模块,它可以用较小的修改和可以忽略的额外计算成本来替代最先进的代表性模型中的窗口注意力,同时大幅度地提高它们的性能,例如,在ImagNet 分类任务中,分类性能相对Swin-T提高了1.1% ,使用较大的图像训练和测试时,性能增益增加更大。另外,在目标检测分割、实例分割和语义分割任务中,处理不同大小的对象时,VSA 比普通窗口注意力更有优势。

算法

模型整体框架如上图(a)所示,是基于swin模型进行修改的,最主要的创新点是使用VSA(VWA) Transfomer blocks替代swin中的窗口自注意力block。

VSA Transformer模块如上图?所示,与传统的窗口自注意力模块不同,其中使用了VSA(VWA)(上图(b)所示)和CPE模块。接下来进行分别介绍。

VSA模块

上图(b)所示,可以简要看出,VSA module修改了每个窗口的大小和位置,提高模型对长远依赖的建模以及不同大小目标对象的检测。具体操作步骤如下:

  1. 给定VSA模块的输入特征 X X X,首先将其平分成大小一样的不重叠窗口 X w X_w Xw??,这与传统方法一样

  2. 对每个窗口进行线性操作得到对应的查询 Q w Q_w Qw??, Q w = L i n e a r ( X w ) Q_w = Linear(X_w) Qw?=Linear(Xw?)

  3. 为了获得每个窗口的长宽两个方向上的缩放和位置偏置,需要进行如下操作:

    1). 对 X w X_w Xw?使用核大小和步长与窗口大小一样的平均池化操作,并附加LeakyRelu激活层

    2). 进一步使用1 ×1的卷积层,输出 S w S_w Sw??和 O w O_w Ow?,大小均为 R 2 × N R^{2×N} R2×N,其中2表示长宽两个方向,N表示head个数

  4. 获得了缩放和偏置,那就要提取特征了,首先基于输入特征 X X X进行线性操作获取特征图 K K K V V V

  5. 然后,VSA模块根据缩放和偏置在 K K K V V V上进行特征提取,得到 K k , v , V k , v ∈ R M × N × C ′ K_{k, v}, V_{k, v} \in R^{M×N×C^{\prime}} Kk,v?,Vk,v?RM×N×C

  6. 最后将 K k , v , V k , v , Q w K_{k, v}, V_{k, v}, Q_w Kk,v?,Vk,v?,Qw??输入到多头自注意力模块MHSA中

CPE模块

由于窗口变形会导致位置信息的变化,使得Q和K V的位置信息出现偏差,论文使用了条件位置编码CPE(来自CPVT论文)来解决这个问题

实验

ImageNet分类任务

MS COCO目标检测和实例分割任务


Cityscapes语义分割任务

消融实验


可视化

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-28 11:50:53  更:2022-04-28 11:52:59 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 8:20:24-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码