IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> CVPR2022 MulT: 端到端的多任务学习transformer -> 正文阅读

[人工智能]CVPR2022 MulT: 端到端的多任务学习transformer

An End-to-End Multitask Learning Transformer

论文:https://arxiv.org/pdf/2205.08303.pdf

code:https://github.com/IVRL/MulT

project:?https://ivrl.github.io/MulT/

1.摘要

该文提出了一个端到端的多任务学习transformer框架,即 MulT,该框架可以同时学习对各高级视觉任务,包括深度估计,语义分割,reshading重着色,表面法线估计,2D关键点检测和边缘检测。基于swin-transformer模型,我们的框架将图像编码为共享表示,并使用基于特定任务的transformer解码器头对每个视觉任务进行预测。方法的核心是通过共享注意力机制对任务间的依赖关系进行建模。

通过在几个多任务基准上评估,本文提出的MulT的性能优于现有最先进的多任务卷积神经网络模型和所有各自的单任务transformer模型。

本章的实验进一步强调了在所有任务中共享注意力的好处,并证明MulT模型是稳健的,并且可以很好地泛化到新领域。

2.网络结构

如上图,Mult 模型基于swin-transformer??backbone(绿色部分),通过共享注意力机制(左下蓝色部分)对任务间的依赖关系进行建模。首先图像经encoder 编码模块(绿色部分)嵌入一个共享表示,然后通过transformer decoder解码模块(右端蓝色部分)对各个独立的任务进行解码。注意:transformer decoders具有相同的结构但接的是不同的任务头。整个模型通过监督方式采用各个任务的加权损失联合训练。

3.共享注意力机制

?为了说明任务间的依赖是在共享编码参数之外,我们设计了共享注意力机制,融合编码特征到解码流中。接下来通过一个特定的解码阶段来说明这个共享注意力机制是如何起作用的。注意在所有的解码阶段该注意力流程都有参与。

对于任务t和特定的解码阶段,x^{t}?表示为前一阶段的上采样输出,x_{sa}是同一分辨率下encode 阶段的输出。然后decoder将?x^{t}x_{sa}作为输入。标准方式来计算task t 自注意力是仅从decoder的输出x^{t}获得key,query和value 向量。

i而共享注意力,我们只利用一个任务流来计算注意力,也即,我们利用特定推理任务r的解码器的linear layers 从来自于encoder的x_{sa}计算一个query?q_{sa}^{r}和key?k_{sa}^{r}?,尽管如此,为了反映解码器的输出任务t应与此特定任务相关,我们计算value??v^{t}利用前一阶段任务t的输出x^{t}。因此,我们计算从推理任务r 计算attention values :

?式中C^{r}?是通道数,B^{r}是偏置。对于任务t,我们计算\tilde{x}^{t}=A_{sa}^{r}v^{t}。这里\tilde{x}^{t}后面被自注意力头head_{i}^{t}?用来计算?head_{i}^{t}(\tilde{x}_{i}^{t},W_{i}^{t})=\tilde{x}_{i}^{t}W_{i}^{t},这里?W_{i}^{t}是任务t学习到的注意力权重,\tilde{x}^{t}是第 i 通道。

注意这个方程表示自注意力的第i个实例,重复M次获得任务t的交叉注意力MHA^{t},根据这个我们计算x_{linear}^{t}通过线性投影?MHA^{t}输出,最后计算y^{t}如下:

这里W表示多头注意力权重。从经验上看,我们发现注意力来自表面法向量的任务流有利于我们6任务的MulT模型,因此我们将该任务作为参考任务r,其注意力是跨任务共享。如上图所示,x^{r}表示为前一阶段参考任务的特定编码器的上采样输出,此处作为曲面法线预测。

4.任务头和损失函数

来自transformer解码器模块的特征map被输入到不同的特定任务头,以进行后续预测。每个任务头包括一个线性层,以输出一个H×W×1的,map,其中H、W是输入图像尺寸。我们采用基于加权和的任务特定损失来联合训练网络,其中损失在每个任务的groundtruth和最终预测之间计算。对于分割,旋转,深度任务我们使用交叉熵损失,对于表面法线,2D关键点,2D边和重着色任务使用L1损失。另外,使用这些损失来保持与基线的一致性。

5.数据集

使用以下数据集评估MulT:

Taskonomy被用作我们的主要训练数据集。它包含400万幅真实的室内场景图像,每个图像的多任务注释。实验使用以下6项任务执行:语义分割(S)、深度(zbuffer)(D)、表面法线(N),2D关键点(K)、2D(Sobel)纹理边(E)和重着色(R)。选择的任务包括2D、3D和语义域,具有基于传感器/语义基础的GT。

Replica 包含1227张图像,高分辨率3D地面实况并且能够对细粒度进行更可靠的评估细节。我们在副本图像上测试了所有网络。

NYU包含1449 张来自464个不同的室内场景。

CocoDoom包含来自《末日》视频游戏的合成图像。我们将其用作未经训练的分布数据集。

6 测试效果

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-24 18:10:12  更:2022-05-24 18:13:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 5:36:14-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码