| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Mask2Former -> 正文阅读 |
|
[人工智能]Mask2Former |
Masked-attention Mask Transformer for Universal Image Segmentation 图像分割是关于将不同语义的像素分组,例如,类别或实例成员关系,其中每个语义的选择定义了一个任务。虽然只是每个任务的语义不同,但目前的研究重点是为每个任务设计专门的体系结构。我们提出了一种新的架构Mask -attention Mask Transformer (Mask2Former),能够解决任何图像分割任务(全景、实例或语义)。它的关键组成部分包括Mask -attention,通过约束掩模区域内的交叉注意来提取局部特征。除了将研究工作量减少至少三倍之外,它在四个流行的数据集上的性能显著优于最好的专门架构。最值得注意的是,Mask2Former设置了一个新的最先进的全景分割(COCO上57.8 PQ),实例分割(COCO上50.1 AP)和语义分割(ADE20K上57.7 mIoU)。 Mask2Former本文提出通用的图像分割架构,它在不同的分割任务中优于专门的架构,同时仍然很容易在每个任务上训练。 Mask2Former vs MaskFormer在maskformer的基础上: ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ?
Mask2Former overviewMask2Former采用与MaskFormer相同的元架构,具有backbone、像素解码器和transformer解码器。 1、backbone从图像中提取低分辨率特征的主干。 2、像素解码器,从主干的输出中逐渐上采样低分辨率的特征,以生成高分辨率的逐像素嵌入。 3、Transformer解码器,它通过图像特征处理对象查询。 Masked attention背景特征已经被证明对图像分割非常重要。然而,最近的研究表明,基于transformer的模型收敛缓慢是由于交叉注意层的全局上下文,交叉注意学习关注局部对象区域需要许多训练时间。我们假设局部特征足以更新查询特征,通过自我注意可以收集上下文信息。为此,我们提出了掩码注意,这是交叉注意的一种变体,对每个查询只关注预测掩码的前景区域。 标准交叉注意(带有残差路径)计算 ?masked attention模型的注意力矩阵计算: 特征位置(x, y)的注意掩码为 : ?是前面第(l?1)个transformer解码器层调整掩码预测的二值化输出(阈值为0.5)。它被调整到相同的分辨率kl,M0为从X0得到的二进制掩码预测,即在向Transformer解码器输入查询特征之前的预测。 高分辨率特征高分辨率特性提高了模型的性能,特别是对于小目标。然而,这需要计算。因此,我们提出了一种有效的多尺度策略,在控制计算量增加的同时引入高分辨率特征。我们不总是使用高分辨率特征图,而是使用一个特征金字塔,它包括低分辨率特征和高分辨率特征,并一次向一个Transformer decoder层提供一个多尺度特征的分辨率。 具体来说,我们使用pixel decoder生成的特征金字塔,分辨率分别为原始图像的1/32、1/16和1/8。对于每个分辨率,我们添加一个正弦位置嵌入,紧跟DETR,以及一个可学习尺度级嵌入,紧跟Deformable DETR。我们使用这些,从最低分辨率到最高分辨率的对应Transformer解码器层。我们重复这个3层Transformer解码器L次。因此,我们最终的Transformer解码器有3L层。更具体地说,前三层得到的特征图分辨率为H1 = H/32, H2 = H/16, H3 = H/8, W1 = W/32, W2 = W/16, W3 = W/8,其中H和W为原始图像分辨率。此模式以轮询方式对以下所有层重复。 优化改进标准的transformer解码器(左图) vs.?本文的transformer解码器(右图) ? ? ? ?? 标准的Transformer解码器层由三个模块组成,依次处理查询特性:自注意模块、交叉注意模块和前馈网络(FFN)。此外,查询特性(X0)在被输入到Transformer解码器之前是零初始化的,并且与可学习的位置嵌入相关联。此外,dropout应用于残差连接和注意图。 为了优化Transformer解码器的设计,本文做了以下三点改进。
采样点损失函数受 PointRend 和 Implicit PointRend 的启发,通过在 K个随机采样点而不是整个掩码上计算掩码损失来训练分割模型。在本文中设置K=12544,即112×112点。 本文在匹配损失和最终损失计算中使用采样点计算掩码损失: 1、在构建二分匹配成本矩阵的匹配损失中,对所有预测和真实掩码的相同的 K 点集进行均匀采样。 2、在预测之间的最终损失及其匹配的ground truth中,使用importance sampling为不同的预测和ground truth对不同的K点进行采样。 这种训练策略有效地将训练内存减少了 3 倍,从每张图像 18GB 到 6GB。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 0:35:57- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |