| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【深度学习】语义分割:论文阅读(没太懂):(2022-1)Lawin Transformer:大窗口注意力改进多尺度表示的语义分割 -> 正文阅读 |
|
[人工智能]【深度学习】语义分割:论文阅读(没太懂):(2022-1)Lawin Transformer:大窗口注意力改进多尺度表示的语义分割 |
目录详情没懂 摘要多尺度表示对于语义分割至关重要。目前见证了利用多尺度上下文信息的语义分割卷积神经网络 (CNN) 的蓬勃发展。由于视觉Transformer (ViT) 在图像分类方面的强大功能,最近提出了一些语义分割 ViT,其中大多数取得了令人印象深刻的结果,但以计算经济为代价。
ViT Lawin Transformer
1. Introduction之前的技术CNN vit Swin Transformer是最具代表性的hvt之一,使用了一个沉重的解码器来分类像素。 SegFormer改进了编码器和解码器的设计,产生了非常高效的语义分割ViT。 目前的主要问题:缺乏多尺度的上下文信息,从而影响了其性能和效率。 现在的方法大窗口注意 设计了一个简单但有效的策略来缓解大语境的困境。 因此,我们提出的大窗口注意中的 patch可以捕获任何尺度的上下文信息,只产生由位置混合操作引起的少量计算开销。再加上不同比率R的大窗口注意力,SPP模块演化为大窗口注意力空间金字塔池化(LawinASPP),可以使用像ASPP (Atrous空间金字塔池)[9]和PPM(金字塔池模块)[50]来利用多尺度表示进行语义分割。 2. Related Workvit的探索ViT是用于图像分类的第一个端到端视觉转换器,它将输入图像投影到一个标记序列中,并将其附加到一个类标记上。 PVT和Swin Transformer的效率引发了人们对**分层视觉变压器(HVT)**的兴趣。 1.SETR将ViT作为编码器部署,并对输出 patch embedding 进行上采样,以对像素进行分类。 3.Segmenter依赖于ViT/DeiT作为骨干,并提出一个掩码变压器解码器。 4.Segformer显示了一个简单,有效,但强大的编码器和解码器的语义分割设计。 5.MaskFormer将语义分割重新定义为一个掩码分类问题,与Swin-UperNet相比,具有更少的FLOPs和参数。 在本文中,通过在HVT中引入多尺度表示,向更高效的语义分割ViT设计迈出了新的一步。 MLP-MixerMLP-Mixer[37]是一种比ViT简单得多的新型神经网络。MLP-Mixer与ViT类似, MLP- mixer完全基于多层感知器(MLP),因为它用 token-mixing MLP取代了transformer layer的自我注意。Token-Mixing MLP沿着通道维度工作,Token-Mixing MLP(位置)来学习空间表示。在我们提出的大窗口注意中,将Token-Mixing MLP应用于池化的上下文补丁,我们称之为位置混合,以提高多头注意的空间表示。 3. Method在这一部分中 3.1. BackgroundToken-mixing MLP 3.2. Large Window Attention通过对头部子空间进行一定的正则化,多头注意可以学习所需的多样化表征[12,16,18]。考虑到下采样后空间信息变得抽象,我们希望增强多头注意的空间表征能力。 在MLP- mixer中,token-mixing MLP是对channel-mixing MLP的补充,用于收集空间知识,我们定义了一组头部特定位置混合MLP = {MLP1, MLP2,…, MLPh}。如图2所示,池中context patch的每个head都被推入其对应的token(position)混合MLP中,同一个head中的空间位置以相同的行为相互通信。我们将得到的context称为位置混合context patch,并表示为C的P,其计算公式为: 3.3. LawinASPP为了捕获多尺度表示,我们采用空间金字塔池化(SPP)架构与大窗口关注协作,得到了新的SPP模块LawinASPP。 3.4. Lawin Transformer在研究了先进的hvt后,选择MiT和Swin-Transformer作为Lawin Transformer的编码器。 MiT是专为作为编码器的SegFormer[43],这是一个简单,有效,但强大的语义分割ViT。 Swin-Transformer[30]是一款非常成功的基于本地窗口关注的HVT。 在应用LawinASPP之前, 在最先进的语义分割ViT中,用于最终预测分割对数的特征总是来自于编码器的4级特征。 4. Expriments5. Conclusion高效的语义分割变压器称为Lawin变压器。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 5:35:08- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |