| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 无卷积结构(那就纯ransformer)的参考图像分割:ReSTR: Convolution-free Referring Image Segmentation Using Transformers -> 正文阅读 |
|
[人工智能]无卷积结构(那就纯ransformer)的参考图像分割:ReSTR: Convolution-free Referring Image Segmentation Using Transformers |
无卷积结构{那就纯Transformer}的参考图像分割:ReSTR: Convolution-free Referring Image Segmentation Using Transformers写在前面 ??好久没写博客了,要么在撸代码,要么在构思 SCI ( ̄□ ̄||), ??快速过一篇论文: ReSTR: Convolution-free Referring Image Segmentation Using Transformers,新颖的话也谈不上多新颖,目前的 Transformer 都快烂大街了,其中的一些结构可以借鉴下,说不定是涨点神器😄
一、Abstract??给出参考图像分割 Referring image segmentation (RIS) 的定义,指出采用卷积网络的不足:很难捕获实体之间的长距离依赖,两种模态间的交互不充分。为了解决上面的问题,本文提出第一个无卷积模型,ReSTR,实验表明效果很好。 二、引言??点出语义分割的缺陷,引出本文的主题参考图像分割,指出其优点与挑战及模型应该具备的能力。
三、相关工作3.1 语义分割??FCN → FCN的变体 3.2 参考图像分割??CNN + RNN → ConvLSTM → Attention,最后补下刀,表明本文提出的模型不同于这些方法。 3.3 视觉 Transformer??点出 Transformer 的引入,然后有 CNN + Transformer 的工作,指出一些其他的应用,如图像分类,目标检测,语义分割等。受到这些方法的启发,本文采用了一个自适应分类器作为可学习的类别序列。 四、方法??简述一下模型的结构,也就是上图的 a、b、c 三个部分。 4.1 视觉语言特征提取??首先介绍下 Tranformer 的结构,老套路了,MSA + LN + MLP 4.1.1 视觉编码器??先分割成 Patch, 然后送入全连接层,最后加入 1维位置特征,送入 Tranformers。 4.1.2 语言编码器??先转为词 embedding 向量,然后添加 1 维位置编码,同视觉编码器一样送入语言编码器得到输出。 4.2 多模态融合编码器??由两个Transformer 编码器组成,第一个编码器输入为 视觉 + 语言 编码器输出的拼接特征: [ z v ′ , z l ′ ] = Transformers ? ( [ z v , z l ] ; θ v l ) \left[\mathbf{z}_{v}^{\prime}, \mathbf{z}_{l}^{\prime}\right]=\operatorname{Transformers}\left(\left[\mathbf{z}_{v}, \mathbf{z}_{l}\right] ; \boldsymbol{\theta}_{v l}\right) [zv′?,zl′?]=Transformers([zv?,zl?];θvl?),其中 z v ′ \mathbf{z}_{v}^{\prime} zv′? 是输出的多模态特征, z l ′ \mathbf{z}_{l}^{\prime} zl′? 是视觉参与的语言特征。之后将 z l ′ \mathbf{z}_{l}^{\prime} zl′? 送入到第二个编码器:语言-种子编码器, e s ′ = Transformers ? ( [ z l ′ , e s ] ; θ l s ) \mathbf{e}_{s}^{\prime}=\operatorname{Transformers}\left(\left[\mathbf{z}_{l}^{\prime}, \mathbf{e}_{s}\right] ; \boldsymbol{\theta}_{l s}\right) es′?=Transformers([zl′?,es?];θls?),输出 e s ′ ∈ R 1 × D \mathbf{e}_{s}^{\prime}\in\mathbb{R}^{1\times{D}} es′?∈R1×D 为自适应的两分类器。 4.3 粗糙-细化 分割解码器??这一块是本文的精髓所在,需要仔细看看(涨点技巧)。 五、实验5.1 实验设置5.1.1 数据集?? ReferIt、UNC、UNC+、Gredf 5.1.2 实施细节??ViT-B-16 在 ImageNet-21K 数据集上训练好的模型作为视觉编码器,12层,16个 patch, 768 维度,12 个头、3072维度 MLP,数据量太夸张。 5.2 与 SOTA 比较
5.3 不同融合编码器的变体分析5.4 更进一步的分析5.4.1 多模态融合编码器层数的分析5.4.2 分割解码器的效果分析??同上图。 5.4.3 权值共享的分析??同上图。 5.4.4 定性分析5.4.5 计算成本分析
六、结论??继续吹一下第一个无卷积的模型,实验效果很好,缺陷是随着 Patch 块的增加,计算成本呈平方增加,留待后续工作。 附录A 语言表达式长度的影响B 超参数敏感性C 更多的定量分析
??这篇工作难度不大,其中最主要的是那个自适应分类器的设计比较巧妙,估计是个涨点的技巧~~ |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/12 20:40:54- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |