| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记 -> 正文阅读 |
|
[人工智能]结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记 |
结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记写在前面 ??这篇文章同样是参考图像分割,区别于上一篇: 无卷积结构(那就纯ransformer)的参考图像分割:ReSTR: Convolution-free Referring Image Segmentation Using Transformers,这篇结合了当下最主流的 Swim-Transformer 网络,性能着实强悍,且新颖度很高,是篇好论文。
一、Abstract??摘要不同寻常,上来夸下同行们用 “cross-modal” 解码器 / Transformer 架构做的好,吹了一半的摘要都是这个。接下来一半提出自己的方法,在视觉编码器中间层进行“提前融合”效果会好很多,RefCOCO、RefCOCO+、G-Ref 数据集上超越了目前的主流方法一大截。 二、引言??照例,第一段给出参考图像分割的定义、应用以及挑战。
三、相关工作3.1 参考图像分割??一般的做法:从文本和图像上分别提取特征,融合多模态特征来预测分割的 mask。接下来对之前的多模态融合方法进行介绍。
其中 VLT 采用 Transformer decoder 融合视觉-语言特征,EFN 采用卷积网络编码语言信息。本文提出的方法不同于这两者,在 Transformer encoder 中对特征进行提前融合。 3.2 Transformer??老生常谈的,略过。最后补刀:很少有尝试设计统一的 Transformer 模型建模推理图像分割。 四、方法4.1 语言感知视觉编码??采用视觉表示模型 (BERT) 从表达式中提取 embedding 向量
L
∈
R
C
t
×
T
L\in\mathbb {R}^{{C}_{t}\times T}
L∈RCt?×T,
C
t
{C}_{t}
Ct? 和
T
T
T 分别是通道数和最大词数。 4.2 像素-词注意力模块 (PWAM)
4.3 语言路径??为防止
F
i
F_i
Fi? 占据太大比重,淹没视觉信息
V
i
V_i
Vi?,设计语言门 LG 来学习逐元素权重图,从而对
F
i
F_i
Fi? 放缩。 4.4 分割??联合多尺度特征图
F
i
,
i
∈
{
1
,
2
,
3
,
4
}
F_i,i\in \left\{1,2,3,4\right\}
Fi?,i∈{1,2,3,4},以自上而下的方式进行解码: 4.5 实施细节??Transformer 层初始化权重来自于 Swin Transformer,预训练在 ImageNet-22K 上,维度 512,语言编码器为 BERT,12层,维度 768, Cross-entropy 损失,AdamW 优化器,权重衰减 0.01,初始学习率 0.0000 5,40 个 epoch,batch 32,图像尺寸 480 × 480 480\times 480 480×480,无图像增强策略。 五、实验5.1 数据集与评估指标??数据集:RefCOCO、RefCOCO+、G-Ref。 5.2 与其他方法的比较5.3 消融实验5.3.1 语言路径 LP5.3.2 像素-单词注意力模块 PWAM??同上图。 5.3.3 语言门中的激活函数5.3.4 PWAM 中的归一化层??上图 3(b)。 5.3.5 用于预测的特征??上图 3(c)。 5.3.6 多模态注意力模块??上图 3(d)。 5.4 预测可视化5.5 同相关方法的公平比较六、结论??提出了 LAVT,实验效果牛批。 七、附录A 语言模型中潜在的偏见??源于 BERT。 B 语言路径??作者也尝试了其他方法: C 准确率-召回率分析D MIoUE 可视化
写在后面 ??这几篇论文都是快速的过了~~ |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 2:01:19- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |