开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 无卷积结构(那就纯ransformer)的参考图像分割：ReSTR: Convolution-free Referring Image Segmentation Using Transformers -> 正文阅读

[人工智能]无卷积结构(那就纯ransformer)的参考图像分割：ReSTR: Convolution-free Referring Image Segmentation Using Transformers

无卷积结构{那就纯Transformer}的参考图像分割：ReSTR: Convolution-free Referring Image Segmentation Using Transformers

一、Abstract
二、引言
三、相关工作
四、方法
五、实验
六、结论
附录

写在前面
??好久没写博客了，要么在撸代码，要么在构思 SCI (￣□￣｜｜)，
??快速过一篇论文: ReSTR: Convolution-free Referring Image Segmentation Using Transformers，新颖的话也谈不上多新颖，目前的 Transformer 都快烂大街了，其中的一些结构可以借鉴下，说不定是涨点神器😄

论文地址：ReSTR: Convolution-free Referring Image Segmentation Using Transformers
收录于： CVPR 2022
代码链接：GitHub，截止本博文完成时间 22年7月1日，暂未放出。

一、Abstract

??给出参考图像分割 Referring image segmentation (RIS) 的定义，指出采用卷积网络的不足：很难捕获实体之间的长距离依赖，两种模态间的交互不充分。为了解决上面的问题，本文提出第一个无卷积模型，ReSTR，实验表明效果很好。

二、引言

在这里插入图片描述

??点出语义分割的缺陷，引出本文的主题参考图像分割，指出其优点与挑战及模型应该具备的能力。
??第二段概述一下现有方法框架，CNN + RNN 送入多模态联合层或者注意力机制。
??第三段总结下这些方法的缺陷：同摘要里面，无法解决长距离模态交互；无法有效建模复杂的交互关系。
??第四段总结本文提出的方法，即图一所示。将图像 Patches 和词 embedding 作为输入，送入 Transformer 中，此外，还有一个 Class 词作为另外一个输入送入 Transformer，输出为多模态特征和 Class 对应的 2 分类标签(有没有表达式中的目标)，之后将多模态特征送入一系列上采样层和线性层得到 masks。
??最后总结下本文贡献：

第一个无卷积的模型，能捕捉长距离模态交互，可以有效建模模态间复杂的交互关系；
利用类别 embedding 设计自适应的分类器；
性能牛批。

三、相关工作

3.1 语义分割

??FCN → FCN的变体

3.2 参考图像分割

??CNN + RNN → ConvLSTM → Attention，最后补下刀，表明本文提出的模型不同于这些方法。

3.3 视觉 Transformer

??点出 Transformer 的引入，然后有 CNN + Transformer 的工作，指出一些其他的应用，如图像分类，目标检测，语义分割等。受到这些方法的启发，本文采用了一个自适应分类器作为可学习的类别序列。

四、方法

在这里插入图片描述

??简述一下模型的结构，也就是上图的 a、b、c 三个部分。

4.1 视觉语言特征提取

??首先介绍下 Tranformer 的结构，老套路了，MSA + LN + MLP
$\begin{array}{c} \overline{\mathbf{z}}_{i+1}=\operatorname{MSA}\left(\operatorname{LN}\left(\mathbf{z}_{i}\right)\right)+\mathbf{z}_{i} \\ \\ \mathbf{z}_{i+1}=\operatorname{MLP}\left(\operatorname{LN}\left(\overline{\mathbf{z}}_{i+1}\right)\right)+\overline{\mathbf{z}}_{i+1}\\ \\ \operatorname{MSA}(\mathbf{z})=\left[\mathrm{SA}_{1}(\mathbf{z}), \mathrm{SA}_{1}(\mathbf{z}), \cdots, \mathrm{SA}_{k}(\mathbf{z})\right] \mathbf{W}_{\mathrm{MSA}} \\ \\ \operatorname{SA}(\mathbf{z})=A \mathbf{v} \\ \\ A=\operatorname{softmax}\left(\mathbf{q k}^{\top} / \sqrt{D_{h}}\right) \end{array}$
??都是 Transformer 里面常见的东西，只不过这里给换了马甲，运算意义相同。

4.1.1 视觉编码器

??先分割成 Patch，然后送入全连接层，最后加入 1维位置特征，送入 Tranformers。
$\mathbf{z}_{v}=\operatorname{Transformers}\left(\mathbf{z}_{0}^{v} ; \boldsymbol{\theta}_{v}\right)$

4.1.2 语言编码器

??先转为词 embedding 向量，然后添加 1 维位置编码，同视觉编码器一样送入语言编码器得到输出。

4.2 多模态融合编码器

??由两个Transformer 编码器组成，第一个编码器输入为视觉 + 语言编码器输出的拼接特征： $\left[\mathbf{z}_{v}^{\prime}, \mathbf{z}_{l}^{\prime}\right]=\operatorname{Transformers}\left(\left[\mathbf{z}_{v}, \mathbf{z}_{l}\right] ; \boldsymbol{\theta}_{v l}\right)$ ，其中 $\mathbf{z}_{v}^{\prime}$ 是输出的多模态特征， $\mathbf{z}_{l}^{\prime}$ 是视觉参与的语言特征。之后将 $\mathbf{z}_{l}^{\prime}$ 送入到第二个编码器：语言-种子编码器， $\mathbf{e}_{s}^{\prime}=\operatorname{Transformers}\left(\left[\mathbf{z}_{l}^{\prime}, \mathbf{e}_{s}\right] ; \boldsymbol{\theta}_{l s}\right)$ ，输出 $\mathbf{e}_{s}^{\prime}\in\mathbb{R}^{1\times{D}}$ 为自适应的两分类器。

4.3 粗糙-细化分割解码器

??这一块是本文的精髓所在，需要仔细看看(涨点技巧)。
??在多模态特征 $\mathbf{z}_{v}^{\prime}$ 和自适应分类器 $\mathbf{e}_{s}^{\prime \top}$ 之间采用点乘的方式得到 Patch 层级上的预测特征 $\hat{\mathbf{y}}_{p}$ 。
$\hat{\mathbf{y}}_{p}=\sigma\left(\frac{\mathbf{z}_{v}^{\prime} \mathbf{e}_{s}^{\prime \top}}{\sqrt{D}}\right)$ 其中， $\sigma$ 为 sigmoid 函数， $\sqrt{D}$ 是归一化因子。
??然后另外一个分支产生掩码特征：
$\mathbf{Z}_{\text {masked }}=\mathbf{z}_{v}^{\prime} \otimes \hat{\mathbf{y}}_{p}$
其中 $\otimes$ 表示对位乘积。
??之后对 $\mathbf{Z}_{\text {v}}$ 、 $\mathbf{Z}_{\text {masked }}$ 拼接送入分割解码器，其中分割解码器采用 $K$ 个序列块组成。每个块包含采样因子为 2 的上采样层和线性全连接层(将输入通道变为原来的二分之一)，其中 $\log P$ ， $P$ 为 Patch 的尺寸。最后的特征送入 Logit 层输出 mask: $\hat{Y}_{m}\in{\mathbb{R}}^{H\times{W}\times{1}}$ 。
??输出有了，那么标签 ${y}^{i}_{p}\in{\mathbb{R}}^{N_{v}\times{1}}$ 的构造：
$\mathbf{y}_{p}^{i}=\left\{\begin{array}{ll} 1, & \text { if } h\left(p_{i j}\right)>\tau \\ 0, & \text { otherwise } \end{array}\right.$ 其中， $h$ 表示在空间维度上的平均池化， $\tau$ 为阈值超参数。
??训练损失： BCE 损失
$\mathcal{L}\left(\hat{\mathbf{y}}_{p}, \mathbf{y}_{p}, \hat{Y}_{m}, Y_{m}\right)=\lambda \mathcal{L}_{b}\left(\hat{\mathbf{y}}_{p}, \mathbf{y}_{p}\right)+\mathcal{L}_{b}\left(\hat{Y}_{m}, Y_{m}\right)$ 其中 $\lambda$ 为平衡系数。

五、实验

5.1 实验设置

5.1.1 数据集

?? ReferIt、UNC、UNC+、Gredf

5.1.2 实施细节

??ViT-B-16 在 ImageNet-21K 数据集上训练好的模型作为视觉编码器，12层，16个 patch， 768 维度，12 个头、3072维度 MLP，数据量太夸张。
??Glove 300d 作为词嵌入向量进行编码，句子长度为 20，其他参数同视觉编码器。
??分割解码器的数量为 4，patch 为16，AdamW 优化器，权重衰减 $5 e ? 4$ ，初始学习率 $1 e ? 5$ ，batch 8， 40 0000 此迭代，4 0000 热身训练，输入图像尺寸 480x480， $\tau$ 和 $\lambda$ 分别为 0.8、0.1。
??评估指标 IOU 0.5、0.6、0.7，0.8，0.9。