一、Abstract

??摘要不同寻常，上来夸下同行们用 “cross-modal” 解码器 / Transformer 架构做的好，吹了一半的摘要都是这个。接下来一半提出自己的方法，在视觉编码器中间层进行“提前融合”效果会好很多，RefCOCO、RefCOCO+、G-Ref 数据集上超越了目前的主流方法一大截。

二、引言

??照例，第一段给出参考图像分割的定义、应用以及挑战。
??第二段对目前已有方法的介绍：采用不同的编码器提取视觉和语言特征，送入跨模态解码器。
??第三段强调之前的方法未能在编码器中利用多模态上下文特征，因此一个可能的解决办法是在视觉编码阶段同时进行视觉和语言 embedding。
??第四段描述本文提出的方法，语言感知的视觉 Transformer 网络 (LAVT)：

在这里插入图片描述
??通过逐词注意力机制将语言特征整合到视觉特征中，去掉了跨模态解码器，取而代之的是一个轻量化的 mask 预测器。
??第四段讲本文的实验在 RefCOCO、RefCOCO+、G-Ref、G-Ref 数据集上性能很强。
??最后本文贡献：提出 LAVT，去掉了跨模态融合；在三个数据集上性能很牛皮。

三、相关工作

3.1 参考图像分割

??一般的做法：从文本和图像上分别提取特征，融合多模态特征来预测分割的 mask。接下来对之前的多模态融合方法进行介绍。
??与本文最相关的方法是 VLT 和 EFN：

【VLT】Henghui Ding, Chang Liu, SuchenWang, and Xudong Jiang. Vision-language transformer and query generation for referring segmentation. In ICCV, 2021. 1, 2, 6, 8

【EFN】 Guang Feng, Zhiwei Hu, Lihe Zhang, and Huchuan Lu. Encoder fusion network with co-attention embedding for referring image segmentation. In CVPR, 2021. 2, 4, 6, 8

其中 VLT 采用 Transformer decoder 融合视觉-语言特征，EFN 采用卷积网络编码语言信息。本文提出的方法不同于这两者，在 Transformer encoder 中对特征进行提前融合。

3.2 Transformer

??老生常谈的，略过。最后补刀：很少有尝试设计统一的 Transformer 模型建模推理图像分割。

四、方法

在这里插入图片描述

4.1 语言感知视觉编码

??采用视觉表示模型 (BERT) 从表达式中提取 embedding 向量 $L\in\mathbb {R}^{{C}_{t}\times T}$ ， ${C}_{t}$ 和 $T$ 分别是通道数和最大词数。
??另外一边，根据 Swin Transformer 的四个阶段，本文也设计了这样四个阶段，不同的是采用 pixel-word attention module (PWAM) 模块进行多模态融合，其中主要部分：语言门 Language gate (LG)，用于管理语言在语言路径 Language pathway (LP) 上的信息流动。

4.2 像素-词注意力模块 (PWAM)

在这里插入图片描述
??重点来了：给定视觉特征 $V_{i}\in{\mathbb{R}^{C_{i}\times{H}_{i}\times{W}_{i}}}$ 和语言特征 $L\in\mathbb {R}^{{C}_{t}\times T}$ ，根据上图有：
$\begin{aligned} V_{i q} &=\text { flatten }\left(\omega_{i q}\left(V_{i}\right)\right), \\ L_{i k} &=\omega_{i k}(L), \\ L_{i v} &=\omega_{i v}(L), \\ G_{i}^{\prime} &=\operatorname{softmax}\left(\frac{V_{i q}^{T} L_{i k}}{\sqrt{C_{i}}}\right) L_{i v}^{T}, \\ G_{i} &=\omega_{i w}\left(\operatorname{unflatten}\left(G_{i}^{\prime T}\right)\right), \end{aligned}$ 其中 $\omega_{i q}$ 、 $\omega_{i k}$ 、 $\omega_{i v}$ 、 $\omega_{i w}$ 都是可学习的 $1\times 1$ 卷积权重。之后联合语言特征 $G_{i}$ 和视觉特征 $V_{i}$ ，通过逐元素乘积得到多模态特征图：
$\begin{aligned} V_{i m} &=\omega_{i m}\left(V_{i}\right) \\ F_{i} &=\omega_{i o}\left(V_{i m} \odot G_{i}\right) \end{aligned}$ 注意每次的 $1\times 1$ 卷积后面都会跟着 $R e L U$ 激活函数。

4.3 语言路径

??为防止 $F_i$ 占据太大比重，淹没视觉信息 $V_i$ ，设计语言门 LG 来学习逐元素权重图，从而对 $F_i$ 放缩。
在这里插入图片描述
??用公式表示为：
$\begin{array}{l} S_{i}=\gamma_{i}\left(F_{i}\right) \\ E_{i}=S_{i} \odot F_{i}+V_{i} \end{array}$ 其中 $\odot$ 表示逐元素乘积， $\gamma_{i}$ 为双层感知机： $1\times 1$ 卷积 + $R e L U$ + $1\times 1$ 卷积 + $T a n h$ 。

4.4 分割

??联合多尺度特征图 $F_i,i\in \left\{1,2,3,4\right\}$ ，以自上而下的方式进行解码：
$\left\{\begin{aligned} Y_{4} &=F_{4} \\ Y_{i} &=\rho_{i}\left(\left[v\left(Y_{i+1}\right) ; F_{i}\right]\right), \quad i=3,2,1 . \end{aligned}\right.$ 其中 $\left [ ; \right]$ 表示特征通道上的拼接操作， $v$ 表示双线性上采样插值， $\rho$ 表示两层的 $3\times 3$ 卷积 + Batch Norm + $R e L U$ ，最终的 $Y_1$ 通过 1 个 $1\times 1$ 卷积投影到两个分类得分图中。

4.5 实施细节

??Transformer 层初始化权重来自于 Swin Transformer，预训练在 ImageNet-22K 上，维度 512，语言编码器为 BERT，12层，维度 768, Cross-entropy 损失，AdamW 优化器，权重衰减 0.01，初始学习率 0.0000 5，40 个 epoch，batch 32，图像尺寸 $480\times 480$ ，无图像增强策略。