????????作者验证了UNIMO为文本知识和视觉知识在统一的语义空间中相互促进提供了一种有效的方式，并且UNIMO成功地适应了单模态和多模态的理解和生成任务。但UNIMO并不是端到端的。因此本篇论文提出了一个端到端的统一模态预训练框架：UNIMO-2，可以用于对齐图像-文本数据、非对齐图像-文本数据的联合学习。

????????VLP在各种跨模态下游任务中获得了很好的效果。然而，大多数现有的方法只能从对齐的图像标题数据中学习，并且严重依赖区域特征，这极大地限制了模型的可扩展性和性能。因此，作者建立了一个统一的Transformer模型，共同学习图像和文本之间的视觉表示、文本表示和语义对齐。特别地，作者提出通过共享统一空间对图像和文本进行grounded learning，这有助于联合未对齐的图像和文本，并对齐不同类型语料库的视觉和文本语义空间。实验表明，作者的grounded learning方法可以改善文本和视觉语义对齐，以提高在各种跨模态任务中的性能。此外，得益于对不同类型语料库的有效联合，模型在单模态视觉和文本任务中也取得了令人印象深刻的性能。

一、Introduction

????????大规模预训练由于其强大的泛化能力和对大规模数据的高效利用，受到了CV、NLP和MM等领域的广泛关注。然而，关于视觉、语言和视觉-语言表征学习的研究多是在不同的训练数据源下分别进行的。

????????现有的VLP方法需要大量对齐的图像-文本对，收集成本高，难以扩展。CV中大量的图像数据集和NLP中的文本语料库无法得到有效利用。因此，现有VLP方法的规模和性能上限受到很大限制。由于只学习图像-文本对上的联合视觉-语言表示，模型很难有效适应视觉和文本任务。

????????为了解决这些局限性，作者提出了UNIMO-2，用于对各种类型的数据(包括图像、文本和图像-文本对)进行联合学习。将大量未对齐的图像和文本组合在一起，不仅有望提高视觉-语言任务的性能，还有望提高适应单模态视觉和文本任务的规模。然而，如何将未对齐的图像和文本连接起来，并有效地对齐视觉和文本语义空间是一项挑战。在本文中，作者提出通过共享统一空间对图像、文本和图像-文本对进行grounded learning。

????????作者主要贡献总结如下：

UNIMO-2可以端到端联合学习对齐和非对齐的图像和文本语料库，有效缓解语料库的局限性，在大量不同类型的语料库上学习更广义的视觉和文本表示。
由于利用了不同类型的语料库，UNIMO-2对不同类型的任务，包括跨模态任务和单模态任务有更好的可伸缩性。
作者提出的grounded learning可以更有效地对齐文本和视觉语义空间，从而大大提高各种跨模态任务的性能。特别是，zero-shot图像/文本检索的性能甚至超过预训练的CLIP。

二、Related Work

1.Vision-Language Pre-training

????????对VLP不熟悉的可以看我的（ VL综述：视觉-语言智能:任务、表征学习、大模型）

????????现有的主流VLP模型大多采用两个阶段训练，首先使用预训练的目标检测模型提取区域视觉特征，然后联合图像和文本的object-centric区域特征作为Transformer 的输入进行跨模态预训练。这些方法严重依赖现成的目标检测模型，如Faster R-CNN。由于视觉表示没有优化到更通用的跨模态理解，并且使用目标检测模型提取区域特征非常耗时，它们面临着视觉表达能力有限和计算效率低的问题，这使得它们的可扩展性较差。

????????最近的一些工作也探索了没有目标检测模块的VLP。这些工作要么利用预训练CNNs的网格特征，要么利用ViT的patch特征，但它们只使用有限的图像-文本对进行跨模态预训练，因此它们的可伸缩性和性能受到限制。只有少数工作利用未对齐的图像和文本进行视觉语言预训练，包括作者之前的工作UNIMO和U-VisualBERT。然而，它们都是通过耗时的目标检测进行区域视觉特征或目标标签的预提取。

2.Grounded Learning

????????Language grounding领域旨在用视觉信息丰富文本表示，它已被证明可以提高各种NLP任务的性能。Kiela等人(2018)通过训练句子编码器预测给定标题的图像特征来研究句子表示。Tan和Bansal(2020)提出了一种将语言符号映射到相关图像的语音化方法。这些工作都通过学习文本到对应图像的投影，用视觉信息丰富了语言表示。最近，Huang等人(2021)提出了一种端到端VLP方法，该方法将CNN编码器中的视觉特征聚类为带有视觉字典的视觉标记。这些工作都依赖于图像-文本对来学习跨模态表示，只关注视觉-语言联合任务。

三、Approach

????????模型的整体架构如图1所示。UNIMO-2是一个端到端框架，由一个基于Transformer的视觉编码器、一个基于Transformer的文本编码器、一个grounded dictionary(GD)和一个用于模态融合的多层Grounded Transformer组成。视觉编码器通过将图像分割成小尺寸的patch将其作为输入，并为所有patch生成高级视觉表示，类似于ViT。文本编码器对文本token进行编码，以产生高级token表示。基于patch和token的高级表示，设计了一个GD embedding模块，将相似的视觉-语言表示分组到grounded tokens中。进一步采用Grounded Transformer，通过与grounded tokens的交互，融合视觉和语言特征。

????????UNIMO-2利用MLM、ITM、VCL进行端到端预训练。

1.End-to-End Grounded Learning

? ? ? ? 作者提出学习一个共享的语义空间（图像和文本之间的grounded space)，以便更好地对齐细粒度的视觉和文本语义。具体地说，基于patch V的视觉表示和token T的文本表示，作者引入一个GD，将相似的视觉和文本表示分组到相同的grounded tokens中。grounded 特性不仅有助于对齐对齐的图像-文本中的视觉语义和文本语义，而且还充当“锚点”，帮助在未对齐的图像和文本之间架起桥梁，如图1所示。

Grounded Dictionary Learning

? ? ? ? GD定义为矩阵? $G \in \mathbb{R}^{C \times D}$ （?C embedding vectors with D-dim）， $j^{th}$ grounded token embedding 向量表示的是? $g_j \in \mathbb{R}^D, j \in 1,2, \ldots, C$ 。

????????现有的VLP方法大多隐含地假设图像-文本对的视觉和文本之间存在一一对应的假设。然而，这一假设在现实中并不成立，因为大多数网络上的图片-文本对都是有噪声的或只有弱相关性。为了解决这个问题，作者不将每个patch或token表示映射到一个grounded token，而是只检测图像和文本之间最重要的共享语义。为文本和视觉输入找到 top-K 个最重要的grounded tokens。设? $x_{ij}$ ?为视觉token?? $v_i$ ?与grounded token $g_j$ ?embedding向量的相似度，计算公式为

$x_{i j}=\sigma\left(\eta * v_i^T g_j\right)$

????????对于图像-文本对，grounded token? $g_j$ ?的累积分数计算为? $s_j=\sum_{i=1}^M x_{i j}+\sum_{k=1}^N y_{k j}$ ,?累积分数最大的 top-K grounded token?? $g_{1}, \ldots, g_{K}=\operatorname{Top}_{K}\left\{s_{1}, \ldots, s_{C}\right\}$ 。

????????对GD进行随机初始化，并在训练前对其进行端到端更新。由于? $Top_K$ ?函数不可微，作者引入一个grounding损失来帮助学习GD。具体而言，提出了向量量化(VQ)算法的修订版，该算法使用? $l_2$ ?误差将embedding向量? $g_i$ ?映射到patch或token表示。因此，总的grounding损失为：

$\begin{aligned} \mathcal{L}_{G D}=& \sum_{i=1}^{M}\left\|s g\left(v_{i}\right)-\sum_{j} \frac{x_{i j}}{\sum_{k} x_{i k}} g_{j}\right\|_{2}^{2} \\ &+\beta \sum_{j=1}^{K}\left\|s g\left(g_{j}\right)-\sum_{i} \frac{x_{i j}}{s_{j}} v_{i}\right\|_{2}^{2} \end{aligned}$

Grounded Transformer

????????在获得grounded token之后，将它们与可视觉token和文本token一起作为输入到grounded Transformer，以进行跨模态融合。作者通过grounded token来连接视觉和文本表示。如图2所示，跨模态信息只能通过grounded token交换，这也推动grounded token捕捉图像和文本之间最重要的共享语义。这样，模型通过公共grounded token进行跨模态交互，在弱相关的图像-文本对上更加健壮。对于未配对的图像和文本，grounded Transformer还对视觉token或文本token与grounded token的融合进行建模。由于GD捕获常见的视觉和文本语义，它还有助于学习未配对图像和文本的跨模态表示。

2.Pre-training On Different Corpus

????????基于grounded Transformer的输出，作者采用掩码语言模型(MLM)和图像-文本匹配(ITM)的图像-文本对预训练任务。作者还将MLM应用于文本语料库，将视觉对比学习(VCL)应用于图像。

?Masked Language Modeling：迭代地对文本进行采样，直到总共有15%的标记被选中。从几何分布l～Geo(p=0.2)中采样长度，类似于SpanBERT。
Image-Text Matching：为了增强跨模态匹配，像以前的工作一样，采用ITM任务进行预训练。通过Grounded Transformer对文本中的“[CLS]”标记和图像中的“[CLS]”标记的联合嵌入特征应用二值分类器来预测输入图像和文本是否匹配。
Visual Contrastive Learning：UNIMO-2通过最大化同一图像的不同增强视图之间的一致性，同时通过潜在空间的对比损失最小化不同图像之间的相似性，从而学习未配对图像的表示，类似于SimCLR。

3.Transferring To Different Tasks

????????UNIMO-2可以有效地调整不同类型的任务，包括跨模态任务、视觉任务和文本任务。对于跨模态任务，模型架构与图像-文本对的预训练架构相同，如图1左侧所示。基于视觉和文本表示生成grounded token，以促进跨模态理解和生成。对于视觉任务，模型架构与图像上的预训练架构相同，如图1中间部分所示。grounded token是基于来自视觉Transformer的视觉token获得的。对于文本任务，模型架构与文本的预训练结构相同，如图1的右侧所示。grounded token是基于来自文本Transformer的文本token获得的。

四、Experimental Settings

这部分与UNIMO没有太多区别。
Pretraining Dataset：预训练数据集包括三种类型：文本、图像和图像-文本对。文本语料库包括BookWiki和OpenWebText。图像数据集是没有文本描述的图像，包括OpenImages和ImageNet21k的一个子集。图像-文本对由四个现有的多模态数据集组成：COCO、Visual Genome (VG)、Conceptual caption (CC)和SBU caption。
Implementation Detail：UNIMO-2由12层视觉Transformer、12层文本Transformer和12层grounded Transformer组成。视觉Transformer是用ViT-B/16初始化的。文本Transformer和grounded Transformer都是由RoBERTa-Base初始化的。文本token的最大序列长度设置为512。采用初始学习率为5e-5的Adam优化器。
Finetuning Tasks：对三种下游任务进行了微调：

视觉-语言跨模态任务：VQA v2.0数据集上的视觉问答(VQA)、Microsoft COCO字幕数据集上的图像字幕、SNLI-VE数据集上的视觉推理、Flickr30k数据集上的图像文本检索。
视觉任务：ImageNet-1k数据集上的图像分类。
文本任务：SST-2数据集的情感分类、MNLI数据集的自然语言推理、CoLA数据集的语言可接受性分析、STSB数据集的语义相似度分析。

五、Results and Analysis

????????评价结果如表1所示。作者比较了现有的大多数VLP模型，包括基于区域特征的模型（ViLBERT、UNITER、Oscar、Villa、UNIMO），以及端到端模型（ViLT、E2E-VLP、SOHO、CLIP）。结果表明，与大多数基准相比，UNIMO-2取得了最好的结果。特别是，UNIMO-2在zero-shot图像/文本检索任务中取得了非常好的性能，甚至优于在更大的语料库上预训练的CLIP。结果表明，基于不同类型语料库的端到端grounded学习，UNIMO-2能够获得更好的跨模态表示。此外，在UNIMO-2中删除grounded embedding，在所有任务中的性能都明显下降，这证明了grounded学习在跨模态对齐方面的有效性。

2.Visual Tasks

????????由于UNIMO-2学习了有效的跨模态表示，它可以对图像进行分类而无需微调。具体来说，可以将图像的目标标签转换为伪图像描述，如“一张[label]的照片”。然后，可以使用zero-shot图像到文本检索方法获取每张图像的标签，类似于CLIP。?将zero-shot和微调性能与几种最先进的表示学习方法进行比较。表2中的结果表明，UNIMO-2在zer-shot和监督设置下，都可以实现与在数十亿图像-文本对上预训练的CLIP相当的性能。

3.Textual Tasks

????????为了展示UNIMO-2在文本任务上的有效性，进一步比较了包括UNITER、VilBERT和UNIMO在内的VLP模型，以及包括BERT、RoBERTa和UniLM在内的预训练语言模型。表3的对比结果表明，UNIMO-2的性能比他们都好。

4.Analysis

Effectiveness of Grounded Learning

? ? ? ? 作者通过消融实验进一步验证了grounded learning的有效性。“w/o GD (P)”表示在预训练和推理过程中去除grounded learning，以验证其在不同类型语料库上统一学习的有效性。“w/o GD (I)”表示在预训练期间保留grounded learning，但在推理期间删除它，以验证grounded learning对下游任务的有效性。“1-to-1 Map”表示通过在GD中找到其最近的邻居，将每个patch或token映射到grounded token。

????????作者比较了他们在三种任务中的表现，如表4的上半部分所示。结果表明，GD是实现不同类型语料库的端到端联合学习的必要方法，它可以帮助连接未对齐的图像和文本，提高视觉语言的语义对齐。学习到的grounded token对于跨模态和单模态下游任务也很关键。我们进一步验证了我们的grounded Transformer的有效性，将其替换为传统Transformer，称为“w/o G.T.”。结果表明，与UNIMO-2相比，跨模态任务的性能明显下降，这证明了grounded Transformer的有效性。

Effectiveness of Unaligned Images and Texts

????????为了进一步验证未对齐图像和文本在跨模态学习中的有效性，作者比较了UNIMO-2在不同预训练数据集上的性能。具体地说，通过删除文本库(即“w/o Text”)和图像库(即“w/o Images”)或同时删除它们(即“w/o Both”)来比较UNIMO-2的性能。对比结果如表4底部所示，结果表明，无论是删除文本语料库还是图像语料库，都会持续降低所有三种类型任务的性能。值得注意的是，无论是删除纯文本语料库还是纯图像语料库，图像/文本检索任务的性能都明显下降，这表明不对齐语料库对跨模态任务也很有用。

六、Conclusion

????????作者提出了UNIMO-2，一个端到端统一模态的预训练框架，可以从对齐和非对齐的图像和文本语料库中学习。作者提出的grounded learning可以帮助连接未配对的图像和文本，更有效地对齐文本和视觉语义空间。得益于有效利用不同类型的语料库，UNIMO-2对不同类型的任务具有更好的可扩展性。实验表明，UNIMO-2大大提高了各种跨模态任务的性能，在视觉和文本任务方面也取得了令人印象深刻的成绩。结果还表明，利用更大规模的未配对图像和文本，有望进一步统一提高跨模态、视觉和文本任务的性能。