[人工智能] 【自然语言处理】【多模态】VinVL：回顾视觉语言模型中的视觉表示

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【自然语言处理】【多模态】VinVL：回顾视觉语言模型中的视觉表示 -> 正文阅读

[人工智能]【自然语言处理】【多模态】VinVL：回顾视觉语言模型中的视觉表示

VinVL：回顾视觉语言模型中的视觉表示 《VinVL：Revisiting Visual Representations in Vision-Language Models》

论文地址：https://arxiv.org/pdf/2101.00529.pdf

相关博客：
【自然语言处理】【多模态】CLIP：从自然语言监督中学习可迁移视觉模型
 【自然语言处理】【多模态】ViT-BERT：在非图像文本对数据上预训练统一基础模型
 【自然语言处理】【多模态】BLIP：面向统一视觉语言理解和生成的自举语言图像预训练
 【自然语言处理】【多模态】FLAVA：一个基础语言和视觉对齐模型
 【自然语言处理】【多模态】SIMVLM：基于弱监督的简单视觉语言模型预训练
 【自然语言处理】【多模态】UniT：基于统一Transformer的多模态多任务学习
 【自然语言处理】【多模态】Product1M：基于跨模态预训练的弱监督实例级产品检索
 【自然语言处理】【多模态】ALBEF：基于动量蒸馏的视觉语言表示学习
 【自然语言处理】【多模态】VinVL：回顾视觉语言模型中的视觉表示

一、简介

? 视觉语言预训练 $(\text{VLP})$ 被证明在广泛的视觉语言任务 $(\text{VL})$ 中是有效的。典型的 $\text{VLP}$ 由两阶段组成：(1) 一个预训练的目标检测模型，用于编码图像中的视觉目标至特征向量；(2) 一个预训练的跨模态融合模型，用于融合文本和视觉特征。现有的 $\text{VLP}$ 研究主要专注在改善跨模型融合模型，本文则专注在改善以目标为中心的视觉表示，并且提出了一个全面的实证研究来证明 $\text{VL}$ 模型中视觉特征的重要性。

? 在先前的工作中，广泛使用的目标检索模型是在 $\text{Visual Genome}$ 数据集上训练的。目标检测模型提供了一个以目标为中心的图像表示，并且作为黑盒被用在各种 $\text{VL}$ 模型中。在本文中，作者基于 $\text{ResNetXt-152 C4}$ 架构预训练了一个大规模的目标-属性检测模型。相比于之前的目标检测模型，新模型针对 $\text{VL}$ 任务进行了更好的设计，并且规模更大、在更大数据量上进行训练，合并了多个公开的目标检测数据集，包括： $\text{COCO}$ 、 $\text{OpenImages(OI)}$ 、 $\text{Ojbects365}$ 和 $\text{Visual Genome(VG)}$ 。最终，本文的目标检测模型在广泛的 $\text{VL}$ 任务上实现了更好的结果。相比于其他的目标检测模型，例如 $\text{X152-FPN}$ 在 $\text{OpenImages}$ 上训练，本文的新模型能够编码更多样的视觉目标和概念集合。

? 为了验证新目标检测模型的有效性，作者在包含了885万个text-image对的数据集上预训练了一个基于 $\text{Transformer}$ 的跨模型融合模型 $\text{OSCAR+}$ ，其中图像的视觉表示由新的目标检测模型生成，并且在 $\text{OSCAR+}$ 预训练时被固定。然后在广泛的下游任务中微调预训练的 $\text{OSCAR+}$ ，包括像 $\text{VQA}$ 、 $\text{GQA}$ 、 $\text{NLVR2}$ 这样的 $\text{VL}$ 理解任务，以及 $\text{COCO}$ text-image检索，以及像 $\text{COCO image cpationing}$ 和 $\text{NoCaps}$ 这样的 $\text{VL}$ 生成任务。结果线上，由新目标检测模型产生的以目标为中心的表示极大的改善了各种 $\text{VL}$ 任务，通常比使用经典目标检测模型的baseline强很多，在各种任务上创造了新的 $\text{SOTA}$ 。

? 本文的主要贡献总结如下：(1) 提出了一个全面的实证研究来表明 $\text{VL}$ 模型中的视觉特征至关重要；(2) 开发了一个新的目标检测模型，相比于传统的目标检测模型，其能够产生更好的视觉特征，并且在所有主要的 $\text{VL}$ 任务的多个公开基准上实现了state-of-the-art结果；(3) 提供了详细的预训练目标检测的消融实验。

二、改善视觉语言 $(\text{VL})$ 中的视觉 $(\text{V})$

? 基于深度学习的 $\text{VL}$ 模型通常由两个模块组成：一个图像理解模块 $\text{Vision}$ 和一个跨模态理解模块 $\text{VL}$ ：
$(\textbf{q},\textbf{v})=\textbf{Vision}(Img),\quad y=\textbf{VL}(\textbf{w},\textbf{q},\textbf{v}) \tag{1}$
其中， $I m g$ 和 $\textbf{w}$ 是视觉模态和语言模态的输入。 $\textbf{Vision}$ 模块的输出有 $\textbf{q}$ 和 $\textbf{v}$ 构成。 $\textbf{q}$ 图像的语义表示，例如标签或者检测到的对象，并且 $\textbf{v}$ 图像在高维隐空间中的分布式表示，例如由 $\text{VG-pretrained Faster-RCNN}$ 产生的box或者区域特征。大多数的 $\textbf{VL}$ 模型仅使用视觉特征 $\textbf{v}$ ，而近期提出的 $\text{OSCAR}$ 模型显示 $\textbf{q}$ 可以作为学习更好视觉语言联合表示的锚点，并且改善各种 $\text{VL}$ 任务的表现。等式 $(1)$ 中 $\textbf{VL}$ 模块的 $\textbf{w}$ 和 $y$ 在不同的 $\textbf{VL}$ 任务中是不同的。在 $\text{VQA}$ 中， $\textbf{w}$ 是问题且 $y$ 是被预测的答案。在text-image检索中， $\textbf{w}$ 是一个句子而 $y$ 是句子和图像对的匹配分数。在image captioning任务中， $\textbf{w}$ 没有给定且 $y$ 是生成的caption。

? 受预训练语言模型在各种自然语言处理任务上巨大成功的启发， $\text{VLP}$ 在改善跨模态理解模块 $\textbf{VL}$ 上实现了显著的成功，通过：(1) 使用 $\text{Transformer}$ 统一建模视觉和语言；(2) 使用大规模的text-image语料来预训练统一的 $\textbf{VL}$ 。然而，大多数 $\text{VLP}$ 工作将图像理解模块 $\text{Vision}$ 作为一个黑盒，并且未对视觉特征进行改进。尽管如此，目标检测的改进已经有了许多进展，通过：(1) 开发了更多样、丰富并且更大的训练集；(2) 在目标检测算法上有了更多的洞见，例如：feature pyramid network、one-stage dense prediction和anchor-free detectors；(3) 利用更强劲的 $\text{GPU}$ 训练更大的模型。

? 在本工作中，作者专注在改善 $\textbf{Vision}$ 来获得更好的视觉表示。作者开发了一个新的 $\text{OD}$ 模型，通过丰富视觉对象和属性类别，增大模型尺寸，在一个更大的 $\text{OD}$ 数据集上训练，从而在广泛的 $\text{VL}$ 任务上达到的state-of-the-art。

1. 目标检测预训练

? 为了改善 $\text{VL}$ 任务的 $\text{OD}$ 模型，作者利用了4个公开的目标检测数据集。由于许多数据集都没有属性标注，作者采用预训练和微调的策略来构建 $\text{OD}$ 模型。首先在一个包含四个公开数据集上的大规模语料上预训练 $\text{OD}$ 模型，然后在 $\text{Visual Genome}$ 上微调具有额外属性分支的模型，使其能够检测目标和属性。

1.1 数据

请添加图片描述

? 上表汇总了本目标检索预训练使用的四个数据集的统计信息，包括： $\text{COCO}$ 、 $\text{OpenImagesV5(OI)}$ 、 $\text{Objects365V1}$ 和 $\text{Visual Genome(VG)}$ 。这些数据集具有互补的特征，并且在数据尺寸、目标词表和每个类别的标准数量上都极度不平衡。例如， $\text{VG}$ 数据集对于目标和属性具有丰富且多样的标注。但是，它的标注有噪音并且会受到缺失标注的影响。另一方面， $\text{COCO}$ 数据集则标注的非常好，但是覆盖的视觉对象和属性远低于 $\text{VG}$ 。遵循下游的步骤来合并4个数据集来构建一个统一的语料。

首先，为了增强尾部类别的视觉概念，在 $\text{OpenImages}$ 和 $\text{Objects365}$ 上执行类别意识的采样来获得每个类别至少2000个实例，最终得到2.2M和0.8M图像。
为了平衡每个数据集的贡献，作者合并四个数据集使用， $\text{COCO}$ 的8个拷贝 $(8\times 0.11M)$ 、 $\text{VG}$ 的8个拷贝 $(8\times 0.1M)$ 、类别意识采样 $\text{Objects365}$ 的2个拷贝 $(2\times 0.8M)$ 、类别意识采样 $\text{OpenImages}$ 的1个拷贝 $\text{(2.2M)}$ 。
为了统一对象词表，作者使用 $\text{VG}$ 词表以及对象的别名作为基础的词表，然后将其他三个数据集中的与 $\text{VG}$ 类别相匹配的类别合并至 $\text{VG}$ ，若不匹配则添加一个新类别。
最后，作者保留了 $\text{VG}$ 中至少有30个实例的类别，最终有1594个 $\text{VG}$ 类别，以及来自其他三个数据集中无法映射至 $\text{VG}$ 词表的254个类别，最终合并的目标检测数据集包含1848个类别。

1.2 模型架构( $\text{FPN vs C4}$ )

? 虽然研究现实 $\text{FPN}$ 模型在目标检测上效果优于 $\text{C4}$ ，但最近的研究表明 $\text{FPN}$ 并不能向 $\text{VL}$ 提供比 $\text{C4}$ 更好的区域特征。因此，本文作者精心设计了一组实验并发现了主要的原因。首先， $\text{C4}$ 中用于区域特征抽取的所有层都是使用 $\text{ImageNet}$ 预训练过的，而 $\text{FPN}$ 模型的 $\text{MLP}$ 头则没有。这也证明了 $\text{VG}$ 数据集对于 $\text{VL}$ 任务生成足够好的视觉特征仍然是太小了，并且使用 $\text{ImageNet}$ 预训练权重是有益的。其次是由于不同的网络架构 $(\text{CNN vs. MLP})$ 。相较于 $\text{FPN}$ 中的 $\text{MLP}$ 头， $\text{C4}$ 中使用的卷积头能够在编码视觉信息时更好的归纳偏差。因此，本文中使用 $\text{C4}$ 架构用于 $\text{VLP}$ 。

1.3 模型预训练

? 遵循目标检测训练中的常用实践，冻结第一个卷积层、第一个残差层和所有的batch-norm层。使用几种数据增强的方法，包括：horizontal flipping和multi-scale training。为了使用 $\text{X152-C4}$ 架构训练检测模型，从 $\text{ImageNet-5K checkpoint}$ 中初始化模型主干，并以batch size为16张图片训练1.8M次迭代。

2. 向模型中注入属性信息

? 向预训练 $\text{OD}$ 模型上添加一个属性分支，然后在 $\text{VG}$ 上微调 $\text{OD}$ 模型来注入属性信息。由于在目标检测预训练阶段已经对目标表示进行了预训练，通过使用一个更大的属性损失函数权重1.25来使 $\text{VG}$ 微调专注在学习属性。这种方式得到的模型在 $\text{VG}$ 上检测目标和属性显著超越了先前的模型。

3. 用于 $\text{VL}$ 任务的区域特征抽取器

? 随着视觉对象和属性的丰富，传统的类别感知非最大抑制后处理 $\text{NMS}$ 来删除重叠的bounding boxes，这使得特征抽取过程非常的慢。为了改善效率，使用类别不可知 $\text{NMS}$ 来替换类别感知 $\text{NMS}$ ，这样仅执行 $\text{NMS}$ 一次。作者也将耗时的膨胀卷积替换为非膨胀卷积。这两个替换使得区域特征抽取过程快了许多，并且在 $\text{VL}$ 任务上没有准确率的损失。

? 综上所述，预训练 $\text{OD}$ 模型作为图像理解模块来产生视觉表示 $(\textbf{q},\textbf{v})$ 用来下游的 $\text{VL}$ 任务。这里， $\textbf{q}$ 是检测到目标的名称集合，且 $\textbf{v}$ 是区域特征集合。每个区域特征都被表示为 $(\hat{v},z)$ ，其中 $\hat{v}$ 是来自检测头最后线性分类层输入的 $P$ 维表示，并且 $z$ 是区域的 $R$ 维度位置编码。

三、 $\text{OSCAR}$ +预训练

? $\text{VLP}$ 的成功在于为广泛的 $\text{VL}$ 任务使用统一的架构，并且使用与下游 $\text{VL}$ 任务表现相关的目标函数来大规模预训练统一模型。本文中，作者预训练一个改善版本的 $\text{OSCAR}$ ，称之为 $\text{OSCAR+}$ 模型，使用图像的标签作为锚点来学习联合image-text表示。

1. 预训练语料

? 基于现有的三个视觉和 $\text{VL}$ 数据集构建预训练语料：(1) image captioning数据集，具有人工标注的captions $\textbf{w}$ 和机器生成的图像标签 $\textbf{q}$ ，包括： $\text{COCO}$ 、 $\text{Conceptual Captions(CC)}$ 、 $\text{SBU cpations}$ 和 $\text{flicker30k}$ ；(2) 具有问题 $\textbf{w}$ 和人工标注答案 $\textbf{q}$ 的视觉 $\text{QA}$ 数据集，包括： $\text{GQA}$ 、 $\text{VQA}$ 和 $\text{VG-QAs}$ ；(3) 具有机器生成captions $\textbf{w}$ 和人工标注标签 $\textbf{q}$ 的image tagging数据集，包括 $\text{OpenImages}$ 的一个子集。总的来说，语料包括565万个唯一图片，885万个text-tag-image三元组。数据集的详细统计信息见附录。通过合并大规模的image tagging数据集，预训练语料的规模显著增加，例如 $\text{OpenImages(9M images)}$ 和 $\text{YFCC(92M images)}$ 。

2. 预训练目标

请添加图片描述

? $\text{OSCAR+}$ 预训练损失函数包含两个项：
$\mathcal{L}_{Pre-training}=\mathcal{L}_{\text{MTL}}+\mathcal{L}_{\text{CL3}} \tag{2}$
$\mathcal{L}_{\text{MTL}}$ 是定义在文本模态( $\textbf{w}$ 和 $\textbf{q}$ )上的Masked Token Loss。 $\mathcal{L}_{\text{CL3}}$ 是一个新颖的三路对比损失函数。不同于 $\text{OSCAR}$ 中使用的二元对比损失函数，提出的三路对比损失函数能够有效的优化 $\text{VQA}$ 和text-image matching使用的目标函数。如等式 $(3)$ 所属， $\mathcal{L}_{\text{CL3}}$ 会考虑两种类型的训练样本 $\textbf{x}$ ：在image captioning和image tagging数据中的{caption,image-tags,image-features}三元组，以及 $\text{VQA}$ 数据中的{question,answer,image-features}三元组。
$\textbf{x}\triangleq (\underbrace{\textbf{w}}_{\text{caption}},\underbrace{\textbf{q,v}}_{\text{tags\&image}})\quad \text{or}\quad(\underbrace{\textbf{w,q}}_{\text{Q\&A}},\underbrace{\textbf{v}}_{\text{image}}) \tag{3}$

? 为了计算对比损失函数，需要构造负样本。作者为两类训练样本构造了两种类型的负三元组。一种是使用破坏的captions $(\textbf{w}',\textbf{q}, \textbf{v})$ ，另一种是使用破坏的answers $(\textbf{w},\textbf{q}',\textbf{v})$ 。为了分类caption-tags-image三元组是否包含被破坏的caption是一个text-image匹配任务。为了分类一个question-answer-image三元组是否包含被破坏的answer是一个 $\text{VQA}$ 的答案选择任务。由于[CLS]的编码能够被看作是三元组 $(\textbf{w},\textbf{q}, \textbf{v})$ 的一个表示，所以在其上应用全链接层来作为三分类器，用于预测三元组为匹配 $(c = 0)$ 、包含被破坏的 $\textbf{w}(c=1)$ 、或者包含被破坏的 $\textbf{q}(c=2)$ 。三路对比损失函数定义为：
$\mathcal{L}_{\text{CL3}}=-\mathbb{E}_{(\textbf{w},\textbf{q},\textbf{v};c)\sim\tilde{D}}\text{log}\;p(c|f(\textbf{w},\textbf{q},\textbf{v})) \tag{4}$
其中，数据集 $(\textbf{w},\textbf{q},\textbf{v};c)\in\tilde{D}$ 包含50%的匹配三元组，25%的破坏 $\textbf{w}$ 三元组和25%的破坏 $\textbf{q}$ 三元组。为了更加有效的实现，被破坏的 $\textbf{w}'$ 是从所有 $\textbf{w}$ 中均匀采样的，并且 $\textbf{q}'$ 是从所有 $\textbf{q}$ 中均匀采样的。正如上表所示，当仅使用被破坏答案的三元组，即从QA数据集中的 $\textbf{q}$ 中采样 $\textbf{q}'$ 而得到的三元组 $(\textbf{w},\textbf{q}',\textbf{v})$ ，对比损失函数会模拟近似 $\text{VQA}$ 任务的目标函数，而不是text-image检索任务。因此，预训练模型能够有效的适应 $\text{VQA}$ ，但不能适应text-image检索。作为对比，提出的三路对比损失函数能够在两个任务上都很好的迁移。

3. 预训练模型

? 作者预训练了两个模型变体，表示为 $\text{OSCAR+}_{B}$ 和 $\text{OSCAR+}_{L}$ ，其分别使用 $\text{BERT base}$ 和 $\text{BERT large}$ 的参数 $\theta_{\text{BERT}}$ 进行初始化。为了确保图像区域特征的输入embeddings尺寸与 $\text{BERT}$ 相同，作者通过一个具有矩阵 $\textbf{W}$ 的线性投影来转换位置增强的区域特征。可训练参数为 $\theta=\{\theta_{\text{BERT}},\textbf{W}\}$ 。 $\text{OSCAR+}_{B}$ 至少训练1M steps，学习率为 $1e^{-4}$ 并且batch size为1024。 $\text{OSCAR+}_{L}$ 则以学习率 $3e^{-5}$ 和batch size为1024训练了至少1M steps。

四、适应 $\text{VL}$ 任务

? 作者将预训练模型应用于7个下游的 $\text{VL}$ 任务，包括5个理解任务和2个生成任务。本小节会简要介绍任务以及微调策略。

VQA & GQA

? 这两个是研究社区用于评估 $\text{VL}$ 模型广泛使用的理解任务。该任务需要模型基于图像来回答自然语言问题。在本文中，在广泛使用的VQA v2.0和GQA数据集上执行实验。对于每个问题，模型会从共享的答案集合中挑选一个答案。当将一个 $\text{VLP}$ 模型应用在 $\text{VQA}$ 任务中，作者将给定的问题、目标标签和目前区域特征进行拼接来构造输入，然后将 $\text{OSCAR+}$ 输出的[CLS]对应的特征输入至一个任务相关的分类器，进行答案预测。

Image Captioning & NoCaps

? captioning任务是对于给定的图像生成一个自然语言的caption。其是被研究社区广泛使用的 $\text{VL}$ 生成任务，截止2020年12月10日， $\text{Image Captioning Leaderboard}$ 有超过260个模型。为了实现caption生成，使用seq2seq目标函数来微调 $\text{OSCAR+}$ 。每个训练样本都会被转换为一个三元组，该三元由一个caption、图像区域特征集合、以及目标标签集合组成。随机遮蔽caption中15%的tokens，并使用余下内容的编码来预测被遮蔽的tokens。对自注意力掩码进行约束，使其只能关注caption中当前位置之前的tokens来模拟单向生成的过程。所有的caption token都会全部注意力至图像区域和目标标签。在推断的过程中，先编码图像区域、目标标签以及特定token [CLS]作为输入。然后模型通过输入[MASK] token来生成caption，并基于token的概率输出从词表中采样token。接下来，前面输入序列中的[MASK] token被替换为采样的token，并且添加一个新的[MASK]用于下一个词的预测。当模型输出[STOP] token或者生成的句子超过预定义的最大长度，则生成过程终止。在COCO image captioning数据集上执行图像实验。 $\text{Novel Ojbect Captioning at Scale}$ 扩展了图像captioning任务来测试模型描述训练集中未出现的新目标的能力。遵循 $\text{NoCaps}$ 的限制，使用预测的 $\text{Visual Genome}$ 和 $\text{Open Images}$ 标签来形成输入标签序列，并直接在 $\text{COCO}$ 上训练 $\text{OSCAR+}$ ，而不适应预训练进行初始化。

Image(-to-Text) Retrieval & Text(-to-Image) Retrieval

? 这两个任务都需要模型来计算图像和句子的相似分数。因此，该任务被广泛应用于直接衡量跨模态 $\text{VL}$ 表示的质量。将该任务形式化为一个二分类问题，给定一个匹配的image-text对，随机的选择不同的图像或者不同的句子来形成不匹配对。[CLS]表示被用作分类器的输入来预测一个分数，该分数表示给定的样本对是否匹配。在测试中，预测的分数被用于排序给定的image-text对。作者报告了在1K和5K COCO测试集上的top-K检索结果。