摘要

Transformer 是一种很有前途的神经网络学习器，在各种机器学习任务中取得了巨大的成功。由于最近多模态应用和大数据的流行，基于 Transformer 的多模态学习已成为 AI 研究的热门话题。本文对面向多模态数据的 Transformer 技术进行了全面调查。本次调查的主要内容包括：（1）多模态学习、Transformer 生态系统和多模态大数据时代的背景，（2）从几何拓扑的角度对 Vanilla Transformer、Vision Transformer 和多模态 Transformer 的理论回顾， (3) 通过两个重要的范式回顾多模态 Transformer 应用程序，即多模态预训练和特定多模态任务，(4) 对多模态 Transformer 模型和应用程序共有的挑战和设计的总结，以及 (5)讨论社区的开放问题和潜在的研究方向。

引言

人工智能 (AI) 的最初灵感是模仿人类的感知，例如看、听、触、嗅。一般而言，模态通常与创建独特通信渠道的特定传感器相关联，例如视觉和语言。在人类中，我们感官知觉的一个基本机制是能够共同利用多种感知数据模态，以便在动态不受约束的情况下正确地与世界互动，每种模态都充当不同的信息源，具有不同的统计特征特性。例如，一张图像通过数千个像素呈现“大象在水中玩耍”场景的视觉外观，而相应的文本用一个使用离散单词的句子描述这一时刻。从根本上说，多模态人工智能系统需要对多模态信息源进行摄取、解释和推理，以实现类似人类水平的感知能力。多模态学习 (MML) 是一种构建 AI 模型的通用方法，该模型可以从多模态数据中提取和关联信息 [1]。
本调查侧重于使用 Transformers 进行多模态学习（如图 1 所示），其灵感来自于它们在建模不同模态（例如语言、视觉、听觉）和任务（例如语言翻译、图像识别、语音）方面的内在优势和可扩展性识别）具有较少的特定于模态的架构假设（例如，平移不变性和视觉中的局部网格注意偏差）。具体来说，Transformer 的输入可以包含一个或多个标记序列，以及每个序列的属性（例如，模态标签、顺序），自然允许 MML 无需架构修改。此外，通过控制 self-attention 的输入模式可以简单地实现学习每个模态的特异性和模态间的相关性。至关重要的是，最近跨不同学科探索 Transformer 架构的研究尝试和活动激增，导致近年来开发了大量新的 MML 方法，并在各个领域取得了显着和多样化的进展 [4]， [5]、[6]、[7]、[8]。这需要及时回顾和总结代表性方法，以使研究人员能够了解跨相关学科的 MML 领域的全球图景，更重要的是捕捉当前成就和主要挑战的整体结构化图景。
分类法 为了在不同学科之间获得更好的可读性和可达性，我们分别采用基于应用和挑战维度的两层结构化分类法。这有几个好处：（1）具有特定应用专业知识的研究人员可以在连接到其他相关领域之前找到适合自己研究领域的应用。 (2) 不同领域开发的相似模型设计和架构可以抽象的、公式驱动的视角进行总结，从而在不同应用中形成的各种模型的数学思想可以在共同的基础上进行关联和对比，跨越特定领域限制。至关重要的是，我们的分类法提供了一个有趣的个人作品立体视图，同时具有应用特异性和配方通用性的见解。希望这有助于打破领域界限，促进更有效的跨模式的思想交流和交流。通过使用即时建模策略 [9] 作为调查的基础，我们还包括经典分类问题（例如图像分类）——通常被视为传统 MML 调查中的单一模态学习应用 [1]、[10] , [11] – 作为一个特殊的 MML 应用程序。这有可能显着丰富 MML，因为分类问题是一个人工智能主题，是文献中最广泛的研究之一 [12]。
范围本调查将讨论 Transformer 架构的多模态特定设计，包括但不限于以下模态：RGB 图像 [5]、深度图像 [13]、视频 [7]、音频/语音/音乐 [13] ，[14]，[15]，表格[16]，场景图/布局[17]，[18]，[19]，姿势骨架[20]，SQL [21]，[22]，配方[23]，编程语言[24]，手语[25]，[26]，[27]，点云[28]，符号知识（图）[29]，[30]，多模态知识图[31]，素描图[32 ]、[33]、[34]、[35]、3D 对象/场景 [36]、[37]、[38]、文档 [39]、[40]、[41]、[42]、编程代码 [ 43]和抽象语法树（AST）——一种图[44]、光流[45]、医学知识（例如，诊断代码本体[46]）。请注意，本次调查不会讨论在没有多模式设计的情况下仅将 Transformer 用作特征提取器的多模式论文。
相关调查 我们将本文与对两个特定维度 MML 和 Transformers 的现有调查联系起来。存在一些 MML 调查 [1]、[10]、[11]。特别是，[1] 通过五个挑战提出了一个结构化的、公认的分类法，我们也将其作为我们结构的一部分。与回顾通用机器学习模型的 [1]、[10] 和 [11] 不同，我们转而关注 Transformer 架构及其自注意力机制。此外，最近还引入了一些专门针对Transformer的调查，重点包括通用Transformer[47]、高效设计[48]、可视化[49]、计算机视觉任务[50]、[51]、[52] ]、[53]、医学成像[54]、视频任务[55]和视觉语言预训练[56]。虽然 [50]、[52]、[53]、[54] 考虑了 MML，但他们的评论在范围、分类和覆盖范围上有所限制。据我们所知，只有少数关于视频语言预训练 (VLP) [56]、[57]、[58] 的调查与 MML 相关。然而，VLP 只是 MML 的一个子域。在本次调查中，我们只关注多模态学习和 Transformer 的交叉点。
特征和贡献 据我们所知，本文是对基于 Transformer 的多模态机器学习状态的第一次全面回顾。本次调查的主要特点包括
- (1) 我们强调 Transformer 的优势在于它们可以以与模态无关的方式工作。因此，它们与各种模式（和模式的组合）兼容。为了支持这一观点，我们首次从几何拓扑的角度提供了对多模态上下文中Transformer的内在特征的理解。我们建议将 self-attention 视为一种图样式建模，它将输入序列（单模态和多模态）建模为全连接图。具体来说，self-attention 将来自任意模态的任意令牌嵌入建模为图节点。
- (2）我们尽可能在数学上讨论多模态上下文中Transformer的关键组件。
- (3）基于Transformers，跨模态交互（例如融合、对齐）本质上是由self-attention及其变体处理的。在本文中，我们从自注意力设计的角度提取了基于 Transformer 的 MML 实践的数学本质和公式。
在回顾了多模态学习、Transformer 生态系统和多模态大数据时代的前景之后，我们将我们的主要贡献总结如下。
- (1) 我们从几何拓扑的角度对 Vanilla Transformer、Vision Transformer 和多模态 Transformer 进行了理论回顾。
- (2) 我们从两个互补的角度为基于 Transformer 的 MML 提供分类，即基于应用程序和基于挑战。在第 4 节中，我们通过两个重要的范例，即多模态预训练和特定的多模态任务，对多模态 Transformer 应用程序进行了回顾。在第 5 节中，我们总结了各种多模态 Transformer 模型和应用程序所共有的共同挑战和设计。
- (3) 我们讨论了基于 Transformer 的 MML 当前的瓶颈、存在的问题和潜在的研究方向。
本次调查的组织 本次调查的其余部分组织如下：第 2 节介绍了使用 Transformer 进行多模态机器学习的背景，包括历史观点和关键里程碑。第 3 节讨论了 Transformer、Vision Transformer 和面向多模态的 Transformer 的关键设计特性。在第 4 节中，我们从应用和代表性模型的角度为多模态 Transformer 模型提供了一些分类。在第 5 节中，我们总结了该领域的主要挑战和设计。第 6 节讨论了一些存在的问题和潜在的研究方向。第 7 节给出了结论。
在整个调查过程中，除非另有说明，否则数学符号和缩写词均遵循表 1 中的约定。

背景

多模态学习（MML）

MML [1]、[63] 是近几十年来的一个重要研究领域；早期的多模态应用——视听语音识别在 1980 年代被研究 [64]。 MML 是人类社会的关键。我们人类生活的世界是一个多模态环境，因此我们的观察和行为都是多模态的[65]。例如，人工智能导航机器人需要多模式传感器来感知现实世界环境 [66]、[67]、[68]，例如相机、激光雷达、雷达、超声波、GNSS、高清地图、里程表。此外，人类行为、情绪、事件、动作和幽默是多模态的，因此各种以人为中心的 MML 任务被广泛研究，包括多模态情感识别 [69]、多模态事件表示 [70]、理解多模态幽默 [ 71]，基于面部-身体-语音的视频人物聚类[72]等。
近年来，随着互联网的发展和各种智能设备的发展，越来越多的多模态数据通过互联网传输，越来越多的多模态应用场景不断涌现。在现代生活中，我们可以看到各种多模式应用，包括商业服务（例如电子商务/商品检索[73]、视觉和语言导航（VLN）[68]、[74]、[75]、 [76]、[77]、[78]、[79]、[80]、[81]、[82]、[83]）、交流（例如唇读[84]、手语翻译[25]、 [26]、[85]）、人机交互[86]、医疗保健AI[87]、[88]、监控AI[89]等。
而且，在深度学习时代，深度神经网络极大地推动了 MML 的发展。特别是，Transformers [2] 是一个竞争激烈的架构家族，为 MML 带来了新的挑战和机遇。

Transformer：简史和里程碑

Transformer正在成为有前途的学习者。得益于其自我注意，Vanilla Transformer [2] 受益于自我注意机制，是最初为 NLP 提出的序列特定表示学习的突破性模型，在各种 NLP 任务。随着 Vanilla Transformer 的巨大成功，许多衍生模型被提出，例如 BERT [4]、BART [90]、GPT [91]、GPT-2 [92]、GPT-3 [93]、Longformer [ 40]、Transformer-XL [94]、XLNet [95]。
Transformers 目前在 NLP 领域处于主导地位，这促使研究人员尝试将 Transformers 应用于其他模式，例如视觉领域。在视觉领域的早期尝试中，早期探索的一般流程是“CNN 特征 + 标准 Transformer 编码器”，研究人员通过调整原始图像大小到低分辨率并重新整形为一维序列来实现 BERT 式预训练 [96 ]。
Vision Transformer (ViT) [5] 是一项开创性的工作，它通过将 Transformer 的编码器应用于图像来提供端到端的解决方案。（参见图 2。）ViT 及其变体都已广泛应用于各种计算机视觉任务，包括低级任务 [97]、识别 [98]、检测 [99]、分割 [100] 等，并且对于有监督的[98]和自我监督的[101]、[102]、[103]视觉学习也很有效。此外，一些最近发布的作品为 ViT 提供了进一步的理论理解，例如，它的内部表示鲁棒性 [104]、其潜在表示传播的连续行为 [105]、[106]。
在 Transformer 和 ViT 的巨大成功的推动下，VideoBERT [7] 是一项突破性的工作，是第一个将 Transformer 扩展到多模态任务的工作。 VideoBERT 展示了 Transformer 在多模态环境中的巨大潜力。在 VideoBERT 之后，许多基于 Transformer 的多模态预训练模型（例如，ViLBERT [107]、LXMERT [108]、LXMERT [108]、VisualBERT [109]、VL-BERT [110]、UNITER [111]、CBT [112] , Unicoder-VL [113], B2T2 [114], VLP [115], 12-in-1 [116], Oscar [117], Pixel-BERT [118], ActBERT [119], ImageBERT [120], HERO [121]，UniVL [122]）已成为机器学习领域越来越感兴趣的研究课题。
2021 年，提出了 CLIP [123]（如图 3 所示）。这是一个新的里程碑，它使用多模态预训练将分类转换为检索任务，使预训练模型能够处理零样本识别。因此，CLIP 是一个成功的实践，它充分利用了大规模多模态预训练来实现零样本学习。最近，进一步研究了 CLIP 的思想，例如基于 CLIP 预训练模型的零样本语义分割 [124]、ALIGN [125]、CLIP-TD [126]。

多模式大数据

在过去的十年中，随着社交媒体和在线零售等互联网应用的快速发展，大量的多模态数据集被提出，例如概念字幕[127]、COCO[128]、VQA[129]、视觉基因组[130] , SBU Captions [131], Cooking312K [7], LAIT [120], e SNLI-VE [132], ARCH [133], Adversarial VQA [134], OTT QA [16], MULTIMODALQA (MMQA) [135] ]、VALUE [136]、Fashion IQ [137]、LRS2-BBC [138]、ActivityNet [139]、CN ERTA [140]、DVD [141]、VisDial [142]、PhotoChat [143]。
最近发布的多模态数据集中出现的一些新趋势是：
(1）数据规模更大。
最近发布的各种数据集都是百万级的，例如 Product1M [144]、Conceptual 12M [145]、RUC-CAS-WenLan [146] (30M)、HowToVQA69M [147]、HowTo100M [148]、ALT200M [149]、LAION -400M [150]。
(2) 模态更多
除了视觉、文本和音频的一般模式之外，还出现了更多不同的模式，例如 Pano AVQA [151]——第一个 360° 视频的大规模空间和视听问答数据集，YouTube-360 (YT-360) [152] (360° 视频), AIST++ [153] (一个新的 3D 舞蹈动作和音乐的多模态数据集), Artemis [154] (视觉艺术的情感语言)。特别是，Multi Bench [155] 提供了一个包含 10 种模式的数据集。
（3）更多场景
除了常见的字幕和 QA 数据集外，还研究了更多的应用和场景，例如 CIRR [156]（现实生活中的图像）、Product1M [144]、Bed and Breakfast (BnB) [157]（视觉和语言导航），M3A [158]（金融数据集），X-World [159]（自动驾驶）。
（4）任务更加困难。
除了简单的任务之外，还提出了更抽象的多模态任务，例如 MultiMET [160]（用于隐喻理解的多模态数据集）、Hateful Memes [161]（多模态模因中的仇恨言论）。
(5) 教学视频越来越受欢迎，例如烹饪视频 YouCookII [162]。将一系列指令与某人执行任务的视频对齐是一个强大的预训练借口任务的示例 [7]、[163]。
与其他深度神经网络架构类似，Transformer 也需要大量数据。因此，它们的高容量模型和多模态大数据基础共同创造了基于 Transformer 的多模态机器学习的繁荣。例如，大数据带来零样本学习。

Transformer: 几何拓扑学视角

在本节中，我们使用数学公式来回顾 Vanilla Transformer [2]、Vision Transformer [5] 和多模态 Transformer 的关键技术，包括标记化输入、self-attention、multi-head attention、基本 Transformer 层/块等等。我们强调可以从几何拓扑的角度理解 Vanilla Transformer [164]，因为由于自注意机制，给定来自任何模态的每个标记化输入，Vanilla 自注意（Transformer）可以建模它是拓扑几何空间中的全连接图[165]。与其他深度网络（例如，CNN 受限于对齐的网格空间/矩阵）相比，Transformers 本质上具有更通用和灵活的建模空间。这是 Transformer 用于多模式任务的一个显着优势。第 3.1 节和第 3.2 节将分别回顾 Vanilla Transformer 和 Vision Transformer 的关键设计。我们建议读者参考上面引用的原始论文以获取更多详细信息。
在本次调查中，“multimodal Transformer”是指“多模态学习环境中的 Transformer”
Vanilla Transformer
Vanilla Transformer 具有编码器-解码器结构，是基于 Transformer 的研究领域的起源。它采用标记化输入（参见第 3.1.1 节）。它的编码器和解码器都由 Transformer 层/块堆叠，如图 1 所示。每个块都有两个子层，即一个多头自注意力 (MHSA) 层（参见第 3.1.2 节）和一个按位置的全连接前馈网络（FFN）（见第 3.1.3 节）。为了帮助梯度的反向传播，MHSA 和 FFN 都使用残差连接 [166]（给定输入 x，任何映射 f(·) 的残差连接定义为 x ← f(x) + x），其次是归一化层。因此，假设输入张量为 Z，MHSA 和 FFN 子层的输出可以表示为：
其中 sublayer(·) 是子层自身实现的映射，N(·) 表示归一化，例如 BN(·)、LN(·)。
讨论有一个重要的未解决问题是后归一化与预归一化。原始的 Vanilla Transformer 对每个 MHSA 和 FFN 子层使用后归一化。但是，如果我们从数学角度考虑这一点，预归一化更有意义。这类似于矩阵理论的基本原理，即在投影之前进行归一化，例如Gram-Schmidt过程。这个问题应该通过理论研究和实验验证来进一步研究。
Vanilla Transformer 最初是作为序列到序列模型被提出用于机器翻译的，因此可以直接将词汇序列作为输入。如前所述，原始的自注意力可以将任意输入建模为完全连接的图，而与模态无关。具体来说，Vanilla 和变体 Transformers 都采用标记化序列，其中每个标记都可以视为图的一个节点。

Self-Attention Variants in Multimodal Context

在这里插入图片描述

(1)早期求和在实践中，早期求和 [45]、[89] 是一种简单有效的多模态交互，其中来自多个模态的标记嵌入可以在每个标记位置进行加权求和，然后由 Transformer 层处理：
其中⊕是元素总和，α和β是权重。具体而言，
它的主要优点是不会增加计算复杂度。然而，它的主要缺点是由于手动设置权重。如第 3.1.1 节和3.3.1、求和位置嵌入本质上是早期求和的情况。
(2) Early Concatenation 另一个直接的解决方案是early concatenation [7]、[43]、[180]、[182]，将来自多个模态的令牌嵌入序列连接起来并输入到 Transformer 层中：
因此，所有的多模态标记位置都可以作为一个完整的序列来处理，这样每个模态的位置可以通过调节其他模态的上下文来很好地编码。 VideoBERT [7] 是第一个多模态 Transformer 作品，其中视频和文本通过早期连接融合，可以很好地编码全局多模态上下文 [190]。然而，连接后的较长序列会增加计算复杂度。早期连接也被称为“全注意力”或“Co Transformer”[144]。
(3)分层注意（多流到单流） Transformer 层可以分层组合以处理跨模态交互。一种常见的做法是多模式输入由独立的 Transformer 流编码，它们的输出由另一个 Transformer [153] 连接和融合：
这种分层注意力是后期交互/融合的一种实现，可以被视为早期连接的一种特殊情况。
(4）分层注意（单流到多流）InterBERT [190] 是分层注意的另一种良好实践，其中连接的多模态输入由共享的单流 Transformer 编码，然后是两个单独的 Transformer 流。该流程可以表述为
该方法感知跨模态交互，同时保持单模态表示的独立性。
(5)Cross-Attention 对于双流 Transformer，如果 Q (Query) embeddings 以跨流方式交换/交换，也可以感知跨模态交互。这种方法被称为交叉注意或共同注意[193]，它首先在 VilBERT [107] 中提出：
Cross-attention 关注每个以另一个为条件的模态，并且不会导致更高的计算复杂度，但是如果考虑每个模态，该方法无法全局执行跨模态关注，因此会丢失整个上下文。正如 [190] 中所讨论的，双流交叉注意力可以学习跨模态交互，而对每个模态内部的自我上下文没有自我注意。
(6) Cross-Attention to Concatenation 两个交叉注意力流 [107] 可以进一步连接并由另一个 Transformer 处理以对全局上下文进行建模。这种分层的跨模态交互也被广泛研究[144]，[192]，并缓解了交叉注意力的缺点。
讨论所有这些上述用于多模态交互的自注意力变体都是模态通用的，并且可以应用于灵活的策略和多粒度任务。具体来说，这些交互可以灵活组合和嵌套。例如，多个交叉注意流用于分层注意（单流到多流），在双流解耦模型 [194] 中，等式 11 的 $Tf_2$ 和 $Tf_3$ 由等式中定义的交叉注意实现 12. 此外，它们可以扩展到多种（≥ 3 种）模式。 TriBERT [185] 是一种针对视觉、姿势和音频的三模态交叉注意（co attention），在给定查询嵌入的情况下，其键和值嵌入是来自其他模态的连接。在 [192] 中，对连接的交叉关注应用于三种模式（即语言、视频和音频）。