[人工智能] 【自然语言处理】【多模态】UniT：基于统一Transformer的多模态多任务学习

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【自然语言处理】【多模态】UniT：基于统一Transformer的多模态多任务学习 -> 正文阅读

[人工智能]【自然语言处理】【多模态】UniT：基于统一Transformer的多模态多任务学习

UniT：基于统一Transformer的多模态多任务学习 《UniT：Multimodal Multitask Learning with a Unified Transformer》

论文地址：https://arxiv.org/pdf/2102.10772.pdf

相关博客：
【自然语言处理】【多模态】CLIP：从自然语言监督中学习可迁移视觉模型
 【自然语言处理】【多模态】ViT-BERT：在非图像文本对数据上预训练统一基础模型
 【自然语言处理】【多模态】BLIP：面向统一视觉语言理解和生成的自举语言图像预训练
 【自然语言处理】【多模态】FLAVA：一个基础语言和视觉对齐模型
 【自然语言处理】【多模态】SIMVLM：基于弱监督的简单视觉语言模型预训练
 【自然语言处理】【多模态】UniT：基于统一Transformer的多模态多任务学习

一、简介

? $\text{Transformer}$ 在各个领域都获得的巨大的成功，包括但不限于自然语言、图像、视频和音频。先前的工作表明，在大规模语料上预训练的 $\text{Transformer}$ 能够学习到有益于下游广泛语言任务的向量表示。在视觉领域，基于 $\text{Transformer}$ 的模型也在图像分类、目标检测和全景分割上实现了很好的效果。除了建模单一模态外， $\text{Transformer}$ 模型也在 $\text{VQA}$ 等联合视觉-语言推理任务上实现了很好的表现。

? 然而，尽管 $\text{Transformer}$ 在特定领域的应用中达成了不错的成就，但是基于 $\text{Transformer}$ 的跨领域链接不同任务的工作并不多。在目睹了 $\text{Transformer}$ 的成功后，各种问题自然会出现：用于自然语言推理训练的 $\text{Transformer}$ 模型是否也能在图像上执行目标检测，或者说基于 $\text{Transformer}$ 的图像编码器是否能用来进行检测文本蕴含？总的来说，是否能够建立单个模型来同时处理不同领域的各种任务，向通用人工智能前进一步？先前的工作尝试解决这些问题，但是存在一定的限制：

仅应用在单个领域或者特定模态的任务上； $\text{ViT}$ 和 $\text{DETR}$ 仅专注在视觉任务上， $\text{BERT}$ 以及延伸的工作仅能处理语言任务，而 $\text{VisualBERT}$ 和 $\text{VILBERT}$ 等仅在特定的视觉-语言多模态领域。
对于每个任务涉及任务相关的微调，没有在任务间利用共享参数，通常 $N$ 个任务具有 $N$ 倍的参数，例如：必须使用 $\text{BERT}$ 分别为每个任务的模型进行微调。
仅在单个领域中的相关或者相似任务上执行多任务，有时会使用硬编码的训练策略；例如， $\text{T5}$ 仅在语言领域任务上工作，而 $\text{VILBERT-MT}$ 则仅在相关的视觉-语言任务上。

? 在本文中，作者构建了一个称为 $\text{UniT}$ 的统一 $\text{Transformer}$ 模型，其将图像和(或)文本作为输入，然而在视觉感知、自然语言理解和联合视觉-语言推理的各种任务上进行联合训练。 $\text{UniT}$ 由 $\text{Transformer}$ 编码器构成，其能够将每个输入模态编码为hidden states，在编码后的输入模态上应用一个 $\text{Transformer}$ 解码器，然后在解码器的输出上应用一个任务相关的输出头来对每个任务进行预测。相较于先前基于 $\text{Transformer}$ 的多任务学习工作， $\text{UniT}$ 在更广阔的任务上实现了与先前工作相当的效果，不仅仅 $\text{VQA}$ 这样的视觉语言任务，也有纯视觉和纯语言任务。本文的贡献如下：

提出了 $\text{UniT}$ ，一个统一的 $\text{Transformer}$ 编码器解码器架构，能够使用较少的参数来同时处理多任务和多领域；
学习视觉领域、文本领域和交叉领域的最突出的任务，包括目标检测、 $\text{VQA}$ 、视觉蕴含以及 $\text{GLUE}$ 基准上的自然语言理解任务，包括 $\text{QNLI}$ 、 $\text{MNLI}$ 、 $\text{QQP}$ 和 $\text{SST-2}$ 。证明了这些多样的任务能够同时学习，并且在本文的训练方案下能够适当收敛；
通过对各种任务的分析，展示了像 $\text{VQA}$ 和视觉蕴含这样的多模态任务能够从多模态多任务训练上收益。

二、 $\text{UniT}$ ：跨领域统一 $\text{Transformer}$

请添加图片描述

? 本工作中，使用统一的单个模型联合学习跨不同模态的多任务。模型 $\text{UniT}$ 是建立在基于 $\text{Transformer}$ 编码器-解码器架构上的，由每个模态一个编码器和统一的解码器组成。上图是整个 $\text{UniT}$ 的架构。

? 本文考虑图像和文本两种输入模态。对于图像上的基于 $\text{Transformer}$ 编码器，首先会应用卷积神经网络来抽取一个视觉 $\text{feature map}$ ，然后其被 $\text{Transformer}$ 编码器进一步编码为合并了全局上下文信息的 $\text{hidden state}$ 序列。对于语言输入，这里使用12层的uncased版本的 $\text{BERT}$ ，其将输入的单词序列也编码为 $\text{hidden state}$ 序列。在将输入编码为 $\text{hidden state}$ 序列后，将 $\text{Transformer}$ 解码器应用在单个模态上向量序列上，或者多个模态拼接的向量序列上(这取决于任务是单模态还是多模态)。作者在所有任务上测试了分离解码器和共享解码器。最终，从 $\text{Transformer}$ 解码器获得的表示被传递至任务相关的头，并输出最终的预测值。由于 $\text{UniT}$ 的简单性，其可以轻易扩展到更多模态和输入上。

? 作者实验表明， $\text{UniT}$ 可以在8个数据集上联合学习7个任务。

2.1 图像编码器

? 单独的视觉任务和"视觉-语言"任务需要感知和理解图像 $I$ 。 $\text{UniT}$ 中使用卷积神经网络后跟一个 $\text{Transformer}$ 编码器来编码图像 $I$ ，将其转换为视觉编码 $\text{hidden state}$ 列表： $\textbf{h}^v=\{h_1^v,h_2^v,\dots,h_L^v\}$ 。图像编码的过程是受 $\text{DETR}$ 启发。首先，使用将卷积神经网络 $B$ 应用在输入图像上，抽取出一个尺寸为 $H_v\times W_v\times d_v^b$ 的 $\text{feature map}$ $\textbf{x}^v$ ：
$\textbf{x}^v=B(I) \tag{1}$
在实现中，卷积网络使用 $\text{ResNet-50}$ 并在目标检测任务上进行预训练。

? 为了进一步编码出尺寸为 $L\times d_v^e$ 的视觉 $\text{hidden state}$ $\textbf{h}^v$ ，在 $\textbf{x}^v$ 上应用一个具有 $N_v$ 层且 $\text{hidden size}$ 为 $d_v^e$ 的 $\text{Transformer}$ 编码器 $E_v$ ，其中 $L=H_v\times W_v$ 是视觉 $\text{hidden state}$ 的长度。此外，给定不同的任务可能需要抽取不同类型的信息，因此在 $\text{Transformer}$ 编码器中添加一个任务相关嵌入向量 $w_v^{task}$ ，这允许抽取任务相关的信息
$\textbf{h}^v=\{h_1^v,h_2^v,\dots,h_L^v\}=E_v(P_{b\rightarrow e}(\textbf{x}^v),w_v^{task}) \tag{2}$
$P_{b\rightarrow e}$ 是一个将视觉特征维度 $d_v^b$ 投影至编码器 $\text{hidden}$ 维度 $d_v^e$ 的线性投影层。视觉 $\text{Transformer}$ 编码器 $E_v$ 的构建遵循 $\text{DETR}$ ，其中位置编码会被添加至 $\text{feature map}$ 。任务相关的token $w^{task}$ 是一个维度为 $d_v^e$ 的可学习参数，其被合并至视觉特征序列 $P_{b\rightarrow e}$ 的开始。

2.2 文本编码器

? 像QNLI,MNLI,QQP,SST-2等GLUE基准，以及VQA和visual entailment等视觉语言推理任务都会提供文本输入。这里使用BERT来编码文本输入。

? 给定输入文本，以与BERT相同的方法将其转换为长度为S的token序列 $\{w_1,\dots,w_S\}$ ，其中 $w_1=\text{[CLS]}$ 。这个token序列会被输入至预训练BERT中来抽取尺寸为 $S\times d_t^e$ 的 $\text{hidden state}$ $\textbf{h}^t$ ，其中 $d_t^e$ 是BERT的hidden size。类似于图像编码器，文本编码器也会token序列前添加一个可学习任务嵌入向量 $w_t^{task}$ 。
$\textbf{h}^t=\{h_1^t,h_2^t,\dots,h_S^t\}=\text{BERT}(\{w_1,\dots,w_S\},w_t^{task}) \tag{3}$
然而，在实践中发现仅保留 $\textbf{h}^t$ 中[CLS]对应的向量来作为解码器的输入就能达到同样的效果。

? 在本文的实现中，使用BERT-base-uncased，其 $d_t^e=768$ 且 $N_t=12$ 。

2.3 领域不可知 $\text{UniT}$ 解码器

? 在将输入模态编码后，应用一个hidden size为 $d_t^d$ 且具有 $N_d$ 层的 $\text{Transformer}$ 解码器 $D$ ，该解码器会输出一个hidden state序列 $\textbf{h}^{dec}$ ，然后用于每个任务的预测。不同于文本和图像编码器，每个模态都有一个具体的架构，解码器在所有任务上都使用相同的领域不可知 $\text{Transformer}$ 解码器。

? 对于纯视觉任务，解码器应用在编码后的图像 $\textbf{h}^{enc}=\textbf{h}^v$ ；对于纯语言任务，解码器应用在编码后的文本 $\textbf{h}^{enc}=\textbf{h}^t$ ；对于视觉语言联合任务，将两种模态合并至单个输入 $\textbf{h}^{enc}=\text{concat}(\textbf{h}^v,\textbf{h}^t)$ 。

? $\text{Transformer}$ 解码器 $D$ 将编码后的输入序列 $\textbf{h}^{enc}$ 和一个长度为 $q$ 的任务相关的query嵌入序列 $\textbf{q}^{task}$ 。 $\text{Transformer}$ 解码器第 $l$ 层会输出一个解码序列 $\textbf{h}^{dec,l}$ ，其长度与 $\textbf{q}^{task}$ 相同为 $q$
$\{\textbf{h}^{dec,l}\}=D(\textbf{h}^{enc},\textbf{q}^{task}) \tag{4}$
? 解码器的架构同DETR中实现的解码器。在解码器的第 $l$ 层，自注意力机制被应用在解码的 $\textbf{h}^{dec,l}$ ，交叉注意力被用于编码输入模态 $\textbf{h}^{enc}$ 。

? 在实现时，要么对所有任务使用单个共享的解码器 $D^{shared}$ ，或者为每个具体的任务 $t$ 使用分离解码器 $D_t^{sep}$ 。

2.4 任务相关的输出头

? 每个任务 $t$ 的预测头被应用在解码hidden state $\{\textbf{h}^{dec,l}\}$ 。对于目标检测任务，使用分类头来产生分类概率输出，以及一个box头来为 $\{1,\dots,q\}$ 中的每个位置产生bounding box。分类头和box头的实现如同DETR。对于每个box上具有属性标签的数据集，实现类似BUTD中的属性分类头。

? 类别头和box头的输出会被后处理为object bounding box。对解码器所有层 $l$ 的hidden state $\textbf{h}^{dec,l}$ 上都会应用这些头
$class_head ( h d e c , l ) b l = box_head ( h d e c , l ) a l = attr_head ( h d e c , l , c l ) \begin{aligned} \textbf{c}^l&=\text{class\_head}(\textbf{h}^{dec,l}) \\ \textbf{b}^l&=\text{box\_head}(\textbf{h}^{dec,l}) \\ \textbf{a}^l&=\text{attr\_head}(\textbf{h}^{dec,l},\textbf{c}^l) \\ \end{aligned}$
其中， $\textbf{c}^l,\textbf{b}^l,\textbf{a}^l$ 是类别、box和属性的输出序列，所有的长度均为 $q$ ，与query嵌入 $\textbf{q}^{task}$ 相同。

? 在测试时，仅使用从解码器顶层得到的预测值 $\textbf{h}^{dec,N_d}$ 。因此不同的检测数据集通常有不同数量的类别，每个数据集都有自己的类别头、box头和属性头。在 $\textbf{c}^l$ 和 $\textbf{b}^l$ 上应用的损失函数同DETR，在 $\textbf{a}^l$ 上的属性损失函数同BUTD。

? 本文中所有的任务，包括：视觉问答、visual entailment和自然语言理解 $\text{(QNLI,QQP,MNLI,SST-2)}$ 等，都能被转换为任务 $t$ 上的 $c_t$ 类别分类任务。在解码器顶层的第1个hidden state $\textbf{h}_1^{dec,N_d}$ 上应用任务相关的分类器，并为任务 $t$ 输出一个尺寸为 $c_t$ 的分类预测值 $\textbf{p}$ 。

? 为了预测输出类别，使用具有GeLU激活函数的两层 $\text{MLP}$ ，且输出维度等于解码器hidden size。使用预测值 $\textbf{p}$ 和真实标签 $\textbf{t}$ 计算交叉熵损失函数来训练模型
$\begin{aligned} \textbf{p}&=W_1\cdot\text{GeLU}(W_2\cdot\textbf{h}_1^{dec,N_d}+b_2)+b_1 \\ \text{loss}&=\text{CrossEntropyLoss}(\textbf{p,t}) \end{aligned}$

2.5 训练

? 在多个任务上联合训练 $\text{UniT}$ 。在训练中的每次迭代，随机的选择一个任务和数据集来填充batch。根据数据集的大小和经验来人工指定每个任务的抽样概率。在本文的实现中，模型在64块Nvidia Volta V100-SXM2-32GB的GPU上进行训练，batch size为64。使用具有学习率为5e-5的加权Adam优化器。