[人工智能] 【自然语言处理】【文本生成】UniLM：用于自然语言理解和生成的统一语言模型预训练

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【自然语言处理】【文本生成】UniLM：用于自然语言理解和生成的统一语言模型预训练 -> 正文阅读

[人工智能]【自然语言处理】【文本生成】UniLM：用于自然语言理解和生成的统一语言模型预训练

UniLM：用于自然语言理解和生成的统一语言模型预训练 《Unified Language Model Pre-training for Natural Language Understanding and Generation》

论文地址：https://arxiv.org/pdf/1905.03197.pdf

相关博客
【自然语言处理】【文本生成】BART：用于自然语言生成、翻译和理解的降噪Sequence-to-Sequence预训练
 【自然语言处理】【文本生成】UniLM：用于自然语言理解和生成的统一语言模型预训练
 【自然语言处理】【多模态】OFA：通过简单的sequence-to-sequence学习框架统一架构、任务和模态

一、简介

? 预训练语言模型提高了各种自然语言处理任务的表现。预训练语言模型通过使用大量文本进行基于上下文的预测来学习上下文表示，并通过微调来适应下游任务。

? 不同类型的预训练语言模型具有不同的预测任务和训练目标函数。 $\text{ELMo}$ 学习两个单向 $\text{LMs}$ ：一个前向 $\text{LM}$ 从左到右读取文本，一个后向 $\text{LM}$ 则从右到左编码文本。 $\text{GPT}$ 使用一个left-to-right的 $\text{Transformer}$ 来逐个词的预测文本序列。作为对比， $\text{BERT}$ 利用双向 $\text{Transformer}$ 编码器来融合左和右两个方向上下文来预测遮蔽单词。虽然 $\text{BERT}$ 显著改善了各种自然语言处理任务，但是双向的本质使得其应用在自然语言生成任务上比较困难。

? 在本文中，作者提出了一个新的统一预训练语言模型 $\text{(Unified pre-trained Language Model,UniLM)}$ ，其能够被同时应用在自然语言理解和自然语言生成。 $\text{UniLM}$ 是多层 $\text{Transformer}$ 网络，在大规模文本上进行预训练并使用三种无监督目标函数进行优化。特别地，作者设计了一组完型填空任务来基于上下文预测遮蔽单词。这些完型填空任务的不同在于如何定义上下文。对于一个从左到右的单向 $\text{LM}$ ，需要被预测遮蔽词的上下文由其左侧的所有词组成。对于一个从右到左的单向 $\text{LM}$ ，上下文是由右边的单词组成。对于双向 $\text{LM}$ ，上下文是由左和右两边的单词组成。对于sequence-to-sequence $\text{LM}$ ，目标序列中将要被预测单词的上下是由源序列中的所有单词和目标序列中右侧单词组成。

? 类似于 $\text{BERT}$ ，预训练 $\text{UniLM}$ 可以被微调来适应各种下游任务。不同于 $\text{BERT}$ 主要用于 $\text{NLU}$ 任务， $\text{UniLM}$ 可以配置不同类型的自注意力机制来聚合不同类型的上下文，其可以同时用于 $\text{NLU}$ 和 $\text{NLG}$ 任务。

? 提出了 $\text{UniLM}$ 有三个优点。首先，统一的预训练过程带来了用于共享参数和不同类型 $\text{LM}$ 架构的单一 $\text{Transformer LM}$ ，缓解了独立训练和托管多个 $\text{LM}$ 的需求。第二，共享参数使得学习到的文本表示更具通用性，因为它们联合优化了不同的语言模型目标函数。第三，除了应用于 $\text{NLU}$ 任务， $\text{UniLM}$ 可以用作sequence-to-sequence LM任务，使其天然适合 $\text{NLG}$ ，例如摘要和问题生成。

二、统一语言模型预训练

? 给定一个输入序列 $x=x_1\dots x_{|x|}$ ， $\text{UniLM}$ 为每个token获得上下文向量表示。如上图所示，使用若干个无监督语言建模目标函数来预训练优化共享 $\text{Transformer}$ 网络，即单向 $\text{LM}$ 、双向 $\text{LM}$ 和sequence-to-sequence $\text{LM}$ 。为了控制将要被预测单词的上下文，利用了不同的自注意力mask策略。

请添加图片描述

1. 输入表示

? 输入 $x$ 是一个单词序列，其是用于单向 $\text{LMs}$ 的一个文本片段，或者是用于双向 $\text{LM}$ 和sequence-to-sequence $\text{LM}$ 的一对文本片段。在输入的开始处添加特殊的序列开始符 $\text{[SOS]}$ ，并在每个片段的结尾添加特定的序列结束符 $\text{[EOS]}$ 。 $\text{[EOS]}$ 不仅能够用于标记 $\text{NLU}$ 任务中的句子边界，还可以用于 $\text{NLG}$ 任务中模型学习何时结束解码过程。遵循 $\text{BERT}$ 的输入表示。文本通过 $\text{WordPiece}$ 被切分为子词单元。对于每个输入的token，其向量表示是通过将对于的token嵌入、位置嵌入和segment嵌入相加求得。因为 $\text{UniLM}$ 使用多个 $\text{LM}$ 任务训练，segment嵌入扮演着 $\text{LM}$ 标识符的作用，即使用不同的segment嵌入使用不同的 $\text{LM}$ 目标函数。

2. 主干网络：多层 $\text{Transformer}$

? 输入向量 $\{\textbf{x}_i\}_{i=1}^{|x|}$ 被合并为 $\textbf{H}^0=[\textbf{x}_1,\dots,\textbf{x}_{|x|}]$ ，然后使用 $L$ 层的 $\text{Transformer}$ $\textbf{H}^l=\text{Transformer}_l(\textbf{H}^{l-1}),l\in[1,L]$ 将其编码为不同抽象等级的上下文表示 $\textbf{H}^l=[\textbf{h}_1^l,\dots,\textbf{h}_{|x|}^l]$ 。在每个 $\text{Transformer}$ 块，多自注意力头被用于聚合前一层的输出向量。对于第 $l$ 层 $\text{Transformer}$ ，自注意力头 $\text{A}_l$ 的输出计算如下：
$\textbf{Q}=\textbf{H}^{l-1}\textbf{W}_l^Q,\quad \textbf{K}=\textbf{H}^{l-1}\textbf{W}_l^K,\quad\textbf{V}=\textbf{H}^{l-1}\textbf{W}_l^V \tag{1}$

$\textbf{M}_{ij}= \begin{cases} 0,\quad \text{allow to attend} \tag{2}\\ -\infty,\quad \text{prevent from attending} \end{cases}$

$\textbf{A}_l=\text{softmax}(\frac{\textbf{QK}^\top}{\sqrt{d_k}}+\textbf{M})\textbf{V}_l \tag{3}$

其中，前一层的输出 $\textbf{H}^{l-1}\in\mathbb{R}^{|x|\times d_h}$ 使用参数矩阵 $\textbf{W}_l^Q,\textbf{W}_l^K,\textbf{W}_l^V\in\mathbb{R}^{d_h\times d_k}$ 来线性投影为queries、keys、values，掩码矩阵 $\textbf{M}\in\mathbb{R}^{|x|\times|x|}$ 来决定一对tokens是由能相关影响。

? 使用不同的掩码矩阵 $\textbf{M}$ 来控制一个token能够见到的上下文。采用双向 $\text{LM}$ 作为例子。掩码矩阵的所有元素为0，表示所有的tokens都能够相关访问。

3. 预训练目标函数

? 使用4中不同的完型填空任务来预训练 $\text{UniLM}$ 。在完型填空任务中，随机选择输入中的一些 $\text{WordPiece}$ tokens，并使用[MASK]进行替换。然后，通过 $\text{Transformer}$ 计算其对应的输出向量并将其送入 $\text{softmax}$ 来预测遮蔽的token。 $\text{UniLM}$ 的参数是通过最小化预测token和原始token的交叉熵损失函数进行学习。值得注意的是，完型填空任务使得所有的 $\text{LMs}$ 使用相同的训练程序成为可能。

3.1 单向 $\text{LM}$

? 使用left-to-right和right-to-left两个 $\text{LM}$ 目标函数。以left-to-right $\text{LM}$ 为例。每个token的表示都仅编码其本身和左边的上下文。举例来说，为了预测 $x_1x_2\text{[MASK]}x_4$ 的遮蔽token，仅会考虑 $x_1,x_2$ 和其本身。这是通过对自注意力掩码 $\textbf{M}$ 使用三角来完成的，其中自注意力掩码的上三角部分被设置为 $-\infty$ ，其他的元素为0。

3.2 双向 $\text{LM}$

? 双向 $\text{LM}$ 允许所有的token相关访问。其从两个方向编码上下文信息，并能比单向生成更好的上下文表示。正如等式(2)描述，自注意力掩码 $\textbf{M}$ 是一个0矩阵，允许每个token能够访问输入序列的所有位置。

3.3 序列到序列 $\text{LM}$

? 对于预测，在源片段中的token能够在片段内访问双向token，而目标片段中的token只能访问左边的上下文和源片段的所有tokens。举例来说，给定一个源片段 $t_1t_2$ 和目标片段 $t_3t_4t_5$ ，将 $\text{[SOS]}t_1t_2\text{[EOS]}t_3t_4t_5\text{[EOS]}$ 输入模型。 $t_1$ 和 $t_2$ 可以访问前4个tokens，包括 $\text{[SOS]}$ 和 $\text{[EOS]}$ ， $t_4$ 则仅能访问前六个tokens。

? 上图展示了sequence-to-sequence $\text{LM}$ 目标函数使用的自注意力掩码 $\textbf{M}$ 。 $\textbf{M}$ 的左半部分设置为0，所有的token都可以访问第一个片段。右上部分被设置为 $-\infty$ 来阻塞源片段自目标片段的注意力。此外，对于右下部分，设置右上三角部分为 $-\infty$ 且其他元素为0。

? 在训练过程中，随机选择两个文本片段中的tokens，并使用特殊的[MASK]进行替换。模型学习来恢复遮蔽的tokens。因为在训练过程中源片段和目标片段被打包成连续的文本序列，然后鼓励模型来学习两个片段的关系。为了更好的预测目标片段的tokens， $\text{UniLM}$ 学习对源片段进行高效编码。因此，用于sequence-to-sequence $\text{LM}$ 的完型填空任务，也称为encoder-decoder模型，同时预训练双向encoder和一个单向decoder。用作encoder-decoder模型预训练模型能够轻易应用于广泛的文本生成任务。

4. 在下游 $\text{NLU}$ 和 $\text{NLG}$ 任务上微调

? 对于 $\text{NLU}$ 任务，微调 $\text{UniLM}$ 作为双向 $\text{Transformer}$ 编码器，类似于 $\text{BERT}$ 。以文本分类为例。使用[SOS]的编码向量作为输入的表示，记为 $\textbf{h}_1^L$ ，并将其送入随机初始化的softmax分类器。类别概率计算为 $\text{softmax}(\textbf{h}_1^L\textbf{W}^C)$ ，其中 $\textbf{W}^C\in\mathbb{R}^{d_h\times C}$ 是参数矩阵， $C$ 是类别数量。

? 对于 $\text{NLG}$ 任务，使用sequence-to-sequence任务为例。微调过程类似于使用注意力掩码的预训练。令 $S 1$ 和 $S 2$ 表示源序列和目标序列。使用特殊的token将其连在一起，形成输入 $\text{[SOS]S1[EOS]S2[EOS]}$ 。通过随机遮蔽目标序列中的tokens来微调模型，并学习恢复遮蔽的tokens。值得注意的是， $\text{[EOS]}$ 标记这目标序列的结束，其也可以在微调过程中被遮蔽，因为当这种情况发生时，模型学习何时产生 $\text{[EOS]}$ 来终止目标序列的生成过程。