开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【文献阅读】Pre-Training With Whole Word Masking for Chinese BERT -> 正文阅读

[人工智能]【文献阅读】Pre-Training With Whole Word Masking for Chinese BERT

Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese bert[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3504-3514.

Abstract

在本文中，我们旨在首先介绍中文 BERT 的全词掩蔽（wwm）策略，以及一系列中文预训练语言模型。然后我们还提出了一个简单但有效的模型，称为 MacBERT，它在几个方面对 RoBERTa 进行了改进。

特别是，我们提出了一种新的掩蔽策略，称为 MLM(masked language model) as correction (Mac)。

Introduction

MacBERT 主要旨在减轻原始 BERT 中预训练和微调阶段的差异。

主要贡献：

我们创建了中文预训练语言模型系列并将其发布到我们的社区
我们提出了一种新的预训练语言模型，称为 MacBERT，它通过用相似词掩盖词来缩小预训练和微调阶段之间的差距，这已被证明在各种下游任务中是有效的。
我们还创建了一系列称为 RBT 的小型模型，以展示小型模型与常规预训练语言模型相比的性能，这有助于在实际应用中使用它们。

Related Work

Bert

BERT 主要由两个预训练任务组成：掩蔽语言模型 (MLM) 和下一句预测 (NSP)。

MLM：从输入中随机屏蔽一些标记，目标是仅根据其上下文预测原始单词。
NSP：预测句子 B 是否是句子 A 的下一个句子。

进一步提出了一种称为全词掩码（wwm）的技术，在这个设置中，我们不是随机选择 WordPiece [18] （单词中的几个字母）标记来屏蔽，而是一次屏蔽与整个单词对应的所有标记。这明确地强制模型在 MLM 预训练任务中恢复整个单词，而不是仅仅恢复 WordPiece 标记 [1]，这更具挑战性

ERNIE

优化 BERT 的屏蔽过程，包括实体级屏蔽和短语级屏蔽。

XLNet

现有的基于自编码的预训练语言模型，如BERT，由于掩蔽令牌[MASK]从未在微调阶段出现，因此存在预训练阶段和微调阶段的差异。

为了缓解这一问题，提出了基于Transformer-XL[8]的XLNet，主要有两种修改：

第一个是最大化输入分解顺序的所有排列的预期似然性，他们称之为排列语言模型。为了实现这一目标，他们提出了一种新颖的双流自注意力机制。
另一种是将自编码语言模型改为自回归模型，类似于传统的统计语言模型。

RoBERTa

他们得出了几个有用的结论，使 BERT 更强大，主要包括

训练时间更长，批量更大和更多数据的更长序列；
去除下一句预测任务并在传销任务中使用动态掩码。

ALBERT

主要解决了 BERT 内存消耗高、训练速度慢的问题。 ALBERT 介绍了两种参数缩减技术。

第一个是分解嵌入参数化，它将嵌入矩阵分解为两个小矩阵。
第二个是跨层参数共享，Transformer 权重在 ALBERT 的每一层之间共享，显着降低了整体参数。
此外，他们还提出了句子顺序预测 (SOP) 任务来取代传统的 NSP 预训练任务并产生更好的性能。

ELECTRA

采用了一种类似于生成对抗网络（GAN）[20] 的新生成器鉴别器框架。

生成器通常是一个小型 MLM，它学习预测掩码标记的原始单词。
鉴别器被训练来区分输入标记是否被生成器替换，他们称之为替换标记检测 (RTD)。

中文预训练模型

BERT-WWM&RoBERTa-WWM

使用传统中文分词工具（CWS）将文本拆分为多个单词
使用 LTP [21] 进行中文分词以识别词边界

word piece => whole word

RBT

我们还预训练了几个小型模型，我们称之为 RBT。
具体来说，我们使用与训练 RoBERTa 完全相同的训练策略，但我们使用更少的 Transformer 层。我们训练 3 层、4 层、6 层 RoBERTa 基础，分别表示为 RBT3、RBT4 和 RBT6。
我们还训练了一个 3 层 RoBERTa-large，表示为 RBTL3，其参数大小与 RBT6 相似。

MacBERT

MacBERT => MLM as correction BERT

MacBERT 由两个预训练任务组成：作为校正的 MLM 和句子顺序预测。

MLM as correction

MLM 存在“预训练和微调”的差异，预训练阶段的人工标记，如 [MASK]，从未出现在真正的下游微调中的调优任务。

在这个预训练任务中，我们不采用任何预定义的标记来进行掩蔽。相反，我们将原始 MLM 转换为文本校正任务，模型应该将错误的单词纠正为正确的单词，这比 MLM 更自然。

主要修改如下：

使用全词掩码和 N-gram 掩码策略来选择候选标记进行掩码，单词级 unigram 到 4-gram 的百分比分别为 40%、30%、20%、10%。
未来尝试PMImasking [22]
使用基于 word2vec [23] 相似度计算的 Synonyms toolkit3 获得相似词。如果选择 N-gram 进行掩码，我们会单独找到相似的单词。在极少数情况下，当没有相似词时，我们会降级为使用随机词替换。
我们使用 15% 的输入词进行掩码，其中 80% 的词被替换为相似词，10% 的词被随机词替换，剩下的 10% 与原始词保持一致。

Sentence Order Prediction

本文采用ALBERT[15]提出的句子顺序预测(SOP)任务，结果表明该任务比NSP任务更有效

正样本是通过使用两个连续的文本来创建的，而负样本是通过切换它们的原始顺序来创建的。

神经结构

将句子A与句子B concate。 $X = [CLS]A_1,A_2……,A_n[SEP]B_1,B_2,……,B_m[SEP]$
通过通过嵌入层（由词嵌入、位置嵌入和令牌类型嵌入组成）和连续的L层Transformer

Discussion

消融实验

从总体上看，删除 MacBERT 中的任何组件都会导致平均性能下降，这表明所有修改都有助于整体改进。
当我们比较 N-gram masking 和相似词替换时，我们可以看到明显的优缺点，其中 N-gram masking 在文本分类任务中似乎更有效，而阅读理解任务的性能似乎更受益于相似词替换任务。
NSP 任务的重要性不如 MLM 任务
句子顺序预测任务确实表现出比原始 NSP 更好的性能
去除 SOP 任务导致阅读理解任务明显下降，这表明有必要设计一个类似 NSP 的任务来学习两个片段之间的关系