[人工智能] 文献阅读：Should You Mask 15％ in Masked Language Modeling?

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 文献阅读：Should You Mask 15％ in Masked Language Modeling? -> 正文阅读

[人工智能]文献阅读：Should You Mask 15％ in Masked Language Modeling?

文献阅读：Should You Mask 15% in Masked Language Modeling?

文献链接：https://arxiv.org/pdf/2202.08005.pdf

1. 内容简介

这是前段时间看到的陈丹琦女神的新工作，刚好凑上她获得斯隆奖，就下载下来看了一下。

这篇文章算是一篇偏预训练过程的基础研究性质的文章，考察了一下Devlin et al等在bert预训练当中提出提出的mask法则，即mask掉15%的token是否是最优的选择，然后对于mask的内容，80-10-10原则是否真的有效并且可以提供正向的收益。

我们回顾一下Devlin et al在BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding提出的mask准则以及其对应的原因：

将15%的单词进行mask然后进行预测，采用15%的原因是在训练难度和训练速度之间取了一个balance；
在mask单词当中使用了80-10-10原则，即80%的单词使用[MASK]进行替换，10%的单词保留其原本的单词，最后10%的单词替换成任意其他的单词，使用这个策略的原因在于说为了保持训练任务以及下游任务的一致性。

陈丹琦她们就是针对这两个点进行了更进一步的考察，想知道这两个结论是否真的和他们宣称的一样在work，不过她的结论和之前的经验结果不太一致，她的最终结论是：

15%的mask比例并非最优解，采用40%的mask比例可以超越之前的效果；
80-10-10原则事实上并没有真是的帮助，直接全部采用[MASK]可以得到更好的效果。

个人感觉，这篇文章有点像是Roberta，就是针对Bert超参的一个细化研究，不过似乎这次的结果不是被很多人认可，今天刚刷到了一篇关于这篇文章的博客《陈丹琦组掩蔽语言模型研究引争议：15%掩蔽率不是最佳，但40%站得住脚吗？》，似乎对文章的结果存在一定的异议。

概括来说文中并不怀疑作者的结果，但是怀疑这个现象产生的原因中[MASK]的占比并不是主因，而是因为对应实验下的参数调优才是导致了上述现象的主因，因为上述许多结果和2、3年来其他人的经验结果似乎并不一致，甚至有些大相径庭，无怪乎会引起争议。

鉴于我本人并没有做过bert模型的预训练考察，因此这里就不对这个结果本身做评论了，就只是把丹琦女神的工作整理记录一下。

不过个人还是觉得能够对大模型预训练做一些深层原理的考察这件事本身终究还是有意义的，毕竟个人看来现在的大模型真心就是个黑盒，有时候一堆奇技淫巧真心还不如调参影响大就很扯淡……

2. 实验考察

1. mask比例考察

文中首先考察的就是[MASK]的占比，文中调整了[MASK]文本的比例，然后对下游任务进行了一下考察。

原始的bert当中也提到说[MASK]比例越高，给出的上下文信息也就越少，因此模型学习的难度也就越大，但是相对的，每一条数据当中loss能够获取的信息量也会相应的变大，单位时间当中模型能够获得的信息量也就越大。

因此，陈丹琦她们就调整了[MASK]比例然后进行了实验，得到实验结果如下：

在这里插入图片描述

可以看到，在绝大多数任务当中，15%都不是最佳的[MASK]比例，40%相对而言可以在更多的任务当中获取更好的实验比例。

当然，这里存在一个隐患就是说由于[MASK]比例增大，因此单位时间内事实上模型使用到的训练数据事实上也是更多的，因此，可不可能说是只是在一定时间范围内模型性能上升的更快了，但是最终的模型效果也许没有那么大的提升甚至说可不可能反而被损坏了。

基于此，他们用24h的bert训练结果和更长时间的bert效果进行了比对，并对中间时间的效果进行了绘图展示，得到结果如下：

在这里插入图片描述

可以看到：

增大[MASK]比例获得的模型效果的提升是稳定的，且即便让15%比例下的模型训练更长的时间，40%的模型效果依然是更加优秀的。

更一般的，她们还对不同尺寸的模型考察了mask比例对其结果的影响，具体得到结果如下：

在这里插入图片描述

可以看到：

对于越大的模型，mask比例的增大越能够带来正向的收益。

综上，我们可以判断：

[MASK]比例提升到40%为模型带来的收益是稳定的。

2. corruption & prediction

在上述1的基础上，陈丹琦她们还对MLM的机制进行了更细化的考察。

如前所述，mask过程事实上是可以拆分为两部分的，一方面在于训练数据上，通过mask比例可以调整训练模型时的输入信息，而另一方面，被mask的部分又会在loss部分用来提供模型真正学习到的内容。

陈丹琦她们将这二者分别命名为corruption以及prediction。直觉上，我们希望prediction尽可能大，但是corruption却需要调整一个合适的值。

而在原版的bert训练过程当中，这两者事实上是完全一致的，即便他们在功效上其实有所区分。

因此，陈丹琦她们对于这个点进行了更加细致的考察，将这两部分进行了解耦，然后分别考察他们的效果。

不过她们的方法其实我个人感觉有点奇怪就是了，显然要是corruption > prediction倒是理解起来很简单，多mask一些结果，然后预测的时候只使用其中的部分计算loss就行了，而对于prediction > corruption的情况，陈丹琦她们采用的方式将一条数据拆分了多条，比如20%，40%，就是一条数据拆分两条，预测40%，然后两条数据分别mask20%。但是个人觉得这种方式比较奇怪，感觉训练中有数据泄露，而且如果我没有理解错的话她还将训练时长给拉长了对应的倍数，导致训练的充分度事实上存在一定的差异。个人感觉有点怪怪的……

而结论方面，她们给出的实验结果如下：

在这里插入图片描述