🚀主要内容：

?传统的bert是面向自然语言的预训练模型，而codebert则是一个双模态的新型预训练模型，也是基于transformer的网络架构，它是面向自然语言和编程语言（包含6种编程语言）。预训练则是通过一个混合目标函数进行优化，结合了MLM任务和RTD任务（replaced token detection）。
?【注：RTD 使用从生成器采样的合理替代 token 来替换部分输入 token 从而破坏输入，然后训练一个判别器来预测受损输入中的每个 token 是否被生成器样本替换。】

训练数据有双模态的NL-PL pairs数据，也有单模态的代码数据。单模态数据有助于学习到更好的token表示。
?【注：双模态数据是function-leve级的自然语言文档和对应代码。codebert预训练数据是6种编程语言，其模型配置和MultiBERT类似，没有用显示的标记来区分输入的数据是哪种语言。】

?类似bert，我们可以基于coderbert来提取编程语言的code embedding来做各种下游任务（如代码bug检查、代码克隆检测、代码文档生成等）。作者通过fine-tune预训练好的codebert模型来进行2项任务（natural language code search、code documentation generation），都达到了SOTA的性能。
?还做了一个探测性任务，探究codebert学到了什么，固定codebert预训练模型的参数不变，在NL-PL任务上进行测试，性能优于RoBERTa模型（一个纯基于自然语言的预训练模型）
?

🚀主要贡献：

?1.codebert是第一个用于多种编程语言的大型NL-PL预训练模型。
?2.实验结果表明codebert在code-search和code-to-text generation task上表现很好。
?3.构建了一个用于探测code-based pre-trained models能力的数据集。

🚀背景介绍：

?像过去BERT、GPT、XLNet等大型预训练模型极大促进了NLP任务的性能提升。这些预训练模型都是从未标记的数据中，自监督的学习到高效的上下文表示（e.g. MLM任务）。
?同时也因为这些预训练模型的成功，促进了多模态预训练模型的发展，如ViLBert，预训练也是通过language-image pairs这种双模态数据自监督的进行。多模态模型通过训练来学习不同模态输入的隐式对齐。
?同时期和作者工作相关的一篇：《Learning and Evaluating Contextual Embedding of Source Code》，他们也是用BERT进行预训练，预训练任务和原来BERT的一样还是：MLM和NSP。只是数据集用了python编程语言的数据集。而本篇论文和其不同的地方在于：
?1.利用双模态数据和单模态数据。
?2.数据集包含了6种编程语言。
?3.预训练增加了个RTD任务。

🚀CodeBERT

?模型结构

?CodeBERT 的结构完全和 RoBERTa-base 一样，模型的全部参数量大小为125M。
?

?输入/输出表示

?输入将两个片段通过分隔符隔开： [CLS], w1, w2, …wn, [SEP], c1, c2, …, cm, [EOS]。前面是NL (使用WordPiece分割)，后面是PL。[CLS]和bert里的一样，它对应的最后一层的hidden states作为序列的聚合表示作为分类或排序用。

?输出包含2个部分：
?1.每个token对应的上下文向量表示。
?2.[CLS]对应的聚合序列的表示。

?预训练数据

?使用了最近 Husain et al. (2019)论文里提供的大型数据集（他们从github获得，并对其进行了一系列的预处理，具体预处理步骤看codebert论文里有说）。只使用了其中的训练集，因为作者要在natural language code task上评估。所以没用其测试集和验证集。
在这里插入图片描述
?

?预训练

?预训练包含：MLML和RTD这2个训练目标（整个预训练的目标函数就是这2个任务的目标函数之和。具体目标函数看论文，类似交叉熵损失函数）：

?1.MLM（Masked Language Modeling）
?MLM预训练使用的是双模态数据，即NL-PL pair。以15%的概率去mask其中的NL token或PL token。

?2.RTD（Replaced Token Detection）
?RTD预训练使用的双模态数据和单模态数据。RTD任务中为NL和PL各创建一个生成器，用来生成合理的随机mask掉的位置上的token的替代token。然后序列过程就是：codebert作为判别器，去判断这个替代token是否是原来被mask掉的token（就是一个二分类问题）。

在这里插入图片描述
?上面说的这个生成器有很多实现方法，论文对NL和PL分别使用了一个具有双向上下文的n-gram语言模型，从相应的单模态数据中训练学习。（PL就是上面表格中的单模态数据，NL就是双模态数据中的代码文档）

?Fine-Tuning CodeBERT：

?可以根据不同的设置来使用codebert进行下游任务。
?例如:
?1.在natural code search中，使用[CLS]对应的最后一层的表示来衡量code和NL query的语义相关性。
?2.在code-to-text generation中，使用encoder-decoder框架，用codebert初始化encoder。

🚀实验部分

?就是和各模型在两个下游任务上的性能对比，达到了SOTA。
?还做了一个探测性任务，探究codebert学到了什么，固定codebert预训练模型的参数不变，在NL-PL任务上进行测试，性能优于RoBERTa模型（一个纯基于自然语言的预训练模型）
?同时还推广到除了训练用到的6种编程语言之外的编程语言c#，进行对比测试。

🚀未来方向

?1.推广生成器到双模态数据，或者使用更加精致的网络架构去改善RTD任务。
?2.codebert的损失函数主要是针对 NL-PL 理解任务的，所以可以针对自己的任务类型改进。
?3.如何成功地将AST融入预训练步骤是一个非常吸引人的方向。
?4.将codebert推广到更多的下游任务和更多的编程语言。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-08-10 13:25:17 更:2021-08-10 13:25:46

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/23 19:08:43-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码