| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》论文笔记 -> 正文阅读 |
|
[人工智能]《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》论文笔记 |
?论文来源:EMNLP-2020 ??相关预训练模型在hugging face官网可以搜到,论文也公布了相应github链接。 🚀主要内容:?传统的bert是面向自然语言的预训练模型,而codebert则是一个双模态的新型预训练模型,也是基于transformer的网络架构,它是面向自然语言和编程语言(包含6种编程语言)。预训练则是通过一个混合目标函数进行优化,结合了MLM任务和RTD任务(replaced token detection)。 训练数据有双模态的NL-PL pairs数据,也有单模态的代码数据。单模态数据有助于学习到更好的token表示。 ?类似bert,我们可以基于coderbert来提取编程语言的code embedding来做各种下游任务(如代码bug检查、代码克隆检测、代码文档生成等)。作者通过fine-tune预训练好的codebert模型来进行2项任务(natural language code search、code documentation generation),都达到了SOTA的性能。 🚀主要贡献:?1.codebert是第一个用于多种编程语言的大型NL-PL预训练模型。 ? 🚀背景介绍:?像过去BERT、GPT、XLNet等大型预训练模型极大促进了NLP任务的性能提升。这些预训练模型都是从未标记的数据中,自监督的学习到高效的上下文表示(e.g. MLM任务)。 ? 🚀CodeBERT?模型结构?CodeBERT 的结构完全和 RoBERTa-base 一样,模型的全部参数量大小为125M。 ?输入/输出表示?输入将两个片段通过分隔符隔开: [CLS], w1, w2, …wn, [SEP], c1, c2, …, cm, [EOS]。前面是NL (使用WordPiece分割),后面是PL。[CLS]和bert里的一样,它对应的最后一层的hidden states作为序列的聚合表示作为分类或排序用。 ?输出包含2个部分: ? ?预训练数据?使用了最近 Husain et al. (2019)论文里提供的大型数据集(他们从github获得,并对其进行了一系列的预处理,具体预处理步骤看codebert论文里有说)。只使用了其中的训练集,因为作者要在natural language code task上评估。所以没用其测试集和验证集。 ?预训练?预训练包含:MLML和RTD这2个训练目标(整个预训练的目标函数就是这2个任务的目标函数之和。具体目标函数看论文,类似交叉熵损失函数): ?1.MLM(Masked Language Modeling) ?2.RTD(Replaced Token Detection)
? ?Fine-Tuning CodeBERT:?可以根据不同的设置来使用codebert进行下游任务。 ? 🚀实验部分?就是和各模型在两个下游任务上的性能对比,达到了SOTA。 ? 🚀未来方向?1.推广生成器到双模态数据,或者使用更加精致的网络架构去改善RTD任务。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/12 1:55:27- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |