| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> 人工智能 -> 论文笔记:BERTese: Learning to Speak to BERT -> 正文阅读 |
|
|
[人工智能]论文笔记:BERTese: Learning to Speak to BERT |
|
论文链接:BERTese: Learning to Speak to BERT - ACL Anthology 代码开源:暂无 1. 概要????????这篇论文和How Can We Know What Language Models Know?研究的问题一样,旨在找到更好的提示,从而提高从预训练模型中提取世界性知识的准确率。主要思想是训练一个模型,对原有的提示进行重写,然后再输入预训练模型中进行预测,大体框架如下:
2. 核心算法?????????论文将重构提示的模型称为rewriter,需要测试的预训练模型称为predictor,已有的提示需要经过rewriter处理后再送入predictor中预测。为了保证rewriter生成的token合法以及有且只有一个[MASK],论文设计了两种loss函数:Valid Token Loss 和 Single [MASK] Loss。 Valid Token Loss:
????????其中 Single [MASK] Loss:
????????其中, ? ? ? ? 上述两个loss只是辅助作用,最终损失需要在predictor输出后计算(计算与真实标签的交叉熵损失)。需要注意的一点是,rewriter将自己的输出送入predictor之前,需要将词向量映射为自然语言,具体做法是将[mask]概率最大的位置的token映射为[mask],其他位置的token embedding则根据它们在BERT词向量中的最近邻映射为相应的token。注意到此处有连续转离散即量化的操作,这样就无法通过梯度反向传播来更新参数,论文中采用了straight-through estimator(STE)来解决这个问题,即前向传播时,只计算选定的[mask]位置处的交叉熵损失,而反向传播时则利用以下式子进行求导,其中
最终损失可表示为(
3. 实验结果与微调BERT和LPAQA对比,可超越不使用集成的LPAQA4个百分点:
?消融实验表明,两个辅助函数可以起到很好的作用:
|
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年11日历 | -2025/11/1 10:09:40- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |