IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文笔记:PPT: Pre-trained Prompt Tuning for Few-shot Learning -> 正文阅读

[人工智能]论文笔记:PPT: Pre-trained Prompt Tuning for Few-shot Learning

论文链接:https://arxiv.org/abs/2109.04332

代码开源:暂无

1. 介绍

?????????两种主流的微调(FT)方法:面向任务的微调(传统微调)和面向提示的微调,如上图b、c所示。两种方法都需要微调整个模型的参数,但随着模型规模的快速增长,为每个下游任务微调一个完整的大型模型变得越来越昂贵。

????????为此,谷歌提出 prompt tuning (PT) 概念,如上图d所示。具体来说,PT 使用由连续嵌入组成的软提示(soft prompt)而不是硬提示(hard prompt)。这些连续的提示嵌入通常是随机初始化和端到端学习的。同时,PT固定了预训练模型的参数,只训练软提示。

? ? ? ? 然而,论文的试点实验表明,尽管在全量数据下,PT可以达到和FT相当的效果,但在few-shot设置下的表现却比FT差很多。同时发现:(1)verbalizer的选择对性能有很大的影响; (2) 简单地用具体词嵌入初始化软提示并不能提高性能,但 (3) 软提示和硬提示的结合是有帮助的; (4)所有这些方法都不能很好地处理few-shot下的提示调整问题。上述观察表明,为大规模预训练模型找到合适的提示并非易事,精心设计的软提示token初始化至关重要。

????????为了帮助模型找到合适的软提示,这篇论文提出Pre-trained Prompt Tuning (PPT):在大规模未标记语料库上使用自监督任务预训练软提示。为了确保预训练软提示的泛化性,论文将典型的分类任务归类为三种:句子对分类、多项选择分类和单文本分类,每种都单独设计一个自监督的预训练任务。此外,论文指出,可以将所有下游分类任务都统一到多项选择分类这种格式中。

2.?Pre-trained Prompt Tuning (PPT)

分别为三种分类任务设计预训练时使用的PVP(Pattern-Verbalizer Pairs):

1)句子对分类

为了保证通用性,论文将预训练任务NSP扩展成了3分类任务,标签y = \left \{ 0,1,2 \right \},这些标签分别表示两个句子之间的语义关系是相干的(标签为2)、相似的(1)和不相关的(0)。为了从未标注的文档构造标签,论文将彼此相邻的两个句子的标签设置为 2,将来自同一文档但不相邻的句子标签设置为 1,将来自不同文档的句子标签设置为 0。选择的PVP如下:

标签词?\left \{ no,maybe,yes \right \}?对应标签?\left \{ 0,1,2 \right \},软提示拼接在f_{i}^{pre}(x)?前,在预训练过程中逐步更新。

2)多项选择分类

多项选择任务将query和多个候选答案作为输入,论文设计了一种下一句选择任务(next sentence? selection task)来为此类任务预训练软提示:

给定一个句子作为query??S_{q}?,模型被训练从6个候选句子(S_{1}\sim S_{6})中选出一个与其邻近的句子,因此,标签集合为y=\left \{ 1,2,3,4,5,6 \right \}。这些候选句子包括正确答案、来自同一文档但不与query相邻的一个句子以及来自其他文档的四个句子。选择的PVP如下:

标签词?\left \{ A,B,C,D,E,F \right \}?对应标签?\left \{ 1,2,3,4,5,6 \right \},软提示拼接在f_{i}^{pre}(x)?前,在预训练过程中逐步更新。

3)单句子分类

先借助一个训练好的小模型为训练集打好伪标签,然后再进行预训练,?选择的PVP如下:

标签词\left \{ terrible,bad,maybe,good,great \right \}对应标签?\left \{ 1,2,3,4,5 \right \},软提示拼接在f_{i}^{pre}(x)?前,在预训练过程中逐步更新。

统一任务格式:?将上述三种PVP统一为一种格式——多项选择分类。

统一使用2)中的PVP进行预训练,训练好的软提示在三类任务中都可以使用。

3. 实验结果

论文初始化了100个token作为软提示(为何是100个?没说~),英语数据集采用了T5-XXL模型进行PT与FT之间的对比,中文数据集则是采用了CPM-2,两个模型的参数量都是110亿,隐状态维度为4096。因此,PT需要训练的参数只有100\times 4096\approx 410K,是FT参数(110亿)的0.003%。

Vanilla PT:使用从正态分布中随机初始化的软提示;

Hybrid PT:软提示和硬提示联合使用;

LM Adaption:谷歌提出的策略,待补充;

Hybrid PPT:预训练好的软提示和硬提示联合使用;?

Unified PPT:统一预训练的软提示。

根据上图,可以得出以下结论:

1. 随着参数数量的增加,FT 的性能有所提升。

2. 在大多数数据集中,PPT 明显优于 Vanilla PT 和 LM Adaption。

3. PPT?在所有中文数据集和大多数英文数据集上都优于 10B 模型的 FT。

4. PPT?在大多数数据集上会产生较小的方差,相比之下,一般的 few-shot 学习常存在不稳定性,例如 Vanilla PT。

5.?Unified PPT 可以达到与 PPT 和 Hybrid PPT 相当甚至更好的性能。

参考文献:?

清华刘知远、黄民烈团队力作:一个「PPT」框架,让超大模型调参变简单

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-19 11:52:51  更:2021-10-19 11:56:05 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 8:35:43-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码