IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Paramenter-Efficient Transfer Learning for NLP -> 正文阅读

[人工智能]Paramenter-Efficient Transfer Learning for NLP

目录

Abstract

Introduction

Adapter tuning for NLP

Instantiation for Transformer Networks


Abstract

由于微调大的预训练模型很贵,且对不同的任务都需要进行针对性的微调。本文提出了适配器模块的迁移,相比微调需要优化100%的参数,适配器冻结了原始预训练模型的参数,加入了新的适配器模块,且只需要优化3%左右的参数就可以达到和微调相似的性能。

Introduction

从大模型中迁移学习在许多任务(文本分类、抽取式问答)上取得了sota的性能。在本文中,我们处理了在线设置的问题,任务以流式的方式到达。本文的目标构建一个系统可以不需要额外的训练一个新模型就可以处理好每个任务。这种需求被应用在云服务中,模型需要处理顾客的在队列中的不同类型的任务。为此,我们提出迁移学习策略可以获得紧凑和可扩展的下游模型。紧凑的模型可以为每个任务仅使用少量的额外的参数就可以解决多种任务。可扩展的模型可以增量式的解决许多新的任务并且不会忘记之前的任务。我们的模型达到了这样的效果并且没有损失性能。

NLP中两个常用的迁移学习技术式基于特征的迁移和微调两种。其中,基于特征的迁移使用预训练出来的词、句子、段落嵌入作为特征输入到神经网络中进行使用,微调的方法使用预训练好的模型权重然后在下游任务上进行微调。最近的工作表明微调比基于特征的迁移性能更好。

基于特征和微调的方法对每个任务要求新的权重。预训练模型的低层网络在任务之间被共享那么微调更加有效。然而我们提出的基于适配器的调优方法更加有参数高效性。

适配器是添加在预训练网络中间层的新模块。基于适配器的方法和基于特征以及微调的方法由以下的不同点。基于特征的方法是使用预训练的参数(例如Glove的词向量)放到下游任务中,进行调整。而微调是对预训练的模型权重直接进行调整。基于适配器的方法是向模型中加入新的参数,然后只对新的参数进行调优,冻结原始的模型参数。

基于适配的调优和多任务以及持续学习不太一样。多任务学习也是紧凑的模块,但是多任务学习要求同时学习所有的任务,而基于适配器的调优则不需要。持续学习通常要求学习一个永无止境的任务流。这种范式的缺点在于会忘记之前学习到的知识,而基于适配器的方法则不要求任务之间的交互,且冻结了共享的参数。

Adapter tuning for NLP

基于适配器的方法有以下三个优点:1、获得好的性能;2、允许顺序的训练不同的任务,不要求同时的学习所有的任务;3、只需要额外的少量参数就可以实现。这些属性在云服务的上下文中特别有用,在云服务中,许多模型需要对一系列下游任务进行训练,因此高度的共享是可取的。

适配器模块有两个主要特性:少量的参数和一个接近标识的初始化。与原始网络的图层相比,适配器模块需要较小。这意味着当添加更多的任务时,总模型大小增长相对较慢。对于适应模型的稳定训练,需要近恒等初始化;我们在3.6节对此进行实证研究。通过将适配器初始化为一个接近身份的函数,原始网络在训练开始时不受影响。在训练期间,适配器可能会被激活,以改变整个网络中激活的分布。如果不需要,适配器模块也可以被忽略;在第3.6节中,我们观察到一些适配器对网络的影响比其他的更大。我们还观察到,如果初始化偏离恒等函数太远,模型可能无法训练。

Instantiation for Transformer Networks

我们为文本transformer实例化基于适配器的调优。如下图所示,

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-08-06 10:44:55  更:2022-08-06 10:46:21 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/29 8:34:58-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计