[人工智能] Paramenter-Efficient Transfer Learning for NLP

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Paramenter-Efficient Transfer Learning for NLP -> 正文阅读

[人工智能]Paramenter-Efficient Transfer Learning for NLP

Abstract

Introduction

Adapter tuning for NLP

Instantiation for Transformer Networks

Abstract

由于微调大的预训练模型很贵，且对不同的任务都需要进行针对性的微调。本文提出了适配器模块的迁移，相比微调需要优化100%的参数，适配器冻结了原始预训练模型的参数，加入了新的适配器模块，且只需要优化3%左右的参数就可以达到和微调相似的性能。

Introduction

从大模型中迁移学习在许多任务(文本分类、抽取式问答)上取得了sota的性能。在本文中，我们处理了在线设置的问题，任务以流式的方式到达。本文的目标构建一个系统可以不需要额外的训练一个新模型就可以处理好每个任务。这种需求被应用在云服务中，模型需要处理顾客的在队列中的不同类型的任务。为此，我们提出迁移学习策略可以获得紧凑和可扩展的下游模型。紧凑的模型可以为每个任务仅使用少量的额外的参数就可以解决多种任务。可扩展的模型可以增量式的解决许多新的任务并且不会忘记之前的任务。我们的模型达到了这样的效果并且没有损失性能。

NLP中两个常用的迁移学习技术式基于特征的迁移和微调两种。其中，基于特征的迁移使用预训练出来的词、句子、段落嵌入作为特征输入到神经网络中进行使用，微调的方法使用预训练好的模型权重然后在下游任务上进行微调。最近的工作表明微调比基于特征的迁移性能更好。

基于特征和微调的方法对每个任务要求新的权重。预训练模型的低层网络在任务之间被共享那么微调更加有效。然而我们提出的基于适配器的调优方法更加有参数高效性。

适配器是添加在预训练网络中间层的新模块。基于适配器的方法和基于特征以及微调的方法由以下的不同点。基于特征的方法是使用预训练的参数(例如Glove的词向量)放到下游任务中，进行调整。而微调是对预训练的模型权重直接进行调整。基于适配器的方法是向模型中加入新的参数，然后只对新的参数进行调优，冻结原始的模型参数。

基于适配的调优和多任务以及持续学习不太一样。多任务学习也是紧凑的模块，但是多任务学习要求同时学习所有的任务，而基于适配器的调优则不需要。持续学习通常要求学习一个永无止境的任务流。这种范式的缺点在于会忘记之前学习到的知识，而基于适配器的方法则不要求任务之间的交互，且冻结了共享的参数。

Adapter tuning for NLP

基于适配器的方法有以下三个优点：1、获得好的性能；2、允许顺序的训练不同的任务，不要求同时的学习所有的任务；3、只需要额外的少量参数就可以实现。这些属性在云服务的上下文中特别有用，在云服务中，许多模型需要对一系列下游任务进行训练，因此高度的共享是可取的。

适配器模块有两个主要特性：少量的参数和一个接近标识的初始化。与原始网络的图层相比，适配器模块需要较小。这意味着当添加更多的任务时，总模型大小增长相对较慢。对于适应模型的稳定训练，需要近恒等初始化；我们在3.6节对此进行实证研究。通过将适配器初始化为一个接近身份的函数，原始网络在训练开始时不受影响。在训练期间，适配器可能会被激活，以改变整个网络中激活的分布。如果不需要，适配器模块也可以被忽略；在第3.6节中，我们观察到一些适配器对网络的影响比其他的更大。我们还观察到，如果初始化偏离恒等函数太远，模型可能无法训练。