| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【ACL2021】Target-Oriented Fine-tuning for Zero-Resource Named Entity Recognition -> 正文阅读 |
|
[人工智能]【ACL2021】Target-Oriented Fine-tuning for Zero-Resource Named Entity Recognition |
【ACL2021】Target-Oriented Fine-tuning for Zero-Resource Named Entity Recognition
AbstratZero-source的命名实体识别(NER)受特定领域(domain)和特定语言(language)的数据稀缺的困扰。因此许多任务通过在不同的相关任务上进行微调实现基于知识迁移的Zero-source的命名实体识别。 本文在domain、language和task进行知识迁移解决上述问题,并强调他们之间的联系。本文提出四个有效的guidelines来引导知识迁移和任务微调。基于这些guidelines,本文设计了一个目标导向的微调框架( target-oriented fine-tuning (TOF) framework)从以上三方面获取各种数据。 本文方法在六种基准模型,实验表明,我们的方法比起cross-domain和cross-lingual场景中,都有不错的效果。 Introduction
如下理想的训练数据被看作是Targets,这些数据满足以下两个条件:
因此这些数据可以被用于从task、laguage和domain三方面来增强数据或者迁移知识。因此domain和language可以被分为source和target两个集合。主流的 zero-resource NER 就是从source domain/language迁移到target。如,从新闻到推特1、从英语到西班牙语2,其中前者是cross-domain,后者是cross-lingual。 最近的主流方法是微调模型,然后指出目前的cross-domain和cross-lingual的NER任务的两个问题:
因此本文提出的四条指引(Guideline):
然后得出了一个用于zero-resource NER任务的目标导向的微调架构(TOF)。该架构应用了三种任务(MLM、MRC、NER)来捕捉三个方面的知识。 Background任务定义:zero-source NER就是从标注的源预料中学习到的知识,迁移到无标注的目标领域数据中。 因此,以下三种语料可被用于训练:
本文方法的大概框架启发来自3,以下是大概的步骤: 1.领域微调 通过训练一个MLM来对上下文词嵌入进行微调,使之包含目标领域的数据。 2.任务微调 微调上下文词嵌入并学习序列标注任务的预测模型。 Our Approach首先解释Domain、Language和Task三个方面,结合图1: Domain比如:Twitter,在图1中,“@”只存在于推特文本中,而“#”用来强调某物 Language英语:As the tennis player is popularly known in Brazil Task表示对于不同任务的手工标注。如图一中,NER任务中的LOC、ORG等标签;MRC任务中,“W NJ"被作为问题的回答! 四个使用的指引Background部分有提到,这些复制一下原文:
Target-Oriented Fine-tuning Framework该框架包含了两个部分:
以上所有都遵循上面的四个指引,具体看图2: Knowledge Transfer以上包含了六种数据:
其中,1、3、5是目标领域;2、4、6是源领域。 对于指引一,就是如上分成的积累数据;对于指引二,要考虑source和target domain/language之间的差异,可以使用source和target的混合数据进行微调,另外还可以将源数据转化为目标数据的形式(如把源语言翻译成目标语言)。 Fine-tuning Process基于AdaptaBERT,我们提出了一个在domain-tuning 和 task-tuning之间的微调任务,因此包含了三个微调任务。
我们模型使用 D t , n o D_{t,no} Dt,no?和 D s , n o D_{s,no} Ds,no?的混合数据集进行训练,使用3中的策略。
根据指引三,我们加入了一个span extraction的MRC任务。然后又以下几个好处:
为了微调上下文的词嵌入和学习预测模型,将词向量输入线性分类层并使之每个token概率最大化。 Training训练步骤要从可得到的数据和Target中知识的差距。所以包含了三个步骤:
通过连续的训练MLM f ( ? , θ m l m ) f(·, θ_{mlm}) f(?,θmlm?)、MRC g ( ? , θ m r c ) g(·, θ_{mrc}) g(?,θmrc?)和NER$h(·, θ_{ner}) $来微调上下文词向量。(Step-1~3)
根据指引四,我们使用训练得到的NER模型(Step-3)来生成假的NER无标注数据 D ^ t , n \hat D_{t,n} D^t,n?,然后通过假数据微调我们的NER模型$h(·, θ^{(0)}_{ner}) $。
为了充分利用假数据和模仿我们的Targets,持续的微调MRC和NER模型使用我们的假数据(Step-6~7),然后假的数据有以下三个特点:
在Step8-9中,我们利用微调的NER模型来优化假数据,并且把它当作训练数据。 经过T轮迭代,我们NER模型 h ( ? , θ ( T ) n e r ) h(·, θ(T)_{ner}) h(?,θ(T)ner?)在无标注数据集上进行预测。 Experiments
本文方法实验结果: 和SpanBERT对比效果: 思考本文主要思路是通过Cross-Lingual和Cross-Domain的思想来解决NER任务中数据缺乏的问题。通过以上两个Cross任务,其中包含三个微调任务,然后这三个微调模型的的参数是逐层继承关系。再利用所得模型生成假数据,进行迭代地学习充分利用这些假数据,来获得一个NER模型。 Reference
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/22 10:10:07- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |