Enhanced Language Representation with Label Knowledge for Span Extraction
01 领域
NER领域,文中给出的任务形式是span extraction,即从plain text中抽取text span。 文中主要研究了如何融入外部信息?(label knowledge) 任务建模形式:QA范式。(问答的形式)
插一个总结
文章的创新是label 的text的融合方法。两个encoder和label的attention融合。 但文中,没有给出是使用一个encoder同时编码text和Q和两个不同encoder编码Q和A的效果对比。
在语义融合中,对比了,average pooling和使用sent—level【CLS】做信息融合的性能和文中使用的sent token level+attention的性能对比。
02 前言
在已有的融入模式中,前人的做法,Q和A采用同一个encoder,一般模型的输入是【CLS】+Q+【SEP】+A。 文中的做法是采用了两个share paramter的encoder,编码Q和A,之后,设置了信息融合步骤,融合两类信息。 
03文中模型
模型由语义编码模块、语义融合模块和跨度解码模块三个模块构成。 
3.1 语义编码模块
将本X 和所有标签类别的注释 Y 作为输入。这两个输入分别由两个编码器网络处理,其主干为 BERT (Devlin et al., 2019)。两个编码器在处理两个输入时共享权重(称为共享编码器) 
3.2 语义融合模块
共享编码器生成的文本嵌入和标签嵌入由语义融合模块融合,以得出文本的标签知识增强嵌入。根据注意力机制,得到每个class 下的x的表示。 (1)通过该线性层,映射到相同的特征空间 (2)attention计算,采用dot product计算注意力分值,在通过softmax function得到attention score。
 补充:其中的label annotation部分,是由人制定的。 
(3)计算每个类别下的text的细粒度特征。 
3.2 跨度解码模块
分别计算,每个类别下的span的start和end的index。 
train
flat和nest两种。设置了两种损失函数。 flat如下:  nest如下:

loss函数


|