Enhanced Language Representation with Label Knowledge for Span Extraction

01 领域

NER领域，文中给出的任务形式是span extraction，即从plain text中抽取text span。
文中主要研究了如何融入外部信息？（label knowledge）
任务建模形式：QA范式。（问答的形式）

插一个总结

文章的创新是label 的text的融合方法。两个encoder和label的attention融合。
但文中，没有给出是使用一个encoder同时编码text和Q和两个不同encoder编码Q和A的效果对比。

在语义融合中，对比了，average pooling和使用sent—level【CLS】做信息融合的性能和文中使用的sent token level+attention的性能对比。

02 前言

在已有的融入模式中，前人的做法，Q和A采用同一个encoder，一般模型的输入是【CLS】+Q+【SEP】+A。
文中的做法是采用了两个share paramter的encoder，编码Q和A，之后，设置了信息融合步骤，融合两类信息。
在这里插入图片描述

03文中模型

模型由语义编码模块、语义融合模块和跨度解码模块三个模块构成。
在这里插入图片描述

3.1 语义编码模块

将本X 和所有标签类别的注释 Y 作为输入。这两个输入分别由两个编码器网络处理，其主干为 BERT (Devlin et al., 2019)。两个编码器在处理两个输入时共享权重（称为共享编码器）
![在这里插入图片描述](https://img-blog.csdnimg.cn/1a361061644b4d8892e579a58f06b593.png# center)

3.2 语义融合模块

共享编码器生成的文本嵌入和标签嵌入由语义融合模块融合，以得出文本的标签知识增强嵌入。根据注意力机制，得到每个class 下的x的表示。
（1）通过该线性层，映射到相同的特征空间
（2）attention计算，采用dot product计算注意力分值，在通过softmax function得到attention score。

在这里插入图片描述
补充：其中的label annotation部分，是由人制定的。