摘要

1.引入实体引导序列作为eg：BERT的输入。
2.使用内部注意力概率作为evidence预测的附加特征来指导预训练语言模型的微调。

实体entity, evidence 支撑实体的句子。

一、介绍

面临问题：预训练语言模型在所有标记上给出的注意力值对于RE较为统一，限制了模型从文档到相关令牌提取信息的能力，限制了预训练LM 的有效性。
解决方法：对于文档中的每个实体，将实体附加到文档的开头来生成一个新的输入序列。（Ne个实体，就有Ne个新序列 for training)来对LM进行微调。

二、方法

1.如何生成实体引导的输入

H表示（连接头实体）D文档标记 [CLS]表征向量C用于后续的分类任务；[SEP]分开两个输入句子。
形成输入序列embedding：“[CLS]”“+H+”[SEP]”“+D+”[SEP]”

2.实体引导的RE

average后得到实体的embedding h
k-th tail entity embedding tk
h 和tk的关系的概率
头实体和所有尾实体关系的概率

微调BERT后的多标签交叉熵的loss：

3.entity and evidence-guided joint training for RE

1)Evidence Prediction

ri 表示第i类关系的relation embedding；Ns 为文档中的句子数，对s中的word的所有嵌入求平均获得嵌入s。
predict the probability j- th 句子sj 是是第i类关系的evidence
在这里插入图片描述

在 i-th relation 下evidence预测的loss：
evidence的loss
在这里插入图片描述

2)Evidence-guided Fine-tuning with BERT Attention Probabilities

Bert的内部注意力值高的区域通常就是证据支持句，有助于证据预测，他反向来用原本的att来找evidence。bert 的最后三层行证据预测。
attention probabilities ask
句子和关系的联合嵌入：

在这里插入图片描述
loss of evidence prediction under a given i-th relation ：
证据预测的liss