[人工智能] Matching the Blanks: Distributional Similarity for Relation Learning 论文阅读笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Matching the Blanks: Distributional Similarity for Relation Learning 论文阅读笔记 -> 正文阅读

[人工智能]Matching the Blanks: Distributional Similarity for Relation Learning 论文阅读笔记

一、核心思想

基于Harris等人的分布式假说，作者认为，如果两个关系表示包含相同的实体对，那么两个关系表示应该是相似的。运用大量的无监督数据，在BERT的预训练过程中（Masked LM任务）额外添加MTB（Matching The Blanks）任务，在预训练阶段提升了关系抽取的性能。

二、问题描述

本文定义一个关系表述（relation statement）为 r =（x，s₁，s₂）。

其中 x = [x₀…x_n]，为一个句子中的token序列。x₀为[CLS]，x_n为[SEP]，分别表示开始标志和结束标志。

s₁ =（i，j），s₂ =（k，l），i，j，k，l均为整数，表示句子中实体的位置。[x_i…x_j-1]表示一个实体，[x_k…x_l-1]表示另一个实体。

目标是习得一个映射函数：在这里插入图片描述
h_r是一个固定维度（d维）的向量。

三、对基于BERT的一些关系编码器的评估

这部分主要研究两个问题：
1.在BERT输入中，应该如何表示实体（主要是实体的位置信息）。
2.如何从BERT的输出中得到固定维度的表示。

对于问题1，有三种方案：
① STANDARD：标准输入，不使用实体的位置信息，即不使用s₁和s₂；
② POSITIONAL EMB：位置嵌入，在BERT的segmentation embeddings基础上，将**s₁**范围的token设为一类POSITIONAL EMB，**s₂**范围的token设为一类POSITIONAL EMB，其余token设为一类POSITIONAL EMB；
③ ENTITY MARKERS：实体位置标记，在实体两侧添加新的token表示实体位置：

在这里插入图片描述
同时更新s₁和s₂：s₁ =（i+1，j+1），s₂ =（k+3，l+3）。

设经过BERT模型后，其最终输出的隐状态为H = [h₀, …h_n]
对于问题2，也有三种方案：
④ [CLS]：使用[CLS]的隐状态**h₀**作为关系表示；
⑤ MENTION POOL：对 s₁ 和 s₂ 对应的隐状态应用maxpolling操作，得到两个表示，再将两个表示连接作为关系表示：
h_e1 = MAXPOOL（[h_i…h_j-1]）
h_e2 = MAXPOOL（[h_k…h_l-1]）
h_r = <h_e1|h_e2>

⑥ ENTITY START：在第一个问题使用③（ENTITY MARKERS）的情况下，将E1_start和E2_start二者的隐状态连接，作为关系表示：
h_r = <h_i|h_k+2>
注意⑥只能与③结合，不能与①或②结合。

两个问题共有3*3=9种组合方式，除去②④、①⑥、②⑥三种，还剩6种，如图所示：

在这里插入图片描述
得到BERT的输出后，将其送入一个全连接层。该全连接层要么①包含线性激活，要么②执行层归一化。本文将这一选择视为模型的一个超参数：

超参数的选择：
在这里插入图片描述
结果显示，③+⑥的组合总能获得最好的效果：

在这里插入图片描述
在本文的剩余部分，将统一使用③+⑥的组合（命名为BERT_EM）。

四、Matching the Blanks方法的应用

本文旨在通过预训练关系表示提示关系抽取的性能，那么就需要大量的无监督数据。

可以使用实体链接系统构造数据集（具体方法参见论文原文4.3节）

在这里插入图片描述
其中**r =（x，s₁，s₂）**是关系表述，e₁，e₂是实体。

文章观察到，对于一对关系表述r和r’，如果二者表达了相似的关系，那么二者的内积f_θ(r)^Tf_θ(r’)应该较高，否则，内积较低。并且，对于r =（x，s₁，s₂），r’ =（x’，s’₁，s’₂），若s₁=s’₁，s₂=s’₂，那么 r和r’ 很有可能编码了相同的关系。

本文定义了一个二元分类器来确定两个关系表述是否编码了相同的关系：

在这里插入图片描述
这里l=1表示两者表述相同的关系。l=0表示两者表述不同的关系。

（这里有一个疑问，如果r和r’表述了相同的关系，内积f_θ(r)^Tf_θ(r’)应该较高，但根据公式计算出的概率却会变低？？？？？）

为了得到f_θ(r)中的参数，定义了一个损失函数：

在这里插入图片描述
类似于一个二分类的交叉熵损失。在训练过程中最小化损失函数即可得到模型参数。

但是还有一个问题，该损失函数可以被实体链接系统完美地最小化，因为最小化该损失函数，其实就是在e₁=e₁’,e₂=e₂’时最大化概率p(l=1|r,r’)。（这里理解的还不是很透彻），因此需要对数据集进行改进。

本文的做法是，对句子中的实体，以α的概率（α=0.7）将实体替换为特殊标记【BLANK】。（注意，这里替换的是关系描述r中所包含的x中的实体token，而不是e₁和e₂）

这样，就得到了新数据集在这里插入图片描述
论文模型使用Bert Large的参数进行初始化，同时使用masked LM任务损失和Matching the Blanks任务损失进行预训练，预训练后，再在具体的关系抽取数据集上进行fine-tune。

但是，Matching the Blanks任务的损失函数考虑任意两个关系表述，这会导致极高的复杂度，为了解决这个问题，本文采用了噪声对比估计方法。将两个实体一致的关系表述对作为正样本，从所有关系语句对中均匀随机抽样，或者从只共享一个实体的关系语句中抽样，作为负样本。控制正样本和负样本的比例均为50%左右。
如：

在这里插入图片描述