[人工智能] 论文解读 | ERICA: Improving Entity and Relation Understanding for PLM via Contrastive Learning

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文解读 | ERICA: Improving Entity and Relation Understanding for PLM via Contrastive Learning -> 正文阅读

[人工智能]论文解读 | ERICA: Improving Entity and Relation Understanding for PLM via Contrastive Learning

单位：燕山大学

作者：王琴

摘要

??预训练语言模型 (PLM) 能在各种下游自然语言处理 (NLP) 任务中表现出卓越的性能。然而，传统的预训练目标并没有明确地对文本中的关系进行建模，但这对于文本理解却至关重要。为了解决这个问题，作者提出了一种新颖的对比学习框架 ERICA，以深入了解文本中的实体及其关系。作者定义了两个新的预训练任务来更好地理解实体和关系：（1）实体判别任务，用于区分给定的头部实体和关系可以推断出哪个尾实体； (2)关系判别任务，在语义上区分两个关系是否接近，这涉及复杂的关系推理。实验结果表明，ERICA 可以改善典型 PLM（BERT 和 RoBERTa）在几种语言理解任务上的性能，包括关系提取、实体类型和问答系统，在低配置的情况下效果更加显著。

1 简介

??传统的预训练目标并没有明确建模关系，但这些关系经常分布在文本中并且对于理解整个文本至关重要。为了解决这个问题，最近的一些研究试图改进 PLM，以更好地理解实体之间的关系。然而，它们主要孤立地关注句内关系，忽略了实体的理解，以及文档层面多个实体之间的交互，其关系理解涉及复杂的推理模式。根据从维基百科中采样的人工注释语料库的统计数据，至少有 40.7% 的关系需要从多个句子中提取。
在这里插入图片描述

以图1为例，要理解““Guadalajara is located in Mexico”，需要综合考虑以下线索：
(i) “Mexico”是第 1 句中““Culiacán”所在的国家； (ii) “Culiacán”是第 6 句中位于“Panamerican Highway”上的铁路枢纽； (iii) 从句子 6 能得到“Panamerican Highway”连接“Guadalajara”。从这个例子中，我们可以得到要捕捉文本中的关系主要有两个挑战：

1.理解一个实体要综合考虑它与其他实体的关系。在该示例中，出现在句子 1、2、3、5、6 和 7 中的实体“Culiacán”在找出答案方面起着重要作用。要理解“Culiacán”，应该考虑它所有连接的实体以及它们之间的各种关系。
2.理解一个关系应该要考虑文本中复杂的推理。例如，要理解示例中的复杂推理链，需要进行多跳推理，即通过前两条线索推断“Panamerican Highway”位于“Mexico”。

??在本文中，作者提出了 ERICA，这是一种通过对比学习提高 PLM 对实体和关系理解能力的新框架，旨在通过综合考虑实体和关系之间的相互作用来更好地捕获文本中的关系。作者定义了两个新的预训练任务：（1）实体判别任务，可以用给定的头实体和关系推断出哪个是尾实体。它通过考虑每个实体与文本中其他实体的关系来提高对每个实体的理解； (2)关系判别任务，从语义上区分两个关系是否接近。通过构建具有文档级远程监督的实体对，以隐式的方式考虑复杂的关系推理链，从而提高对关系的理解。作者还对一系列语言理解任务进行了实验，包括关系提取、实体类型标识和问答系统。实验结果表明，ERICA 提高了典型 PLM（BERT 和 RoBERTa）的性能并优于基线，尤其是在资源低配置时，这表明 ERICA 有效地提高了 PLM 对实体和关系的理解，并捕获了文本内的关系。

2 方法

2.1 预备

??ERICA 利用来自外部知识库的远程监督在大规模未标记语料库上进行训练。 D = {di}^|D|_i=1 表示文档集合，Ei = {e_ij }^{|zi |}_j=1表示d_i中的所有命名实体，其中e_ij是d_i中第j个实体。对于每个d_i，列举所有 (e_ij , e_ik )，并把它们的对应关系记录到K中，值为r_ij^k,并得到一个元组T_i = { t_jkⁱ=(d_i,e_ij,r_jkⁱ,e_ik) }，其中 K 中没有关系的那些实体对分配 no_relation。然后就可以得到这些文档的整体元组集 T = T₁ $\bigcup$ T₂ $\bigcup$ … $\bigcup$ T_|D| 。正元组集 T ⁺ 是通过从 T 中删除所有具有 no_relation 的元组来构造的。受益于文档级远程监督，包括句内（相对简单的情况）和句间实体对（较难的情况），其关系理解涉及跨句、多跳或共指推理，即，T⁺ = T⁺_single + T⁺_cross

2.2 实体和关系表示

??对于每个文档 d_i，首先使用 PLM 对其进行编码并获得一系列隐藏状态 {h₁, h₂, …, h_|di|}，然后对 e_ij所在token进行平均池化操作获取局部实体表示。注意e_ij可能在 d_i 中出现多次，e_ij的第 k 次出现，包含从索引 n^k_start 到 n^k_end 的标记，表示为：
mkeij = MeanPool(hnkstart , ..., hnkend )。 (1)

??为了聚合有关e_ij的所有信息，将每次出现 m^k_eij 的所有表示平均化为全局实体表示_eij。并将_eij1 和_eij2 进行连接来表示它们的关系，即rⁱ_j1j2 =[e_ij1;e_ij2]。

2.3 实体判别任务

??实体判别 (ED) 任务时在给定头实体和关系的情况下推断文档中的尾实体。通过将文本中的真实尾部实体与其他实体区分开来，使得PLM 通过考虑实体与其他实体的关系来理解实体。如图2所示，首先从T⁺选取一个tⁱ_jk元组。为了告知 PLM 要以哪个主要实体和关系为条件，连接了rⁱ_jk ，e_ij, 并在d_i前加入了 {sep} token。然而，作者根据经验发现直接优化后验函数不能很好地考虑实体之间的关系。因此选择借鉴对比学习的思想，推动正样例（e_ij , e_ik ）的表示比负样本更接近，ED 任务的损失函数可以表述为：
图图图图图

其中 cos(·,·) 表示两个实体表示之间的余弦相似度，τ是一个超参数。

2.4 关系判别任务

??关系判别（RD）任务旨在区分两个关系在语义上是否接近。与现有的关系增强 PLM 相比，我们采用文档级而不是句子级的远程监督来进一步使 PLM 理解现实世界场景中的复杂推理链，从而提高 PLM 对关系的理解。如图 3 所示，训练使得具有相同关系的实体在语义空间中更接近。在实践中，线性采样元组对 t_A = (d_A,e_A1, r_A, e_A2) 和t_B = (d_B,e_B1, r_B, e_B2), 其中 rA= rB。使用前文提到的方法，可以得到tA和tB的关系表示r_tA和r_tB。为了区分正例和负例，类似地采用对比学习并定义 RD 任务的损失函数如下：
在这里插入图片描述

2.5 总体目标

??为了避免对一般语言理解能力的灾难性遗忘，作者将掩码语言建模任务 (LMLM) 与 ED 和 RD 任务一起训练。因此，总体学习目标制定如下：
L=LED +LRD +LMLM。 (4)

??值得一提的是，作者还尝试屏蔽实体来避免简单地重复学习实体链接关系。然而，并没有通过这种掩蔽策略观察到性能提升。因此推测，在文档级设置中，由于文档级远程监督的更好的覆盖范围和通用性，PLM 很难过拟合记忆实体提及。此外，屏蔽实体在预训练和微调之间造成了差距，这可能是以前关系增强 PLM 的一个缺点。

3 实验

3.1 远程监督数据集构建

??利用英语维基百科和维基数据的远程监督构建了预训练数据集。首先，使用 spaCy7 执行命名实体识别，然后将这些实体以及维基百科与维基数据项的超链接连接起来，从而获得每个实体的维基数据 ID。不同实体之间的关系通过查询维基数据进行远程注释。它在命名实体识别方面达到了 84.7% 的 F1 分数，在关系抽取方面达到了 25.4% 的 F1 分数。

3.2 关系抽取任务

??关系提取旨在从预定义的关系集中提取两个实体之间的关系。作者在文档级和句子级上进行了实验。在此详细介绍文档级RE。

??对于文档级 RE，选择了 DocRED数据集，它需要阅读文档中的多个句子并综合所有信息来识别两个实体之间的关系。以与预训练阶段相同的方式对所有实体进行编码。通过在两个实体表示之上添加一个双线性层来获得关系表示。作者选择了以下基线进行实验：

(1) CNN 、BILSTM 、BERT 和 RoBERTa ，它们是广泛用作关系提取任务的文本编码器；
(2) HINBERT ，它采用分层推理网络利用来自不同来源的丰富信息；
(3) CorefBERT，提出了一种预训练方法来帮助 BERT 捕捉上下文中的共指关系；
(4) SpanBERT
(5) ERNIE ，将 KG 信息纳入 BERT 以增强实体表示；
(6) MTB 和 CP 通过远程监督为 BERT 引入了句子级关系对比学习。

从下表1可以得到：

ERICA 在每个监督数据大小上都显着优于所有基线，这表明 ERICA 可以通过隐式考虑实体的复杂性来更好地理解文档中实体之间的关系；
MTB 和 CP 的结果都比 BERT 差，这意味着句子级预训练，缺乏对复杂推理模式的考虑，在一定程度上损害了 PLM 在文档级 RE 任务上的性能；
ERICA 在较小的训练集上以更大的幅度优于基线，这意味着 ERICA 在对比学习中获得了相当好的文档级关系推理能力，从而在少资源配置下获得更广泛的改进。

图图图图图图

3.3 问答系统

??问答系统旨在在给定问题的文本中提取特定的答案范围。作者对多项选择和提取 QA 进行了实验。

Multi-choice QA：对于 Multi-choice QA，选择 WikiHop 数据集，它要求模型在阅读多个文档并进行多跳推理后回答实体的特定属性。它具有标准设置和屏蔽设置，后者设置用随机 ID 屏蔽所有实体以避免信息泄漏。首先将问题和文档连接成一个长序列，然后找到文档中实体的所有出现，将它们编码为隐藏表示，并通过对这些隐藏表示应用均值池来获得全局实体表示.最后，在实体表示之上使用分类器进行预测。作者选择了以下基线进行实验：

(1) FastQA 和 BiDAF ，它们是广泛使用的问答系统；
(2) BERT、RoBERTa、CorefBERT、SpanBERT、MTB和CP。

??从表 4 中列出的结果可以看出ERICA 在两个设置中都优于基线，表明 ERICA 可以更好地理解文档中的实体及其关系，并根据查询提取真实答案。掩码设置的显着改进也表明 ERICA 可以更好地执行多跳推理来合成和分析来自上下文的信息，而不是依赖实体。
在这里插入图片描述

?提取 QA：对于提取 QA，采用了三个广泛使用的数据集：SQuAD 、TriviaQA 和 NaturalQA。遵循的 QA 设置：将给定的问题和段落连接成一个长序列，通过 PLM 对序列进行编码，并采用两个分类器来预测答案的开始和结束索引。选择了 BERT、RoBERTa、MTB 和 CP 作为基线。从表 5 中列出的结果可以观察到 ERICA 优于所有基线，表明通过增强实体和关系理解，ERICA 更有能力捕获文本关系事实和合成实体信息。这种能力进一步改进了用于问答的 PLM。
在这里插入图片描述

4 消融研究

??为了证明 ERICA 的卓越性能不是由于其在掩码语言建模上的更长的预训练（2500 步），通过仅优化 LMLM（去除下一个句子预测（-NSP））。此外，为了探索 LED 和 LRD 如何影响性能，仅保留这两种中的一种并比较结果。最后，为了评估句内和句间实体对对 RD 任务的贡献，比较了仅采样句内的实体对 (LTs+,Ts+) 或句间实体对 RD (LTc+,Tc+)，并在 RD 预训练期间对它们进行采样 (LRD)。作者在 DocRED、WikiHop（屏蔽版本）和 FIGER 上进行实验。从表 6 所示的结果中可以得出：
在这里插入图片描述

(1)额外的预训练（-NSP）对整体改进的贡献很小。
(2) 对于DocRED和FIGER来说，LED或LRD都是有利的，将它们结合起来可以进一步提高性能；对于 WikiHop，LED 占主导地位，而 LRD 对性能略有损害，这可能是因为问答更类似于尾部实体识别过程，而关系识别过程可能与之冲突。
(3) 对于LRD，句内和句间实体对都有贡献，这表明将两者结合起来对于PLM全面理解文本中实体之间的关系是必要的。此外还发现，当这两个辅助目标仅添加到微调阶段时，模型并没有性能提升。原因是下游训练数据中实体和关系的大小和多样性是有限的。相反，在大型语料库上进行远程监督的预训练为增加训练示例的多样性和数量提供了一种解决方案。

5 结论

??在本文中，作者介绍了 ERICA，这是 PLM 通过对比学习提高实体和关系理解的通用框架。并证明了此方法在几种语言理解任务上的有效性，包括关系提取、实体类型识别和问答系统。实验结果表明，ERICA 优于所有基线，尤其是在少资源配置下，这意味着 ERICA 帮助 PLM 更好地捕获文本中的关系事实并合成有关实体及其关系的信息。

代码地址：https:// github.com/thunlp/ERICA

论文地址：https://arxiv.org/abs/2012.15022