开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【知识图谱论文】HackRL：用于跨图知识融合和协作推理的分层注意强化学习 -> 正文阅读

[人工智能]【知识图谱论文】HackRL：用于跨图知识融合和协作推理的分层注意强化学习

Article

文献题目：HackRL: Reinforcement learning with hierarchical attention for cross-graph knowledge fusion and collaborative reasoning
文献时间：2021
发表期刊：Knowledge-Based Systems

摘要

旨在通过知识图（KG）推断隐含事实的推理是各种基于知识的智能服务的关键和基础任务。随着多个分布式和互补的 KGs，有效和高效地捕获和融合来自不同 KGs 的知识正成为一个越来越重要的课题，但尚未得到很好的研究。为了填补这一空白，我们建议使用实体对齐识别的锚链接探索跨 KG 关系路径，以实现多个 KG 的知识融合和协作推理。为了解决不同 KG 的异质性，本文提出了一种基于强化学习框架的新型推理模型 HackRL，该模型结合了策略网络中的长短期记忆和分层图注意力，从历史轨迹和用于预测对应关系的异构环境。同时，利用面向实体对齐的表示学习方法，基于锚链接将不同的KG嵌入到统一的向量空间中，以减少不同向量空间的影响，提出了动作掩码和带采样路径的重新训练两种训练机制。优化训练过程，学习更成功的指示性路径。所提出的 HackRL 在由 DBpedia 构建的链接预测和事实预测任务的三个跨语言数据集上得到验证。实验结果表明，与现有方法相比，HackRL 在大多数任务上都取得了更好的性能。这项工作为融合分布式 KG 以做出更好的决策提供了一个工业上适用的框架。

引言

知识图（KGs）将非结构化知识编码为结构化的三元组，为描述概念和实体之间的复杂关系提供了一种有效的方案。近年来，随着大数据和自然语言处理的发展，已经构建了包括 YAGO [3]、DBpedia [4] 和 Freebase [5] 在内的大量 KG，其中包含数百万个关于现实的事实。世界实体和关系，例如（美国总统乔·拜登）。由于 KGs [6] 的可解释特性，它们已广泛用于各种任务，例如信息检索 [7]、问答 [8, 9] 和推荐系统 [10-12]。原始KG通常是使用从Internet收集的数据或手动收集的数据构建的；因此，即使 KG 规模很大，它们也总是会遇到知识不完整的问题。实体之间的链接可能会在 KG 中丢失，这极大地影响了下游任务的性能 [13]。预测丢失的链接对于各种基于知识的服务至关重要，这被称为知识推理任务。
到目前为止，已经提出了许多方法来处理知识推理问题，可以分为三类：基于规则的、基于嵌入的和基于路径的[14-16]。基于规则的方法使用一阶谓词逻辑或本体来表示概念，严重依赖专家知识，不适合大规模 KG。因此，最近的许多工作都集中在基于分布式表示的推理上，将实体和关系嵌入到低维向量空间中，并根据它们的嵌入预测链接。研究人员提出了大量基于张量分解[17]、翻译模型[18-20]和语义匹配的嵌入方法，在各种应用中取得了很大的进步。尽管取得了令人印象深刻的结果，但基于嵌入的方法通常难以解释，并且无法对多跳关系路径进行建模 [21]。相比之下，基于路径的推理方法找到一个关系的等价关系路径并将其作为特征来预测对应关系的存在，这更容易解释并且可以处理多跳推理问题。最近，研究人员提出用深度强化学习（DRL）[22-24]探索最具指示性的关系路径，在知识推理任务上取得了很好的效果。
然而，所有现有的方法都在单个 KG 上进行推理。实际上，通常有多个关于特定领域的 KG。更好的解决方案是关联和融合多个 KG 以提高推理性能 [25,26]。尽管如此，现有的关于多个 KG 推理的唯一研究是基于不同对齐 KG [27] 上的推理结果的集合来预测链接，其灵活性差，因为它要求预测的实体在其他 KG 中都有对。因此，如何有效、高效地整合分布式 KG 中包含的互补知识，以帮助提高每个 KG 的完整性仍然是一个问题，这涉及到识别等价知识和整合互补知识。
为了填补这一空白，我们建议探索等效的跨 KG 关系路径，以基于实体对齐的锚链接整合互补关系路径，旨在通过识别等效实体来预测不同 KG 之间的缺失链接。在多个 KG 上学习有用的关系路径的困难在于不同 KG 的特征空间是异构的，并且动作空间显着扩展。在这种情况下，现有的基于 DRL 的推理方法很难有效地学习指示性的跨 KG 关系路径。为了解决这些问题，我们提出了一个新的模型，用于多个 KG 的知识融合和协作推理，称为分层图注意力启用的跨知识图强化学习（HackRL），它结合了长短期记忆（LSTM）[28]和分层图注意力（HGA）形成策略网络，基于异构环境的综合学习制定历史相关的策略。为了减少不同 KG 之间特征异质性的影响，我们首先使用图注意力网络 (GAT) 和 TransE 模型 [29]，基于从实体对齐中识别出的锚链接将不同 KG 的实体和关系嵌入到统一的向量空间中。该代理使用基于 LSTM 和 HGA 的策略网络构建，以找到最具指示性的跨 KG 关系路径。设计了一个动作掩码机制，在每一步过滤掉不合理的动作，提高探索的成功率。同时，为了优化训练过程以学习指示性跨 KG 路径，我们设计了一种新的奖励函数，共同鼓励准确性、多样性和效率，我们对 KG 内和 KG 间路径进行采样以进行演示 [30] 以指导代理在失败时的学习。我们的贡献总结如下：
- 我们率先提出探索跨 KG 关系路径，以实现多个 KG 的知识融合和协作推理。我们提出的模型为整合、统一和增强 KG 以做出更好的基于知识的决策提供了一种有效且灵活的解决方案。
- 提出了一种新的强化学习模型，其中融合知识的协作推理由基于相同向量空间中的嵌入和精心设计的训练机制的代理驱动。
- 所提出的模型在三个具有下游任务的跨语言 KG 上进行评估。实验结果表明，所提出的 HackRL 模型优于其他基线模型，并证明了所提出的策略模块和优化方法的有效性。
本文的其余部分组织如下：第 2 节回顾了 KG 的实体对齐和知识推理的相关工作；第 3 节提供了所提出的 HackRL 模型的详细信息；第 4 节描述了实验数据集、设置和结果；第 5 节总结了论文并展示了我们未来的工作方向。

提议的 HackRL

本节描述了所提出的 HackRL 模型的概念、框架和学习过程。给出了任务公式和相关符号的概述。然后介绍了所提出的强化学习框架的组件。最后，在强化学习框架的基础上设计了训练和优化方法。

问题表述和符号

知识图 $G = (E, R, T)$ 由一组实体 $E$ 、一组关系 $R$ 和一组三元组 $T$ 组成。 $e \in E$ 是一个实体， $r \in R$ 是一个关系， $e_o,r, e_t) ∈ T$ 是一个将头部实体 $e_o$ 指向尾部实体 $e_t$ 的三元组。不失一般性，我们考虑两个 KG 的知识融合和协同推理，即 $G_1 = (E_1, R_1, T_1)$ 和 $G_2 = (E_2, R_2, T_2)$ ，旨在预测 $?$ 给定三个案例之间的查询， $r, e_t)$ 、 $e_o, ? , e_t)$ 和 $e_o,r, ? )$ 。 $e_o$ 和 $e_t$ 是在单个 KG 中不直接连接的头部实体和尾部实体。相反，可能存在一些较长的 KG 内和 KG 间推理路径，

其中 $e_i$ 是第 $i$ 个实体， $r_i$ 是路径中的第 $i$ 个关系。
由于本文的主要目标是开发一个模型来解决多个异构 KG 上的路径推理问题，即自动推断有希望的跨 KG 关系路径以指示特定关系的存在，我们基于实体对齐并将高度置信的预测实体对添加到锚链接以连接 KG。基于此，如果 $(X ， a t h e l e t e P l a y s F o r T e a m ， Y)$ 和 $(Y ， t e a m P l a y s I n L e a g u e ， Z)$ 都存在于 $G_1$ 中，我们可以填补 $X$ 和 $Z$ 之间缺失的链接运动员 $P l a y s I n L e a g u e$ ，也可以从 $(X ， I d e n t i c a l ， X^{'} ）$ 推断, $(Z, I d e n t i c a l, Z^{'})$ 在 $G_1$ 和 $G_2$ 之间，以及 $(X^{'}, t h e l e t e P l a y s I n L e a g u e, Z^{'})$ 在 $G_2$ 中。最近，基于 DRL 的方法在知识推理任务上取得了令人瞩目的性能，其中路径寻找问题被表述为马尔可夫决策过程 (MDP)。 MDP 被定义为一个 4 元组 $(S, A, P, R)$ [57-59]，其中 $S$ 是连续状态， $A$ 是可用动作， $P (S_{i+1} = s′|S_i = s, A_i = a)$ 是状态转移函数， $R (s, a)$ 是每个 $(s, a)$ 对的奖励函数。

HackRL的RL框架

所提出的 HackRL 模型的概述如图 1 所示。HackRL 以强化学习为框架，其中形成了一个策略网络来推断整个环境中关系的指示性路径。在每一步，代理都会根据 LSTM 和 HGA 网络编码的历史轨迹和当前状态，从动作空间中选择一个关系。如果代理选择了一个有效的动作，它将向前扩展关系路径；否则，它将留在原点并受到惩罚。详细的框架、策略网络和训练方法描述如下。

KG环境

对于两个对齐的 KG 的情况，环境指的是整个 $G_1$ 、 $G_2$ 以及它们的锚链接，不包括查询关系三元组。我们根据最先进的实体对齐方法 BERT-INT 识别等效实体。具体来说，BERT-INT 以 BERT 模型作为基本表示单元，嵌入实体的名称、描述、属性和值，是区分实体的高度判别信息。然后将嵌入输入到交互模块中以计算名称/描述视图、邻居视图和属性视图交互。基于交互特征聚合不同实体对之间的匹配分数。根据匹配分数，一个实体被分配给另一个 KG 中匹配分数最高的候选者。我们向读者推荐[43]以获取有关实现细节的更多信息。基于这种方法，我们对本研究中使用的数据集实现了超过 96% 的对齐准确度。因此，预测结果全部添加到锚链接中。但是，这种方法可能不适用于没有明确和信息丰富的辅助信息的 KG 的实体对齐，在这种情况下，可能需要仔细检查对齐结果。
为了便于寻路，对于每个三元组 $e_o,r,e_t)$ ，我们将逆三元组 $e_t,r^{-1},e_o)$ 添加到数据集中。此外，每个对齐的实体对 $(e, e^{'}) \in I$ 形成为具有相同关系的三元组，其中 $I$ 表示所有对齐的实体对。对于给定的查询关系 $r_q$ ，环境在整个训练过程中保持不变。
由于代理在连续向量空间上工作，我们需要学习实体和关系的连续表示来学习 DRL 模型。由于不同 KG 的特征空间本质上是不同且异构的，因此我们需要将不同 KG 的实体和关系映射到同一个向量空间中。对于互连的 KG 对，我们按照 [29]，基于图注意网络 (GAT) 和 TransE 模型在统一向量空间中学习嵌入。嵌入模块的框架如图 2 所示。

我们首先将不同 KG 的实体嵌入到基于一对具有参数共享的 GAT 模型的统一向量空间中。 GAT模型的损失函数如下：
其中 ${∥·∥}_2$ 是 $L_2$ 距离， $S$ 是正对齐实体对的集合， $S^{'}$ 是负采样生成的负实体对集合[29]， $γ_1$ 是边距超参数。由于 GAT 模型无法学习关系的嵌入，因此我们利用 TransE 模型来嵌入关系，目标是最小化以下损失函数：
其中 $f (e_o,r, e_t) = {∥e_o + r ? e_t∥}_2$ ， $T$ 是正三元组， $T^{'}$ 是在 TransE [19] 之后从损坏的 $T$ 生成的负三元组。通过上述过程，获得了在统一向量空间中对其语义关系进行编码的实体和关系的嵌入。

MDP

MDP 包含状态、动作、转换和奖励。给定 KG 环境，在每一步，代理都学习选择一个有希望的关系 $r_i$ ，以根据当前状态 $s_i$ 扩展关系路径。然后，代理可以根据转移规则 $P$ 从实体 $e_{i-1}$ 走到 $e_i$ 。在每一集结束时，代理将因其行为而获得奖励 $R$ 。每个部分的细节如下。
状态：在所提出的强化学习框架中，状态用一个固定长度的向量对环境中代理的位置信息进行编码，该向量由三部分组成：实体嵌入、LSTM 编码的历史轨迹嵌入和分层图注意力嵌入。因此，步骤 i 的状态向量定义如下：
状态：在所提出的强化学习框架中，状态用一个固定长度的向量对环境中代理的位置信息进行编码，该向量由三部分组成：实体嵌入、LSTM 编码的历史轨迹嵌入和分层图注意力嵌入。因此，步骤 $i$ 的状态向量定义如下：
其中 $h_i$ 是历史轨迹嵌入， $a_i$ 是层次图注意力嵌入， $m_i$ 是实体嵌入部分，定义为
其中 $e_i$ 和 $e_t$ 是当前实体和目标实体的嵌入。 $e_t - e_i$ 用于捕获目标实体和当前实体之间的距离。 $[;]$ 表示连接操作。
我们在策略网络中采用 LSTM，以便代理可以保留其经验和历史轨迹。在所提出的模型中，使用了三层 LSTM。搜索历史由到步骤 $i$ 所采取的状态和动作序列组成，定义如下：
其中 $h_i$ 表示第 i 步的隐藏状态，初始隐藏状态 $h_0$ 设置为零向量，第 $i$ 步 LSTM 的输入由第 $i ? 1$ 步采取的动作的嵌入组成（即 $r_{i-1}$ ) 和步骤 $i$ 中的实体嵌入。
KGs 由实体和语义关系组成，多个对齐的 KGs 也由它们之间的许多锚链接组成。因此，多个对齐的 KG 具有层次结构。对于 $G_1$ 中的实体 $e_i$ 与 $G_2$ 中的对齐实体 $e′_i$ ， $e_i$ 和 $e'_i$ 在语义上是相同的，并且 $G_2$ 中 $e′_i$ 的邻居具有不同的信息，因为它们具有不同的特征。因此，我们利用分层图注意力嵌入来使代理更多地关注与异构环境中的查询关系高度相关的关系和连接实体。层次图注意力的示意图如图3所示。

层次图注意力包括两个层次的注意力，即节点级别和网络级别，以使代理或多或少地关注同一KG中的邻居或另一个 KG 中的等效实体，同时选择动作。这两个级别的注意机制正式称为intra-KG 图注意和inter-KG 图注意。内部 KG 图注意力通过以下等式对一跳邻居的信息进行编码：
其中 $W$ 是一个线性变换矩阵， $N_s$ 表示 $e_i$ 的KG内邻居。 $α_{ij}$ 是第 $j$ 个邻居的权重，使用单层自注意神经网络计算得出。具体来说，按照图注意力模型[60]，第 $i$ 个实体和第 $j$ 个实体之间的注意力权重计算如下：
其中 $q$ 是所有实体共享的可学习权重向量。 LeakyReLU 是负输入斜率为 0.2 的非线性激活函数。在获得实体 $e_i$ 对其所有 KG 内直接连接的邻居的注意力权重后，通过 Softmax 函数计算归一化的注意力权重如下：
通过 intra-KG 注意力机制，HackRL 可以更加关注更有希望的邻居，并在同一个 KG 内扩展关系路径。
与针对同一 KG 中 $e_i$ 的直接邻居的 KG 内图注意力不同，KG 间图注意力关注 $e_i$ 的对齐实体的邻居来判断跳转到对齐的 KG 学习交叉- KG 关系路径。连接不同 KG 的锚链接在跨 KG 知识的融合中起着至关重要的作用。与 KG 内图注意力类似， $e'_i$ 的邻居的加权组合 $e_{ai}$ 由 Eqs(6)-(8) 计算，具有不同的变换矩阵和权重向量。如果当前实体在另一个 KG 中没有对齐对，则将 $e_{ai}$ 设置为零向量。为了保留异构环境的更多信息，将intra-KG图注意力向量和inter-KG图注意力向量直接连接起来形成层次图注意力嵌入，即 $h_i = [e_{si};e_{ai}]$ 。
动作：对于协作推理任务，动作是指转发路径的关系，可以从整个环境中的所有关系类型中获取，除了我们框架中的查询关系及其逆关系。代理根据对当前状态的观察选择最有希望的关系。代理在步骤 $i$ 采取的行动 $r_i$ 可以是有效的，也可以是无效的。如果 $e_i$ 具有类型为 $r_i$ 的出边，则该动作有效；否则为无效动作。
转换：转换 $P$ 用于对下一个状态的概率分布进行建模，定义为一个映射函数， $P : S \times A \to S$ 。在我们的 DRL 框架中，转换涉及在给定有效动作的情况下随机选择尾部实体进行转发。也就是说，如果有 $m$ 个尾实体通过有效选择的关系与当前实体连接，则代理将随机选择其中一个以相等概率转发关系路径。
奖励：奖励是所选动作有效性的指标，并评估强化学习中推断关系路径的质量。 HackRL 中的奖励函数是全局精度、路径效率、路径多样性和跨 KG 效率的加权和，以鼓励代理学习更多指示性路径。
遵循[56]提出的奖励塑造机制，全局精度奖励Racc定义如下：如果路径达到 $e_t$ ，则奖励为+1；如果路径没有到达ground truth，我们借用TransE的思想来计算奖励整形函数，即 $R_{acc} = ?{||e_o + r_q ? e_i||}_1$ ，其中 ${∥·∥}_1$ 表示L1范数；如果代理选择了无效动作，则该动作的奖励为 -1。对于成功情节中的动作，路径效率奖励 $R_{eff}$ 和路径多样性奖励 $R_{div}$ 遵循 DeepPath [22] 的设置。具体来说，如果我们考虑由一系列关系组成的成功关系路径 $p$ ，则效率奖励定义如下：
为了鼓励智能体学习更多不同的路径，多样性奖励函数定义如下：
其中 $c o s (?)$ 是余弦函数， $∣ F ∣$ 是成功推断路径的数量， $\sum\nolimits_{i = 1}^n {{r_i}}$ 表示路径中关系的所有嵌入的总和。
为了避免不同 KG 之间多次跳转导致的长路径和重复路径，我们设计了一个跨 KG 路径效率奖励来平衡跨 KG 路径的收益和长路径的损失，定义如下：
其中 $n u m b e r (C K G)$ 是成功路径中相同操作的编号。
因此，一个成功的 epoch 的总奖励是：
其中 $λ_i$ 是权重参数， $λ_i = 1$ 。相比之下，到达错误实体的不成功 epoch 的奖励是具有奖励整形的全局精度奖励，即 $R_{shaping} = ?{||e_o + r_q ? e_t||}_1$ .
神经策略网络：在提出的 HackRL 模型中，代理需要根据状态选择有希望的关系。因此，为了从可观察环境生成组合状态向量，我们将 LSTM 和 HGA 模块合并到策略组件中。策略组件的整体架构如图 4 所示。在每一步中，LSTM 网络对遍历的关系路径进行编码并生成历史轨迹嵌入，而 HGA 网络计算当前实体的分层图注意力嵌入。然后将这两个嵌入与 mi 连接以生成状态向量 si。策略组件的输入都是来自环境的显式嵌入。
然后将状态向量转发到具有两个隐藏层和一个 Softmax 层的三层全连接神经网络，以参数化策略函数 $π_θ (r_i|s_i)$ ，从而将状态向量映射到所有可能关系上的概率分布。然后根据输出概率采取行动。在每个 epoch 结束时，在奖励的监督下对三种神经模块的参数进行集体训练。

训练与优化

对于具有一系列关系的每条路径，我们希望找到最大化预期奖励的参数 $θ$ ：
其中 $R (r_i, s_i)$ 是在状态 $s_i$ 选择关系 $r_i$ 的奖励， $T$ 是每一集的最大探索次数。使用 Monte-Carlo Policy Gradient (REINFORCE) 算法进行优化，并使用以下等式计算模型参数的梯度：
其中 $π_θ (r_i|s_i)$ 表示所选动作的概率。
对于协作 KG 推理以融合多个分布式 KG 知识的任务，训练受到关系数量增加和异构特征空间的影响。为了优化策略网络以查找 KG 内和 KG 间路径，我们提出了两种使用强化学习算法训练 HackRL 的机制，即动作掩码 (AM) 和采样路径重新训练 (RT) . 我们直接基于寻路过程训练模型，无需预训练或微调，除非代理未能找到成功的路径。
动作掩码：在每一步，代理只能定位在一个 KG 上。因此，它只能选择当前 KG 或跨 KG 动作的关系。因此，我们设计了一种动作掩码机制来过滤掉动作空间中的一半关系。如图 5 所示，我们在每一步为代理设置一个掩码，其长度等于动作空间的大小。根据当前实体所属的KG，当前KG的关系对应的值填1，其他的值设置为0。注意我们假设 $I d e n t i c a l$ 关系属于 $G_1$ 及其逆， $Identical^{?1}$ , 属于 $G_2$ 。在每一步，策略网络的输出概率将首先乘以动作掩码，然后重新归一化为可能动作的输出概率。通过这种机制，在每一步都过滤掉了不可能的动作，以提高找到成功路径的概率。
使用采样路径进行再训练：当代理未能选择成功的目标实体路径时，我们不仅对其进行惩罚，而且还会通过有偏随机游走采样一条可行路径进行再训练演示，以指导代理优化其策略。因为我们希望代理不仅能找到多样化的 KG 内路径，而且还能找到 KG 间路径，所以我们生成 KG 内和 KG 间教学路径。 KG 内路径是按照 DeepPath [22] 中监督策略学习的路径采样方法生成的。具体来说，对于失败的样本 $e_o, e_t)$ ，我们随机选择一个中间实体 $e_{inter}$ ，然后在 $e_o, e_{inter})$ 和 $e_{inter}, e_t)$ 之间进行==两次广度优先搜索 (BFS) ==以采样连接路径在 $e_o$ 和 $e_t$ 之间。在 $e_o$ 和 $e_t$ 之间进行这种路径采样而不是直接 BFS 的目的是通过防止首选最短路径来鼓励不同的采样路径。对于 KG 间路径，候选中间实体的空间大大扩大。我们分析了链接的存在与 AttnPath 在对齐的 KG 上建立的跨 KG 路径长度之间的归一化相关系数，如图 6 所示。我们可以看到，短而直接的跨 KG 路径与存在对应的链接。因此，我们希望 KG 间的路径短，直接连接查询的实体，而不需要许多其他附加关系。为了实现这一点，我们采用了一个简单的技巧来采样短而直接的 KG 间路径。我们不是从整个实体集中随机选择一个中间实体，而是随机从 $e_o$ 、 $e_t$ 及其单跳邻居的对齐实体中随机选择一个中间实体 $e_{inter}$ 。然后我们在 $e_o, e_{inter})$ 和 $e_{inter}, e_t)$ 之间进行两次 BFS，以获得连接的 KG 间样本路径。
然后使用采样路径以有监督的方式训练策略网络（与 DeepPath [22] 相同）。对于监督学习，成功采样路径的奖励为 +1，优化策略网络的梯度如下：
其中 $r_{si}$ 是采样路径中的第 $i$ 个关系。通过这种方式，参数被优化以最大化在采样路径的每个步骤中选择的正确关系。通过使用采样路径机制进行再训练，代理可以从基本事实演示路径中快速学习以找到成功的路径。
算法1总结了agent的学习过程。在每一步，agent首先计算每个关系被选中的概率，并利用action mask和action dropout机制过滤掉一些不合理的关系。然后，选择一个关系来转换关系路径。根据动作是否有效，代理将获得不同的奖励并观察不同的新状态，并将采取的动作和在做出动作时观察到的状态记录到相应的正负动作集。这个过程将一直持续到代理到达正确的实体或达到最大探索次数为止。策略网络将根据状态和动作集及其各自的奖励进行训练。
协同知识推理的整体过程如图 7 所示，主要包括五个步骤：首先，我们基于 BERT-INT 模型识别等效锚链接；基于锚链接，我们学习实体和关系在统一向量空间中的嵌入，目标是最小化等效实体之间的嵌入距离；然后，我们基于 KG 及其锚链接构建环境，并使用代理通过我们设计的策略网络和训练机制探索指示性的跨 KG 关系路径；最后，我们使用推断的关系路径来训练一个预测模型来判断查询实体之间是否存在相应的查询关系。具体来说，我们构建了一个三层前馈神经网络作为预测模型，其输入维度是查询关系的关系路径类型的数量。输入向量的每个维度表示给定实体对之间对应类型的关系路径的数量。预测模型使用查询关系的正样本和基于二元交叉熵损失随机破坏尾部实体生成的负样本进行训练。

实验与讨论

在本节中，我们详细描述了实验，以验证融合来自多个 KG 的知识对知识推理的影响以及我们模型的有效性和效率。我们首先描述我们在实验中使用的数据集和参数设置，然后进行一系列实验。我们证明我们的模型的整体性能优于传统的基于嵌入的方法、随机游走方法和其他基线方法。

数据集及设置

实验基于来自 DBP15K 的三个大规模跨语言数据集。这三个数据集的统计数据见表 1 [36]。它们都是较大数据集的子集。在这些现实世界的 KGs 中，只有少数实体和关系是密集连接的，而成百上千的关系在数据集中不超过十个三元组。我们将这些关系称为长尾关系，并观察到它们破坏了协作推理的性能。因此，我们只选择具有前 200 个关系的三元组。对于每个三元组 $(h, r, t)$ ，我们将逆三元组 $t,r^{-1}, h)$ 添加到 KG 以促进路径查找，从而允许代理后退。
我们一次对一个 KG 的关系进行推理。对于任务 $r_q$ ，我们从 KG 中删除所有具有 $r_q$ 或 $r_{q-1}$ 的三元组。移除的三元组被分成两组，其中 30% 用作训练样本，70% 用作测试样本。对于每个样本，我们通过改变尾部实体及其 $n$ 跳最近邻居来生成 100 个负样本。以下是我们模型中超参数的总结。对于嵌入模型，我们遵循 KECG [29] 中的参数设置，只是实体和关系的嵌入维度设置为 100。LSTM 的隐藏维度设置为 200。HGA 的维度为 200。因此，维度状态向量的 600 具有三种嵌入。策略网络中前馈神经网络的第一个隐藏层的维数是512，而第二个隐藏层的维数是1024。策略网络的输出维数是802。对于奖励函数，不同奖励函数的权重通过网格搜索设置如下： $λ_1$ 为 0.1， $λ_2$ 为 0.7， $λ_3$ 为 0.1， $λ_4$ 为 0.1。动作退出率设置为 0.3。我们使用 Adam [61] 来优化策略网络的参数。在每个 epoch 中，允许代理探索不超过 $max_steps = 50$ 步的路径。我们在配备 Intel ? Xeon? CPU E5-2630 v4 @ 2.2 GHZ 和 GPU TITAN RTX (32G) 的个人工作站上进行实验。
根据之前的研究，我们与基于嵌入或路径的常用方法进行比较。对于基于嵌入的知识推理方法，我们选择了两种为图完成而设计的最先进的方法，TransE [19] 和 TransR [20]。这些基于嵌入的方法的实现基于 [62] 发布的 OpenKE 工具包。对于基于路径的方法，我们选择 PRA、DeepPath 和 AttnPath 与我们的模型进行比较。基于路径的方法的实现基于其作者发布的代码。为了评估整合对齐 KG 知识的效果和模型探索有用互补知识的能力，我们将它们应用于单个 KG 和对齐 KG。为简单起见，在对齐的 KG 上实现的 TransE、TransR、PRA、DeepPath 和 AttnPath 被命名为 MTransE、MTransR、MPRA、MDeepPath 和 MAttnPath。

结果

根据之前的工作[22,24]，用于评估所提出模型能力的指标是平均平均精度（MAP）和平均找到路径的成功率（MSR）。 MSR 表示在数据集上为不同关系寻找路径的平均成功率。对于链接预测任务，每个测试样本都被认为是一个类似 $(h, r, ?)$ 的查询，候选目标实体根据其预测的置信度进行排名。对于事实预测任务，正负三元组是直接排序的。

结果与关联预测

对于头部实体 $h$ 和关系 $r$ 的正负样本，我们使用 $r$ 的所有推断路径来训练一个具有一个隐藏层的神经网络分类器，并根据它们的预测分数对所有尾部实体进行排名。表 2-4 显示了不同模型在三个数据集的特定预测任务上的 MAP 结果。可以看出，HackRL 从对齐 KG 的知识中受益匪浅，并且在大多数链接预测任务上优于其他方法。从这些案例中，我们可以看到基于嵌入的方法比基于路径的方法表现更差，并且在大多数查询关系上无法从对齐的 KG 中获得太多收益。这是因为基于嵌入的方法只能进行单跳推理，很难利用对齐 KG 中的多跳信息，并且实体和关系的增加降低了它们的学习效率。基于路径的方法更容易在协作知识推理上表现得更好，因为它们能够利用跨 KG 路径中包含的补充知识。然而，在某些情况下，基于路径的方法在对齐的 KG 上的表现也比在单个 KG 上的表现更差，这表明它们无法有效地学习异构环境中的有用路径。我们还注意到，HackRL 在某些查询关系上并没有取得最好的结果，而 PRA 或 DeepPath 取得了更好的性能。但是，DeepPath 需要预训练过程，消耗大量训练时间，效率低下。
表 5 显示了三个数据集的整体链路预测结果。可以看出，与其他模型相比，所提出的 HackRL 在三个数据集上获得了最先进的性能。基于嵌入的方法比基于路径的方法性能差得多，尤其是在更密集的 KG 的 JA-EN 和 FREN 数据集上。这表明基于路径的多跳特征对于密集 KG 的关系预测更有用，因为对应关系三元组的增加增加了学习它们嵌入的难度并降低了向量的表达能力。基于路径的推理方法在对齐的 KG 上的性能优于它们在单个 KG 上的性能，这表明跨 KG 路径有助于预测关系。特别是，与 AttnPath 相比，结果还表明，HackRL 受益于分层图注意机制和设计的训练机制。
表 6 显示了 MSR 来比较不同模型中代理学习等价关系路径的能力。图 8 展示了 ZH-EN 数据集的关系 463（总统）的 MSR 结果。实验结果表明，对齐 KGs 上的 DRL 方法在寻找成功路径方面明显比单 KGs 上的差，这也表明异构环境和动作空间的增加使学习更加困难，降低了找到的概率。成功的路径。尽管进行了预训练，但 DeepPath 在三个数据集上的成功率要低得多。相比之下，AttnPath 的性能比 DeepPath 好得多，因为它具有强制前向机制，它在代理选择无效动作时重新采样可行关系以扩展关系路径。还可以看出，我们提出的 HackRL 在对齐 KG 上的性能优于 DeepPath 和 AttnPath。通过提出的分层图注意力和训练机制，我们的模型更适合在异构环境中探索跨 KG 关系路径，并且可以通过过滤掉不可行的动作并降低选择不相关动作的概率来学习更多成功的路径。

结果与事实预测

作为知识推理的重要下游任务，事实预测任务旨在预测给定的三元组 $（ h ， r ， t ）$ 是否正确，广泛用于评估模型判断真假三元组的能力。同样，我们使用 ZHEN、JA-EN 和 FR-EN 作为该任务的基准数据集。请注意，分类评估需要负三元组，这已在生成的数据集中提供。对于每个关系，我们还使用所有推断路径作为特征来训练具有一个隐藏层的神经网络分类器，并使用预测分数来预测给定三元组的正确性。与链接预测任务不同，事实预测对测试集中特定关系的所有正负样本进行排序，而不仅仅是对目标实体进行排名。表 7 显示了所有方法的总体结果。我们可以看到基于路径的方法优于所有嵌入方法，这表明基于嵌入的单跳推理方法不能有效地区分相似的三元组，因为相邻实体的嵌入总是相似的。基于路径的方法在对齐的 KG 上比在单个 KG 上的表现要好得多，这表明跨 KG 路径特征的使用提高了这些模型区分相似三元组的能力。我们还可以看到，HackRL 明显优于其他基线模型。同时，HackRL 和 MAttnPath 之间的比较表明，所提出的策略组件以及训练和优化机制提高了我们的模型在协作事实预测任务上的性能。 HackRL 的整体框架提高了它找到成功和有希望的跨 KG 关系路径的概率，从而丰富了下游模型学习的特征。

消融研究

进行消融研究以证明所提出模型的不同组件的有效性。表 8 显示了在不同模型设置下对 ZHEN 数据集进行链接预测和事实预测的结果。第一个观察结果是，所有三个组件对于提高模型的性能都是必不可少的。当我们移除分层图注意力模块以执行下游链接和事实预测任务的跨 KG 路径查找时，原始结果分别下降了 3.94% 和 3.67%。可以看出，基于动作掩码机制的动作空间缩减对于推断可行关系路径具有重要作用。当我们去除动作掩码机制时，在链接预测任务中，原始结果下降了 8.97%，而在事实预测任务中，MAP 下降了 6.77%。结果还表明，使用我们采样的跨 KG 路径进行再训练有助于提高模型的性能。我们的模型消除了在异构对齐的 KG 中推断关系路径的问题，更适合大规模 KG。

参数设置

在本节中，我们分析了不同奖励的四个权重参数的参数敏感性。图 10 显示了 HackRL 在 FR-EN 数据集上的链接预测 MAP 随着奖励权重的变化。每个子图显示了 MAP 如何随一种奖励的权重变化，而其他奖励的超参数保持不变。从结果可以看出，rewards 的参数设置对 HackRL 的链接预测结果影响很大。然而，MAP 和单个奖励参数之间几乎没有线性规律。因此，很难找到最优的奖励超参数集。相比之下，效率奖励权重的确定更为重要，因为它的变化对链接预测结果的影响更大。原因是推断的跨KG关系路径的长度对对应关系的预测有很大的影响。然而，不同关系的跨 KG 路径的最佳长度并不相同。因此，整个数据集上的整体 MAP 会随着效率权重而波动。同样，HackRL 的整体链接预测结果会随着其他奖励权重的设置而波动，因为影响推断的跨 KG 关系路径的最优参数设置因查询关系不同而不同。总之，奖励权重的最佳超参数设置应在多次尝试后仔细选择，这可以通过网格搜索以更有效的方式解决。此外，不同数据集的最优参数设置可能不同。

定性分析

在这些实验中，我们对数据集进行了定性研究，旨在展示 HackRL 在现实中跨 KG 路径的搜索和推理过程，并评估推断路径的质量。由于三个数据集中描述的事实基本相同，而另外两个数据集中的许多关系的名称都丢失了，我们在这里只展示一个 ZH-EN 数据集的实例。表 9 展示了来自 ZH-EN 的总统推理路径的详细信息。路径由基于 DRL 的方法推断；分析前 8 条路径。可以看出，对于这种情况，DeepPath 和 MDeepPath 不能学习超过 8 个成功的关系路径。结果表明，DeepPath 即使有预训练过程，也很难学习各种成功的路径。借助 LSTM 和图注意力网络支持的内存组件和强制转发机制，AttnPath 可以学习更多成功的路径。然而，在对齐的 KG 上，AttnPath 无法学习很多 KG 间路径，并且其学习到的 KG 间路径在语义上的指示性较差。从结果可以看出，HackRL 在层次图注意力和动作掩码机制的帮助下可以学习到更多的 KG 间关系路径。此外，HackRL 学习的 KG 间关系路径更短，并且与查询关系在语义上更相关。特别是，HackRL 发现了等价关系，这很能说明查询关系的存在。因此，HackRL 有效地融合了来自不同 KG 的知识，通过连接来自不同 KG 的关系形成等价的关系路径来指示一对实体之间存在某些链接。例如，HackRL 发现关系 $p r e s i d e n t$ 的等效跨 KG 关系路径 $identical→presidente →{identical}^{?1}$ ，这强烈表明某人是总裁，基于对齐的 KG 中查询实体的等效实体之间存在这种关系。
为了分析不同模型找到的路径的质量，我们在图 9 中说明了路径分布。从结果中，我们可以看到 AttnPath 找到了成功路径的最大数量。然而，在异构对齐的 KG 中，HackRL 发现的跨 KG 关系路径比 MAttnPath 和 MDeepPath 多。通过上述基于 DRL 的模型中应用的效率奖励，它们都容易找到短而直接的路径，因为可以看出大多数成功路径的长度小于 5。

讨论

所提出的 HackRL 模型是一种基于强化学习的关系推理模型，用于对多个对齐的 KG 进行知识融合和协作推理，其中设计了一种新颖的策略网络，以使代理能够在异构环境中做出更好的推理，以及多种机制被设计和采用以优化模型的训练。通过这些设计，HackRL 在链接预测和事实预测任务上实现了最先进的性能。特别是，LSTM 模块使代理能够保留其历史轨迹中包含的经验，而 HGA 模块提高了代理感知异构环境的能力。动作空间的扩大提高了选择无效动作的概率，大大增加了学习成功路径的难度。为了解决这个问题，我们提出了一种简单而强大的动作掩码机制来过滤掉不可行的动作，这与力前向机制一起有效地提高了找到成功路径的概率。带采样路径的再训练机制促使智能体学习更短、更直接的跨 KG 路径，这些路径更能指示对应关系。
然而，多个 KG 的协同推理是一项艰巨的任务，我们提出的模型还有一些剩余的缺陷需要进一步研究。我们计算 MDeepPath、MAttnPath 和 HackRL 为每个推理任务找到的前五条路径的频率，以评估它们关注最具指示性的关系模式的能力。图 11 显示了三个数据集上从前 1 到前 5 的频率的平均值。从结果中，我们发现 MDeepPath 找到的 top 1 和 top 2 路径比 MAttnPath 和 HackRL 更集中。这表明，由于预训练过程，MDeepPath 更有可能专注于少数关系路径模式，这反过来又使其无法发现更多的路径模式。与 MAttnPath 相比，HackRL 较少关注前两个关系路径，表明它可以学习更多类型的跨 KG 关系路径。但是，它也可能会引入更多指示性较低的噪声路径特征，这在某些情况下可能会破坏其性能。原因可能是由于关系路径模式的丰富，基于 LSTM 的记忆模块不能很好地从各种异构历史轨迹中学习经验。此外，KG 包含许多其他类型的信息，例如实体描述和属性。将不同类型的信息集成到基于 DRL 的模型中可能有助于它学习更准确和更深入的语义关系模式。

结论与未来工作

在本文中，我们提出在多个对齐的 KG 上探索和利用指示性跨 KG 关系路径，以整合和融合互补知识以进行协作推理和决策。我们提出了一种新的基于 DRL 的模型，名为 HackRL，以探索信息量最大的路径。为了消除不同 KG 的特征空间异质性带来的问题，我们通过最小化实体对齐识别的等效实体之间的嵌入距离，将不同的 KG 嵌入到统一的向量空间中。我们还将 LSTM 和 HGA 机制合并到模型中，以使代理能够从异构环境中学习可行的路径。为了消除动作空间增加的影响，我们提出了一种动作掩码机制，在选择要进行的关系之前过滤掉不合理的动作。此外，我们发现短而直接的跨 KG 关系路径更有用；因此，我们建议对此类路径进行采样以重新训练失败的情节以指导代理学习。利用三个著名的跨语言知识图谱数据集在两个下游任务（链接预??测和事实预测）上验证所提出的模型。实验结果表明，以锚链接为中间关系的跨 KG 路径提高了基于路径的推理的性能。定性分析还表明，我们提出的 HGA 模块，以及带有采样路径的动作掩码和重新训练机制有助于找到指示性的跨 KG 关系路径。
在未来的工作中，我们有兴趣将集成信息（如结构信息、描述信息和属性信息）与强化学习框架相结合，以获取更深层次的语义知识，用于知识融合和协作推理。我们还想改进基于 LSTM 的记忆组件，并通过使用它们的嵌入来捕获关系和找到的路径之间的语义相关性，以提高预测性能。