Learning from History Modeling Temporal Knowledge Graphs with Sequential.pdf
本文是AAAI 2021的一篇文章。 论文地址
Abstract
本文提出了一种新的 temporal knowledge graph 表示学习模型,即 CyGNet 。 CyGNet 不仅能够从整个实体词汇(the whole entity vocabulary)中预测未来的事实,而且能够识别重复的事实,并根据过去已知的事实来预测未来的事实。
Introduction
- 图1 表示了ICEWS的一个片段,其中图标表示 entity(subject或object),箭头表示 relation ,箭头下方的元组表示(relation,timestamp)
事实上,历史上有许多事实反复发生,例如全球经济危机大约每7到10年定期发生一次;外交活动在两个建立关系的国家之间定期进行;东非动物每年每年6月进行大规模迁徙等等。我们发现,在24年的 ICEWS 数据(即1995年至2019年)中,超过80%的事件已经出现在前一段时间内。这一现象突出了利用已知的事实来预测未来的事实的重要性。 然而以往的方法在建模 TKG 的时候并没有包含对这种进化模式的意识。 本文提出了一种基于新型时间感知复制机制的TKG表示学习方法 CyGNet(Temporal Copy-Generation Network),不仅能够从整个实体词汇中预测未来的事实,而且能重复识别事实,并根据形成过去出现的实体的历史词汇选择这些事实。CyGNet 包含两种推理模式:Copy mode 和 Generation mode。 其中 Copy mode 类似于 NLG 中的抽象摘要中的复制机制,允许语言生成器选择从源文本中复制子序列,从而帮助生成在源文本中保留显著信息的摘要。 本文的贡献:
- ① 在学习推断 TKG 中未来事实,参考历史上已知事实;
- ② 提出新的 TKGE 模型 CyGNet ,该模型结合了两种推理模式,符合TKG事实的进化模式;
- ③ 在五个公共的 TKG 基准数据集上进行了实验
Keyword
Knowledge graph completion; temporal knowledge graph; knowledge graph reasoning;
Method
Model Components
模型包含两种推理模式,即复制模式和生成模式。其中前者寻求从一个特定的(时间戳)的历史词汇中选择实体,形成历史中重复的事实,而后者从整个实体词汇中预测事实。
如图3所示,预测一个四元组,复制模式推断出历史词汇表中的实体的概率,然后候选实体作为 s1 和 p3 在已知的 snapshots 的 object entity。另一方面,生成模式估计整个实体词汇表中每个实体来回答一个 query 的概率。 CyGNet 结合来自两个模式的概率预测,得到最终的输出概率。 首先处理训练集的每个 snapshots, 获得每个训练 snapshot 的 subject entity的历史词汇和三元组(s,p,t),,其中是一个包含所有能够充当在snapshot中,与s和p组成的元组中的object entities的N维的multi-hot隐含向量。 按序列依次训练每个snapshot, 就像递归一样增量地维护之前所有的snapshot的历史词汇表,在评估的时候将用上训练集的最大历史词汇量,对每个在时间的时间轴,训练过程从之前的snapshot中扩展历史词汇。如公式所示:
训练过程如图4所示:
Copy mode
复制模式通过MLP生成一个index vector,其中的计算如下:
为了降低一些无用的信息概率,将中不感兴趣的实体的索引值变为一个很小的负数,修改后的变为。 通过添加和来划分候选空间,使得不感兴趣实体的概率最小化,然后通过softmax来估计预测:
其中不感兴趣的实体在中的赋值接近于0. 复制模式的优点是它可以从一个比整体实体词汇表更明确的候选空间中学习预测。
Generation mode
生成模式负责通过从整体词汇表中选择对象实体来预测事实。生成模式将预测的事实视作全新的事实,没有参考任何历史。与复制模式类似,生成模式也生成索引向量,使用softmax进行预测:
Learning Objective
模型的任务将视为一个多类分类任务,即预测一个给定的缺失四元组中,每个候选object entity的概率。模型中将采用交叉熵来进行模型训练:
Inference
CyGNet将结合复制模式和生成模式的预测值(即加权组合)来得到最终的预测值,使用一个常数来衡量复制模式和生成模式预测值的权重:
Experiment
本文所采用的数据集:
实验结果:
消融实验:
Conclusion
本文首次提出使用复制机制来解决temporal knowledge graph的描述和推断,基于未来事实可以从历史事实中预测的假设。提出的CyGNet不仅能够预测整个开放世界的事实,还能够识别重复事实,根据过去出现的已知事实来选择这些未来的事实。在五个基准数据集上结果证明了本文模型的有效性。
|