本文是对知识图谱相关文章阅读翻译,《Knowledge Graph Embedding: A Survey of Approaches and Applications》只针对文字部分,图表请查看原论文。
Knowledge Graph Embedding: A Survey of Approaches and Applications
5 下游任务的应用
在系统回顾了当前可用的KG嵌入技术之后,本节探讨了如何将学习到的实体和关系嵌入应用于多种下游任务并从中受益。我们将这些任务分为(i)KG内应用程序和(ii)KG外应用程序,讨论如下。
5.1 KG内应用
KG中的应用是在KG范围内进行的,其中实体和关系嵌入都是通过学习的。我们介绍了四种这样的应用,即链路预测、三重分类、实体分类和实体解析,这些在文献中得到了广泛的研究。所有这些应用都是从不同的角度和应用上下文对输入KG的各种细化(例如,完成或消除重复)。
5.1.1 链接预测
链接预测通常被称为预测与另一给定实体具有特定关系的实体的任务,比如给定
(
r
,
t
)
(r,t)
(r,t)预测h或者给定
(
h
,
r
)
(h,r)
(h,r)预测t,前者表示为
(
?
,
r
,
t
)
(?,r,t)
(?,r,t),后者表示为
(
h
,
r
,
?
)
(h,r,?)
(h,r,?)。举例而言,
(
?
,
D
i
r
e
c
t
o
r
O
f
,
P
s
y
c
h
o
)
(?,DirectorOf, Psycho)
(?,DirectorOf,Psycho)是预测电影的导演,
(
A
l
f
r
e
d
H
i
t
c
h
c
o
c
k
,
D
i
r
e
c
t
o
r
O
f
,
?
)
(AlfredHitchcock,DirectorOf,?)
(AlfredHitchcock,DirectorOf,?)是预测由特定人导演的电影。这本质上是一个KG填充任务,即向图中添加缺失的知识,并在之前的文献中进行了广泛测试。该链接预测任务有时也称为实体预测或实体排序。类似的想法也可用于预测两个给定实体之间的关系,比如
(
h
,
?
,
t
)
(h,?,t)
(h,?,t),这通常被称为关系预测。 通过预先学习实体和关系表示,链接预测可以简单地通过排序过程进行。以预测任务
(
?
,
r
,
t
)
(?,r,t)
(?,r,t)为例。为了预测头,可能会将KG中的任何一个实体
h
′
h'
h′作为候选答案,然后计算每一个
(
h
′
,
r
,
t
)
(h',r,t)
(h′,r,t)的得分
f
r
(
h
′
,
t
)
f_r(h',t)
fr?(h′,t)。一旦嵌入模型在KG上经过训练,就可以通过使用学习的嵌入和评分函数轻松实现这一点,即
f
r
(
h
′
,
t
)
=
?
∣
∣
h
′
+
r
?
t
∣
∣
1
/
2
f_r(h',t)=-||\bm h'+\bm r-\bm t||_{1/2}
fr?(h′,t)=?∣∣h′+r?t∣∣1/2?,如果TransE模型被用来进行KG嵌入。按降序排列这些分数将得到一个候选答案的排名列表。例如,给定预测任务
(
?
,
D
i
r
e
c
t
o
r
O
f
,
P
s
y
c
h
o
)
(?,DirectorOf,Psycho)
(?,DirectorOf,Psycho),可以使用此排序程序生成一个有序列表{JamesCameron,AlfredHitchcock,GeorgeLucas,QuentinTarantino}。预测任务
(
h
,
r
,
?
)
(h,r,?)
(h,r,?)或
(
h
,
?
,
t
)
(h,?,t)
(h,?,t)可以以类似的方式执行。 为了进行评估,一种常见的做法是将正确答案的排名记录在此类有序列表中,以便查看正确答案是否可以排在错误答案之前。在前面提到的
(
?
,
D
i
r
e
c
t
o
r
O
f
,
P
s
y
c
h
o
)
(?,DirectorOf,Psycho)
(?,DirectorOf,Psycho)示例中,正确答案AlfredHitchcock的等级为2。等级越低表示表现越好。基于此类排序设计了各种评估指标,例如平均排序(预测排序的平均值)、平均倒数排名(倒数排序的平均值),Hits@n(等级比例不大于n)和AUC-PR(精确召回曲线下的面积)。
5.1.2 三元组分类
三元组分类包括验证一个看不见的三元组事实
(
h
,
r
,
t
)
(h,r,t)
(h,r,t)是否为真,例如,(AlfredHitchcock,DirectorOf,Psychol)应归类为真实事实,而(JamesCameron,DirectorO,Psyhoc)则应归类为虚假事实。同样,这项任务可以被视为输入KG的某种形式的填充,之前的工作也对其进行了广泛研究。 回想一下,一旦在KG上学习了嵌入模型,我们能够计算任意一个三元组
(
h
,
r
,
t
)
(h,r,t)
(h,r,t)的得分,只要
h
,
t
∈
E
h,t\in\mathbb{E}
h,t∈E并且
r
∈
R
r\in\mathbb{R}
r∈R,即
f
r
(
h
,
t
)
=
?
∣
∣
h
+
r
?
t
∣
∣
1
/
2
f_r(h,t)=-||\bm h+\bm r-\bm t||_{1/2}
fr?(h,t)=?∣∣h+r?t∣∣1/2?如果TransE模型被学习了。然后,可以简单地根据这种三元组分数进行三元分类。分数较高的三元组往往是真实的事实。特别的,我们为每个关系r引入一个阈值
δ
r
\delta_r
δr?。然后,从关系中任何一个未观察到的事实
(
h
,
r
,
t
)
(h,r,t)
(h,r,t),将会被预测为真实的,如果它的得分
f
r
(
h
,
t
)
f_r(h,t)
fr?(h,t)大于
δ
r
\delta_r
δr?,否则为假。通过这种方式,我们为每个关系获得了一个三分类器。传统的分类指标可用于评估这项任务,例如微观和宏观平均精度。由于每个三元组都会输出一个实值分数和二进制标签,因此这里也可以使用排名指标,例如平均精度。
5.1.3 实体分类
实体分类旨在将实体划分为不同的语义类别,例如,AlfredHitchcock是个人,而Psycho是创造性工作。考虑到在大多数情况下,关系编码实体类型(表示为IsA)包含在KG中,并且已经包含在嵌入过程中,实体分类可以被视为特定的链接预测任务,即
(
x
,
I
s
A
,
?
)
(x,IsA,?)
(x,IsA,?)。此处可采用类似的预测和评估程序(详见第5.1.1节)。实体分类显然是一个KG填充问题,已经在[13]和[22]中进行了研究。
5.1.4 实体解析
实体解析包括验证两个实体是否引用同一对象。在一些KG中,许多节点实际上指的是相同的对象,例如,在Cora数据集中,包含作者、标题和地点字段的引用,作者或地点的名称可以用不同的方式书写。实体解析是消除此类节点重复的任务。 Bordes等人考虑了这样一种场景:KG已经包含一个关系,说明两个实体是否等效(表示为EqualTo),并且已经为该关系学习了嵌入。在这种情况下,实体解析退化为三重分类问题,即判断三元组
(
x
,
E
q
u
a
l
T
o
,
y
)
(x,EqualTo,y)
(x,EqualTo,y)成立或这三元组成立的可能性有多大。嵌入模型输出的三元组分数可直接用于此类预测(详见第5.1.2节)。然而,由于并非所有KG都编码EqualTo关系,因此这种直观的策略并不总是有效。Nickel等人建议仅根据实体表示进行实体解析。更具体的,给定两个实体
x
,
y
x,y
x,y和他们的向量表示
x
,
y
\bm x,\bm y
x,y,他们之间的相似性被计算为
k
(
x
,
y
)
=
e
?
∣
∣
x
?
y
∣
∣
2
2
/
σ
k(x,y)=e^{-||\bm x-\bm y||^2_2/\sigma}
k(x,y)=e?∣∣x?y∣∣22?/σ,这个相似度分数被用来衡量x和y指向同一实体的可能性。即使EqualTo关系未在输入KG中编码,新策略仍然有效。AUC-PR是该任务最广泛采用的评估指标。
5.2 KG外应用
KG之外的应用是那些突破输入KG边界并扩展到更广泛领域的应用。我们以实例介绍了三个这样的应用,包括关系抽取、问答和推荐系统。我们不寻求对这些任务进行系统回顾或介绍最新技术。相反,我们特别关注如何将KG嵌入应用于这些领域。我们希望它们能为KG嵌入的未来应用提供新的见解。
5.2.1 关系抽取
关系提取旨在从已检测到实体的纯文本中提取关系事实。例如,给定一个句子"
A
l
f
r
e
d
H
i
t
c
h
c
o
c
k
d
i
r
e
c
t
e
d
P
s
y
c
h
o
Alfred Hitchcock directed Psycho
AlfredHitchcockdirectedPsycho",其中检测到实体
h
=
A
l
f
r
e
d
H
i
t
c
h
c
o
c
k
h=Alfred Hitchcock
h=AlfredHitchcock和
t
=
P
s
y
c
h
o
t=Psycho
t=Psycho,关系提取器应预测这两个实体之间的关系
D
i
r
e
c
t
o
r
O
f
DirectorOf
DirectorOf。长期以来,关系抽取一直是自然语言处理中的一项重要任务,它为丰富KGs提供了有效手段。许多研究试图利用KG完成这项任务,但通常是远程监控,以自动生成标记数据。这些方法仍然是基于文本的提取器,忽略了KG本身推理新事实的能力。 最近,Weston等人提出将TransE与基于文本的提取器相结合,以便更好地执行关系提取。具体而言,在训练阶段,他们从文本语料库中学习基于文本的提取器,并从与该语料库对齐的KG中学习TransE模型。基于文本的提取器对每个关系r与其文本提及m(即,
S
t
e
x
t
(
m
,
r
)
S_{text}(m,r)
Stext?(m,r))之间的相似度进行评分。然后,这些分数可用于预测文本提及的关系,即来自文本语料库的证据。同时,TransE模型对每个缺失事实
(
h
,
r
,
t
)
(h,r,t)
(h,r,t)的可信度进行评分比如
S
K
G
(
h
,
r
,
t
)
S_{KG}(h,r,t)
SKG?(h,r,t)。这些分数可用于预测其与KG中实体的交互关系,即KG中的证据。在测试阶段,给定两个实体
h
,
t
h,t
h,t,所有关系都提到
M
h
,
t
,
\mathbb{M}_{h,t},
Mh,t?,首先使用基于文本的提取器进行预测
r
^
\hat r
r^,然后为候选事实引入合成分数,比如,
S
t
e
x
t
+
K
G
(
h
,
r
^
,
t
)
=
∑
m
∈
M
h
,
t
S
t
e
x
t
(
m
,
r
^
)
+
S
K
G
(
h
,
r
^
,
t
)
.
S_{text+KG}(h,\hat r,t)=\sum_{m\in\mathbb{M}_{h,t}}S_{text}(m,\hat r)+S_{KG}(h,\hat r,t).
Stext+KG?(h,r^,t)=m∈Mh,t?∑?Stext?(m,r^)+SKG?(h,r^,t). 这种复合模型有利于预测不仅与文本提及一致,而且与KG一致。实验结果进一步表明,结合TransE模型可以成功地改进传统的基于文本的提取器。在合并TransH和TransR后,也观察到类似的改进。 Riedel等人设计了一个不同的框架,通过联合嵌入纯文本和KG来执行关系提取。在他们的工作中,文本和KG在同一矩阵中表示。矩阵的每一行代表一对实体,每一列代表文本提及或KG关系。如果两个实体与纯文本中的提及或KGs中的关系同时出现,则相应条目设置为1,否则设置为0。对于训练实例(实体对),可以观察文本提及和KG关系,后者作为远程监督。但对于测试实例,只有文本提及可用。然后,关系提取用于预测测试实例缺少的KG关系。图7给出了该场景的简单说明。协同过滤技术进一步用于此任务,它分解输入矩阵以学习实体对、文本提及和KG关系的向量嵌入。该框架还改进了传统的基于文本的提取器。Fan等人提出了一种类似的关系提取方法。但在他们的工作中,矩阵中的第一组列对应于文本特征,而不是文本提及,并且采用矩阵填充技术,而不是矩阵分解技术。Chang等人后来设计了一种基于张量的变体,将纯文本和KG编码为三模式张量,然后使用RESCAL模型对张量进行因子分解。
5.2.2 问答
本文考虑一个特定的问答任务,即KGs上的问答。给定一个用自然语言表达的问题,任务是从KG中检索由三元组或三元组集合支持的正确答案。这里我们展示了一些问题、答案和支持三元组的示例:
- Who directed Psycho? – AlfredHitchcock
(AlfredHitchcock, DirectorOf, Psycho) - Where was A. Hitchcock born? – Leytonstone
(AlfredHitchcock, BornIn, Leytonstone) - What was the nationality of A. Hitchcock? – England
(AlfredHitchcock, BornIn, Leytonstone) (Leytonstone, LocatedIn, England)
KGs的使用通过以结构化格式组织各种答案简化了问题回答。然而,由于自然语言的巨大可变性和KG的大规模,这仍然是一项具有挑战性的任务。 Bordes等人为这项任务引入了一个基于嵌入的框架。他们方法的关键思想是学习单词和KG成分的低维向量嵌入,以便问题和相应答案的表示在嵌入空间中彼此接近。具体地,设q表示问题,a表示候选答案。函数
S
(
q
,
a
)
S(q,a)
S(q,a)是基于向量嵌入的,被设计为对问题和答案之间的相似性进行评分,即
S
(
q
,
a
)
=
(
W
?
(
q
)
)
T
(
W
ψ
(
a
)
)
.
S(q,a)=(W\phi(q))^T(W\psi(a)).
S(q,a)=(W?(q))T(Wψ(a)). 在这里W是一个包含单词,实体和关系嵌入的矩阵;
?
(
q
)
\phi(q)
?(q)和
ψ
(
a
)
\psi(a)
ψ(a)是两个稀疏向量,前者表示问题中单词的出现,后者表示答案中实体和关系的出现。
W
?
(
q
)
W\phi(q)
W?(q)和
W
ψ
(
a
)
W\psi(a)
Wψ(a)分别是嵌入空间中问题和答案的向量表示。两者都是其组成部分的嵌入组合,即词、实体和关系。如果a是问题q的正确答案,则
S
(
,
˙
)
˙
S(\dot,\dot)
S(,˙?)˙?生成高分,否则生成低分。给定一个由问题及其正确答案配对组成的训练集,可以通过使用典型的成对排序优化来学习嵌入W,这使得正确对的得分高于任何错误对的得分。训练集可以通过众包或通过在KG上自动概括种子模式来创建。一旦训练了W,在测试阶段,对于给定的问题q,答案预测为
a
^
=
a
r
g
m
a
x
a
∈
A
(
q
)
S
(
q
,
a
)
,
\hat a=\mathop{argmax}\limits_{a\in\mathbb{A}(q)}S(q,a),
a^=a∈A(q)argmax?S(q,a), 其中
A
(
q
)
\mathbb{A}(q)
A(q)是候选答案集。Bordes等人根据经验证明,这种直观的方法在训练过程中不使用任何词库、规则或额外步骤来进行词性标记、句法或依赖性分析,并取得较为客观的结果,而大多数传统的问答系统都是这样。
5.2.3 推荐系统
推荐系统向用户提供关于他们可能希望购买或检查的物品的建议。在不同的推荐策略中,将用户和项目之间的交互建模为其潜在表示的乘积的协同过滤技术已经取得了显著的成功。然而,这样的技术并不总是很好,因为用户项交互可能非常稀疏。在这种情况下,混合推荐系统结合了用户项交互和用户或项的辅助信息,通常可以实现更好的性能。 Zhang等人最近提出了一种混合推荐框架,该框架利用KG中的异构信息来提高协同过滤的质量。具体而言,他们使用存储在KG中的三种类型的信息,包括结构知识(三重事实)、文本知识(例如,书或电影的文本摘要)和视觉知识(例如书的封面或电影的海报图像),以导出项目的语义表示。为了对结构知识建模,应用了一种典型的KG嵌入技术,即TransR,它学习每个项目的结构表示。对于其他两种类型的信息,分别使用栈式去噪自编码器和栈式卷积自编码器来提取项目的文本表示和视觉表示。然后,为了进行协同过滤,每个用户i被表示为潜在向量
u
i
u_i
ui?,每个项目j被表示为一个潜在向量
e
j
=
s
j
+
t
j
+
v
j
+
η
j
,
e_j=s_j+t_j+v_j+\eta_j,
ej?=sj?+tj?+vj?+ηj?, 其中
s
j
,
t
j
s_j,t_j
sj?,tj?和
v
j
v_j
vj?分别是与该项目相关的结构、文本和视觉表示,
η
j
\eta_j
ηj?是一个偏移向量。然后将用户i对项目j的偏好建模为两个潜在向量的乘积,比如
u
i
T
e
j
.
u_i^Te_j.
uiT?ej?.使用基于成对偏好的排序优化来学习这些潜在向量。最后,在测试时,给定目标用户i,可以根据以下排名标准进行项目推荐:
i
:
j
1
?
j
2
?
?
?
j
n
?
u
i
T
e
j
1
>
u
i
T
e
j
2
>
?
>
u
i
T
e
j
n
,
i:j_1\succ j_2\succ\cdots\succ j_n\Leftrightarrow u_i^Te_{j1}>u_i^Te_{j2}>\cdots>u_i^Te_{jn},
i:j1??j2????jn??uiT?ej1?>uiT?ej2?>?>uiT?ejn?, 其中
i
:
j
s
?
j
t
i:j_s\succ j_t
i:js??jt?表示用户i更偏爱项目
j
s
j_s
js?相比较
j
t
j_t
jt?而言。实验结果证明了在推荐系统中从KG学习的三种项目表示的有效性。
6.结论
KG嵌入旨在将实体和关系嵌入到连续向量空间中,在各种面向实体的任务中得到了重要应用,并迅速获得了广泛关注。本文系统地回顾了当前可用的技术,特别是基于KG嵌入中使用的信息类型。首先介绍了仅使用给定KG中观察到的事实进行嵌入的现有技术。我们描述了总体框架、具体的模型设计、典型的训练程序以及这些技术的优缺点。之后,将讨论一些更先进的技术,这些技术使用除事实之外的其他信息执行KG嵌入。我们特别关注四种类型的附加信息的合并,即实体类型、关系路径、文本描述和逻辑规则。关于纳入额外信息的研究刚刚开始,在不久的将来可能会受到越来越多的关注。最后,本文探讨了KG嵌入的应用。引入了两种类型的应用,即在输入KG范围内进行的KG应用和扩展到更广泛领域的KG外应用。我们希望这一简短的探索能够为KG嵌入的未来应用提供新的见解。
|