论文名称:Simple Question Answering by Attentive Convolutional Neural Network 论文地址:https://arxiv.org/pdf/1606.03391.pdf 前置知识:上篇博客我们说了知识图谱是什么,以及要解决什么问题,本篇博客不再复述该部分。 作者Wenpeng Yin的这篇论文主要讲了实体链接网络和关系检测网络的改进机制。
一、关系链接网络
1.word-cnn
关系链接网络的结构如下图所示,该机制相对于传统的lstm的一大区别为使用卷积神经网络cnn来对词向量进行处理,word-CNN可以提取更细粒度的信息。就pridicate(谓语)而言,其时间信息不够明显,用cnn提取整体信息效果反而更好一些。而在pattern中,论文使用了注意力机制,提取信息与transform相似,考虑了时间信息。
2.注意力机制
该模型在池化层引入了注意力机制,让信息提取更有效化。如下图所示,
V
T
M
P
{V_{TMP}}
VTMP?是传统池化层的输出,
V
A
M
P
{V_{AMP}}
VAMP?是加入注意力机制的池化层输出。 计算过程如下: (1)谓语词向量和
F
p
a
t
t
e
r
n
{F_{pattern}}
Fpattern?矩阵每一列计算余弦相似度,该部分如下图所示: (2)计算出相似度后,我们进行这样一个处理,小于0的值我们设置为0(其实就是relu),;大于0的数,我们给每个数都除以最大值(归一化,防止整体数据过小),得到
S
?
\mathop S\limits^ -
S??。即
0.97
0.97
=
1
{{0.97} \over {0.97}} = 1
0.970.97?=1、
0
0.97
=
0
{{0} \over {0.97}} = 0
0.970?=0、
0.76
0.97
=
0.78
{{0.76} \over {0.97}} = 0.78
0.970.76?=0.78、
0.70
0.97
=
0.71
{{0.70} \over {0.97}} = 0.71
0.970.70?=0.71,结果如下图所示。 (3)
F
p
a
t
t
e
r
n
{F_{pattern}}
Fpattern?矩阵的每一列除以对应的
S
?
\mathop S\limits^ -
S??值,得到
F
d
e
c
a
y
{F_{decay}}
Fdecay?矩阵。计算过程如下图所示。 (4)计算每一行的最大值,并对其位置进行标记得到coord,标记过程如下图。 (5)最后,我们利用coord把原始矩阵
F
p
a
t
t
e
r
n
{F_{pattern}}
Fpattern?的值给选出来,生成
V
A
M
P
{V_{AMP}}
VAMP?。 加入注意力机制后的max-pooling不仅考虑到了哪个单词信息量更大,而且考虑到了哪个词和predicate(谓语)的关系更为密切,所以能更有效提取信息。
二、实体链接网络
实体链接网络结构如下图所示,相比于使用word-embedding和lstm,本论文使用char-cnn无需考虑单词内部的语法信息。实体和mention包含的时间信息并不多,使用char-cnn可以更细粒度的检测,并且在我们拼写错误时仍可以有效提取信息(得益于感受野对整体信息的抽取,即更关注重点而非细节)。
|