开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 自然语言处理（七）：注意卷积神经网络的简单问题回答 -> 正文阅读

[人工智能]自然语言处理（七）：注意卷积神经网络的简单问题回答

论文名称：Simple Question Answering by Attentive Convolutional Neural Network
论文地址：https://arxiv.org/pdf/1606.03391.pdf
前置知识：上篇博客我们说了知识图谱是什么，以及要解决什么问题，本篇博客不再复述该部分。
作者Wenpeng Yin的这篇论文主要讲了实体链接网络和关系检测网络的改进机制。

一、关系链接网络

1.word-cnn

关系链接网络的结构如下图所示，该机制相对于传统的lstm的一大区别为使用卷积神经网络cnn来对词向量进行处理，word-CNN可以提取更细粒度的信息。就pridicate(谓语)而言，其时间信息不够明显，用cnn提取整体信息效果反而更好一些。而在pattern中，论文使用了注意力机制，提取信息与transform相似，考虑了时间信息。
在这里插入图片描述

2.注意力机制

该模型在池化层引入了注意力机制，让信息提取更有效化。如下图所示， ${V_{TMP}}$ 是传统池化层的输出， ${V_{AMP}}$ 是加入注意力机制的池化层输出。
在这里插入图片描述
计算过程如下：
(1)谓语词向量和 ${F_{pattern}}$ 矩阵每一列计算余弦相似度，该部分如下图所示：

(2)计算出相似度后，我们进行这样一个处理，小于0的值我们设置为0（其实就是relu)，；大于0的数，我们给每个数都除以最大值（归一化，防止整体数据过小）,得到 $\mathop S\limits^ -$ 。即 $\over {0.97}} = 1$ 、 $\over {0.97}} = 0$ 、 $\over {0.97}} = 0.78$ 、 $\over {0.97}} = 0.71$ ，结果如下图所示。
在这里插入图片描述
(3) ${F_{pattern}}$ 矩阵的每一列除以对应的 $\mathop S\limits^ -$ 值，得到 ${F_{decay}}$ 矩阵。计算过程如下图所示。

(4)计算每一行的最大值，并对其位置进行标记得到coord，标记过程如下图。

(5)最后，我们利用coord把原始矩阵 ${F_{pattern}}$ 的值给选出来，生成 ${V_{AMP}}$ 。
在这里插入图片描述
加入注意力机制后的max-pooling不仅考虑到了哪个单词信息量更大，而且考虑到了哪个词和predicate（谓语）的关系更为密切，所以能更有效提取信息。

二、实体链接网络

实体链接网络结构如下图所示，相比于使用word-embedding和lstm，本论文使用char-cnn无需考虑单词内部的语法信息。实体和mention包含的时间信息并不多，使用char-cnn可以更细粒度的检测，并且在我们拼写错误时仍可以有效提取信息(得益于感受野对整体信息的抽取，即更关注重点而非细节)。
在这里插入图片描述