[人工智能] 图与网络汇报 scaled_dot_product

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 图与网络汇报 scaled_dot_product_attention -> 正文阅读

[人工智能]图与网络汇报 scaled_dot_product_attention

具体来说，给定节点特征 $H^{(l)}={h^{(l)}_1、h^{(l)}_2、...，h^{(l)}_n}$ ，我们计算从 $j$ 到 $i$ 的每条边的multi-head attention如下：

在这里插入图片描述
对于第C个head attention,，我们首先使用不同的可训练参数,将源特征 $h^{(l)}_i$ 、终点特征 $h^{(l)}_j$ 转换为query vector $q^{(l)}_ {c,i}$ ,key vector $k^{(l)}_{c,j}$ ,分别使用不同的可训练参数 $W^{(l)}_{c,q}$ 、 $W^{(l)}_{c,k}$ 、 $b^{(l)}_{c,q}$ 、 $b^{(l)}_{c,k}$ 。
所提供的边缘特征 $e_{ij}$ 将被编码并添加到关键向量中，作为每个层的附加信息
在得到了图的多头关注后，我们进行了从终点j到源点i的一个消息聚合。
在这里插入图片描述
其中， $∣ ∣$ 是C头注意的连接操作,
此外，我们使用层间的门控残差连接以防止我们的模型过度平滑。

我们通过简单地将节点特征和标签向量相加，作为传播信息 $H_0=X+Y_d$ ，将标签传播结合到图变换器中。我们的模型在一个共享的消息传递框架中统一了标签传播和特征传播。
在这里插入图片描述
下面是整个图形的流程：
1.V，K，Q是一个三维矩阵 $（ 1 ? 10 ? 512 ）$

2.然后将Q在最后一维上进行切分为num_heads(假设为8)段，然后对切分完的矩阵在axis=0维上进行concat链接起来；对V和K都进行和Q一样的操作；操作后的矩阵记为Q_,K_,V_； $（ 8 ? 10 ? 64 ）$
在这里插入图片描述
3. Q_矩阵相乘 K_的转置（对最后2维），生成结果记为outputs，然后对outputs 进行scale一次更新为outputs。 $（ 8 ? 10 ? 64 ） ? (8 ? 64 ? 10 ） = (8 ? 10 ? 10)$

4.对outputs进行softmax运算，更新outputs，即outputs=softmax(outputs);
5.最新的outputs（即K和Q的相关性）矩阵相乘 V_，其值更新为outputs；
$(8 ? 10 ? 10) ? (8 ? 10 ? 64) = (8 ? 10 ? 64)$
在这里插入图片描述
6.最后将outputs在axis=0维上切分为num_heads段，然后在axis=2维上合并，恢复原来Q的维度； $(1 ? 10 ? 512)$