[网络协议] 项目实训八

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 网络协议 -> 项目实训八 -> 正文阅读

[网络协议]项目实训八

作者:recommend-item-box type_blog clearfix

树形解码器的decoder部分

在解码器的每个解码步骤中，树解码器需要预测当前子节点的信息，包括子节点和子节点的分支，节点的分支表示节点与子节点之间的空间关系。我们可以通过节点类别和分支来逐步构建一棵数学树。如下图所示，为了解耦分类和空间关系预测，我们在解码器中设计了两个模块：节点分类模块和分支预测模块。
在这里插入图片描述

节点类模块

节点类模块主要包括两个GRU，一个注意力机制和一个分类器，我们首先使用两个嵌入层去获得父节点 $p_{t}$ 高维的特征向量 $\mathbf{e}_{t}^{\mathrm{p}}$ 和 $\mathbf{e}_{t}^{\mathrm{r}}$ 以及其空间关系 $r_{t}$ 。节点解码器 $\mathbf{s}_{t-1}^{\mathrm{node}}$ 的先前隐藏状态被视为 $\mathbf{GRU}_{1}^{\mathrm{node}}$ 层的先前隐藏状态。父节点的嵌入层 $\mathbf{e}_{t}^{\mathrm{p}}$ 和空间关系节点的嵌入层 $\mathbf{e}_{t}^{\mathrm{r}}$ 一起作为 $\mathbf{GRU}_{1}^{\mathrm{node}}$ 的输入，然后就可以得到 $\mathbf{GRU}_{1}^{\mathrm{node}}$ 的当前隐藏状态 $\widetilde{\mathbf{S}}_{t}^{\text {node }}$ 。
$\mathbf{e}_{t}^{\mathrm{p}}=\operatorname{Emd}_{\text {node }}\left(p_{t}\right)$ $\mathbf{e}_{t}^{\mathrm{r}}=\mathrm{Emd}_{\mathrm{re}}\left(r_{t}\right)$ $\widetilde{\mathbf{s}}_{t}^{\text {node }}=\operatorname{GRU}_{1}^{\text {node }}\left(\left[\mathbf{e}_{t}^{\mathrm{p}}, \mathbf{e}_{t}^{\mathrm{r}}\right], \mathbf{s}_{t-1}^{\text {node }}\right)$
然后，节点注意力机制模块 $f_{\text {att }}^{\text {node }}$ 被用来在特征映射A上的注意可能性 ${\alpha}_{t}^{\text {node }}$ ，通过计算在A上的权重之和来获得节点上下文向量 $\mathbf{c}_{t}^{\text {node }}$ ，这里使用 $\widetilde{\mathbf{S}}_{t}^{\text {node }}$ 作为query并且A作为key和value。
$\boldsymbol{\alpha}_{t}^{\text {node }}=f_{\mathrm{att}}^{\text {node }}\left(\mathbf{A}, \widetilde{\mathbf{s}}_{t}^{\text {node }}\right)$ $\mathbf{c}_{t}^{\text {node }}=\sum \alpha_{t i}^{\text {node }} \mathbf{a}_{i}$
函数 $f_{\text {att }}^{\text {node }}$ 如下：
$\mathbf{F}^{\text {node }}=\mathbf{Q}^{\text {node }} * \sum_{l=1}^{t-1} \boldsymbol{\alpha}_{l}^{\text {node }}$ $e_{t i}^{\text {node }}=V_{\text {node }}^{\mathrm{T}} \tanh \left(\mathbf{W}_{\text {att }}^{\text {node }} \tilde{\mathbf{s}}_{t}^{\text {node }}+\mathbf{U}_{\text {att }}^{\text {node }} \mathbf{a}_{i}+\hat{\mathbf{U}}_{\mathrm{F}}^{\text {node }} \mathbf{f}_{i}^{\text {node }}\right)$ $\alpha_{t i}^{\text {node }}=\frac{\exp \left(e_{t i}^{\text {node }}\right)}{\sum_{k} \exp \left(e_{t k}^{\text {node }}\right)}$
$\alpha_{t i}^{\text {node }}$ 表示第t步的第i个元素的节点的可能性， $e_{t i}^{\text {node }}$ 表示第i步的输出， $\mathbf{f}_{i}^{\mathrm{node}}$ 表示函数 $\mathbf{F}^{\text {node }}$ 的第i个元素，这是以前的注意模块，为了避免过度解析或者解析不足的问题，其余为学习参数。
接着，使用 $\mathbf{c}_{t}^{\text {node }}$ 和 $\widetilde{\mathbf{s}}_{t}^{\text {node }}$ 作为 $\mathbf{GRU}_{2}^{\text {node }}$ 的输入来计算预测模块隐藏状态 $\mathbf{s}_{t}^{\text {node }}$
$\mathbf{s}_{t}^{\text {node }}=\operatorname{GRU}_{2}^{\text {node }}\left(\mathbf{c}_{t}^{\text {node }}, \widetilde{\mathbf{s}}_{t}^{\text {node }}\right)$ 最后通过父节点 $\mathbf{e}_{t}^{\text {p}}$ ，与父节点的关系 $\mathbf{e}_{t}^{\text {r}}$ ，节点的隐藏状态 $\mathbf{s}_{t}^{\text {node }}$ 以及上下文向量 $\mathbf{c}_{t}^{\text {node }}$ 的聚合来计算预测节点 $\mathbf{o}_{t}^{\text {node }}$ 的可能性： $\mathbf{h}_{t}^{\text {node }}=\operatorname{maxout}\left(\mathbf{W}_{1}^{\text {node }}\left[\mathbf{e}_{t}^{\mathrm{p}}, \mathbf{e}_{t}^{\mathrm{r}}, \mathbf{s}_{t}^{\text {node }}, \mathbf{c}_{t}^{\text {node }}\right]\right)$ $\mathbf{o}_{t}^{\text {node }}=\operatorname{softmax}\left(\mathbf{W}_{2}^{\text {node }} \mathbf{h}_{t}^{\text {node }}\right)$ 其中W参数为学习参数。
我们使用cross-entropy函数来计算分类的损失函数 $\mathcal{L}_{\text {node }}=-\sum \log \mathbf{o}_{t}^{\text {node }} \cdot \mathbf{n}_{t}$ $\mathbf{n}_{t}$ 表示第t步节点真实值的独热向量。