| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Bioinformatics202207 | CD-MVGNN+:基于交叉依赖图神经网络的分子性质预测 -> 正文阅读 |
|
[人工智能]Bioinformatics202207 | CD-MVGNN+:基于交叉依赖图神经网络的分子性质预测 |
论文标题:CD-MVGNN:Cross-dependent graph neural networks for molecular property prediction 代码:GitHub - uta-smile/CD-MVGNN 一、问题提出GNN模型取得了丰硕的成果,但仍存在三个局限性: 大多数GNN模型不是面向节点的,就是面向边缘的。然而,节点和边在许多实际场景中扮演着同样重要的角色。具体来说,具有不同原子(节点)但相同键(边)的分子是具有不同性质的不同化合物,因此具有不同键(边)但相同原子(节点)的分子也是不同性质的化合物: 如何将节点信息和边缘信息进行统一的合理集成,是第一个挑战。 具有消息传递方案的GNN模型的强度最多与WL图同构检验相当,这限制了GNN的表达能力,损害了下游任务的性能 现有GNN通常缺乏可解释性能力,而这对药物发现任务实际上是至关重要的。 二、Materials and methods1、表征 分子c表示为Gc=(V,E),V、E为节点集合、边集合,|V|=p个节点,|E|=q条边,Nv表示节点v的邻居集,节点用Xv表示,边Evk是点v、k的边,dn、de分别为节点、边的维度,分子性质为label,给定分子c、graph Gc,预测分子属性。 Generalized GNNs:大多数GNN模型都是建立在消息传递过程之上的,它聚合并传递相应相邻节点的特征信息,从而产生节点新的隐藏状态,在消息传递过程之后,节点的所有hidden state都被输入到一个readout组件中,以产生最终的graph embedding。 假设有L次迭代/层,迭代L包含Kl个跃点。在迭代l中,消息传递的第k跳可表示为: AGG为聚合函数,m为节点v第l次迭代第k跳的聚合信息。 AGG通常有mean、max pooling、graph attention mechanism,对于每次迭代,都要参数可学习,这些参数在迭代l中的Kl跳之间共享。最后一次迭代中最后一跳的hidden embedding作为节点的embedding,READOUT操作来生成图级表示: 2、Overview of CD-MVGNN 两个编码器:Node-central encoder and Edge-central encoder,中间使用cross-dependent message-passing 机制以更新状态,然后采用聚合函数(采用self-attentive aggregation layer)从两个编码器生成Graph embedding。最后将对应的Graph embedding给两个mlp来拟合损失函数。为稳定多视图体系结构的训练过程,使用disagreement loss来强制两个mlp的输出彼此接近。 1)Node-central and edge-central encoders Node-central?encoder: 当使用单个上标时,指的是跳跃索引k,而忽略层/迭代索引l,在式(1)中广义消息传递的基础上,增加了输入输出层,增强了表达能力: 其中 为输入状态,Wnin为参数矩阵,输入层也用了残差模块。在L次消息传递迭代之后,利用一个附加的消息传递步骤,使用一个新的权重矩阵Wnout生成最终的node embedding,最终输出为: Edge-central encoder: line graph L(G) 为理解原始图提供了一种新的视角,即将节点视为连接,而将边视为实体。因此,它可以通过边进行消息传递操作来模拟L(G)上的Node-GNN: 其中: 状态向量定义在边缘evw上,evw的neighboring edge set定义为除节点w外连接到起始节点v的所有边。经过重复的L步消息传递,EdgeGNN的输出是边缘的状态向量。为合并共享关注读数来生成Graph embedding,在节点上再进行一轮消息传递,将沿边embedding转换为沿节点embedding,并生成第二组节点embedding: Weout为权重矩阵,最终输出: 2)Cross-dependent message-passing scheme 尽管MVGNN模型已被证明在许多分子性质预测任务中具有优越的性能(在实验中得到了验证),但信息流的效率并不足够高。假设预测性质所需的所有信息都存在于分子本身。对于MVGNN,信息并行地通过两条不同的路径:一条是节点中心编码器,另一条是边缘中心编码器。两条路径的信息最终在不一致的损失下连接。 但是,这两种信息流可以更早地汇合,以便能够更有效地进行信息交流。提出了交叉依赖的消息传递方案。在较高的级别上,它使节点和边缘的消息传递操作彼此交叉依赖: 在节点消息传递中应用聚合时,使用了边缘的最新hidden state。在边缘消息传递中进行聚合时,需要节点的最新hidden state。这样,信息流的两条路径就相互依存。 3)Interpretable readout and disagreement loss 采用Interpretable shared self-attentive readout component从节点表示Graph embedding,而不是MEAN readout 给定node-central encoder的输出Hn,基于节点的self-attention S: W1、W2为参数矩阵,最终得到graph embedding: The disagreement loss: 总损失: 三、Results and discussion1、任务 Datasets:MoleculeNet 11个benchmark,骨架拆分 分类任务由AUC-ROC进行评估。回归任务应用MAE和RMSE评估。 还实现两个简单的方案。Concat + Mean连接两个子模块的均值汇集输出,Concat + Attn连接两个子模块的自注意输出。 2、Experiment results 使用不同随机种子运行10次的平均值和标准差: 3、Ablation studies on key design choices 1)Cross-dependent消息传递 CD-MVGNN在具有竞争性性能的同时,需要的参数量比MVGNN少得多。其中MVGNN的平均参数数是CD-MVGNN的15.26倍 2)Self-attentive readout and disagreement loss 注意力和分歧损失都能提高效果。特别是当采用自注意机制时,性能有了明显的提高,这证明了不同原子对分子性质的影响是不同的。因此,原子的权重不应该被等同地考虑。 3)Visualization of interpretability results 将一个分子中的每个原子与CD-MVGNN的学习注意力权重相关联的特定分子可视化。不同的原子确实有不同的反应:(i)大多数负责构建分子拓扑结构的碳(C)原子没有得到重视。这是因为这些亚结构通常不会影响化合物的毒性。(ii)除此之外,习得的注意权重可以指示与毒性相关的官能团。 对于上面的两个分子,由三个F原子包围的C原子得到了显著的高度关注,它们全部组成一个三氟甲基,这是众所周知的毒性。同样,对于较低的两个分子,高度关注的原子都在氰化物内部。这些高度的注意值有助于发现重要的原子或潜在的官能团。 此外,提供了整个ClinTox数据集的注意力值的综合统计数据。下图展示了平均注意值和每个元素的总出现次数: 在Lipo数据集上运行他们提供的代码,并将识别的子结构可视化。如图7所示,右边两个分子的高亮部分展示了识别的子结构,表达了最相似的属性,而左边两个带数字的分子展示了从我们的模型中学习到的注意值。正如所观察到的,我们的模型学习到的相对较高的注意权重通常也出现在突出显示的子结构中。 该文章架构是在MVGNN上进行改进。MVGNN:NeurIPS 2020 | MVGNN+:基于多视图图神经网络的分子性质预测_羊飘的博客-CSDN博客 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 21:44:11- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |