| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Molecular Contrastive Learning of Representations via Graph Neural Networks -> 正文阅读 |
|
[人工智能]Molecular Contrastive Learning of Representations via Graph Neural Networks |
作者:mailto:barati@cmu.edu |
MolCLR:一个用于分子表征学习的自监督框架作者: Yuyang Wang1,2, Jianren Wang3 , Zhonglin Cao1 , and Amir Barati Farimani1,2,4,* 1Department of Mechanical Engineering, Carnegie Mellon University, Pittsburgh, PA 15213, USA 2Machine Learning Department, Carnegie Mellon University, Pittsburgh, PA 15213, USA 3Robotics Institute, Carnegie Mellon University, Pittsburgh, PA 15213, USA 4Department of Chemical Engineering, Carnegie Mellon University, Pittsburgh, PA 15213, USA *corresponding author: Amir Barati Farimani (barati@cmu.edu) 摘要 ABSTRACT分子机器学习(ML)在分子性质预测和药物发现方面具有重要的应用前景。然而,获取标记分子数据是昂贵和耗时的。由于标注数据有限,监督学习的ML模型要推广到巨大的化学空间是一个巨大的挑战。在这项工作中,我们提出了MolCLR:通过图神经网络(GNNs)对 表征 进行分子对比学习(Molecular contrast Learning of representation),这是一个利用大量未标记数据(10M唯一分子)的自我监督学习框架自监督学习 | Self-supervised Learning。在MolCLR预训练中,我们建立分子图和开发GNN编码器来学习 可区分的表征。提出了三种分子图增广方法:原子掩蔽、键删除和子图删除。所提的分子图增强方法保证了增强时同一分子的一致性最大化以及不同分子一致性的最小化。实验表明,我们的对比学习框架显著提高了gnn在不同分子性质基准上的性能,包括分类和回归任务。得益于对大型未标记数据库的预训练,经过微调后,MolCLR甚至在几个具有挑战性的基准测试中达到了最先进的水平。此外,进一步的研究表明,MolCLR学会了将分子嵌入表征中,以区分化学上合理的分子相似性。 引言 Introduction在功能化合物和新型化合物的设计中,分子表征是基本和必不可少的。由于可能的稳定化合物数量巨大,开发一个信息丰富的表征模型来概括整个化学空间是一个巨大挑战。传统的分子表征,如扩展连接性指纹(ECFP)已经成为计算化学的标准工具。最近﹐随着机器学习方法的发展﹐数据驱动的分子表征学习及其应用越来越被重视(如化学性质预测、化学建模、和分子设计)。 然而,由于以下三个主要的挑战﹐导致学习这样的表征很困难:
随着机器学习特别是深度神经网络(DNNs)的发展和成功,分子表示学习在过去的十年中迅速发展。在传统的化学信息学中,分子以独特的指纹(FP)载体表示,如ECFP。考虑到FPs, DNNs是用来预测某些属性的。除了FP外,基于字符串的表示(例如SMILES)也被广泛应用于分子学习。建立在RNNs基础上的语言模型直接适合smiles32,33的学习表示。随着最近基于transform的架构的成功,这样的语言模型也被用于学习来自SMILES的表示。MPNN和D-MPNN实现了从分子图中聚合信息的消息传递体系结构。此外,SchNet模拟了GNN中分子之间的量子相互作用。DimeNet根据原子间的角度进行信息转换,实现方向信息的集成。 得益于可用分子数据的增长,自监督/预训练分子表征学习也被研究。像BERT这样的自我监督语言模型已经被用于学习以SMILES作为输入的分子表示。在分子图上,N-Gram Graph通过短步组装顶点嵌入来构建图的表示,无需训练。Hu等人提出了节点级和图级的GNN预训练任务。然而,图级的预训练是基于监督学习任务,这是受有限标签的约束。等人将对比学习扩展到非结构化图数据,但该框架并不是专门为分子图学习设计的,只是在有限的分子数据上进行训练。 本文提出的MolCLR通过图神经网络对表征进行分子对比学习,以解决上述挑战。MolCLR是一个自监督的学习框架,它是在具有1千万个独特分子的大型无标记分子数据集上训练出来的。通过对比损失,MolCLR通过对比积极的分子图对和消极的分子图对来学习表示。引入了三种分子图的增强策略:原子屏蔽、键删除和子图删除。广泛使用的GNN模型、图卷积网络(GCN)和图同构网络(GIN),被开发为MolCLR中的GNN编码器,以从分子图中提取信息表示。然后在MoleculeNet的下游分子特性预测基准上对预训练的模型进行微调。与通过监督学习训练的GCN和GIN相比,本文所提的MolCLR明显提高了分类和回归任务的性能。受益于对大型数据库的预训练,MolCLR在多个分子基准测试中超过了其他自监督学习和预训练策略。此外,在一些任务上,MolCLR可以与监督学习的基准线相媲美,甚至超过了监督学习,其中包括复杂的分子图卷积操作或特定领域的特征化。MolCLR表示法和传统的FPs之间的进一步比较表明,MolCLR可以通过对大量未标记数据的预训练来学习区分分子的相似性。 Figure 1.MolCLR的概述。 综上所述,(1)我们提出了一个用于分子表示学习的自监督学习框架MolCLR。(2)引入3种分子图增强策略生成对比对,即原子掩蔽、键删除和子图删除。(3)得益于对大量未标记数据的预训练,通过MolCLR训练的简单GNN模型与监督学习相比,在所有分子基准上都有显著的改进。(4)与无法利用未标记数据的更复杂的GNN模型相比,MolCLR甚至在几个分子基准上通过微调将简单的GNN模型提升到最先进的(SOTA)水平 ResultsMolCLR Framework我们的MolCLR模型是建立在对比学习框架之上的。正增广分子图对的潜在表示与负对的表示进行了对比。整个pipline(图1(a))由四个部分组成:数据处理和增强、基于GNN的特征提取器、非线性project head和归一化temperature-scaled交叉熵(NT-Xent)对比损失。 给定大小为N的mini-batch SMILES数据 s n s_n sn?,构建相应的分子图 G n G_n Gn?,其中每个节点代表一个原子,每条边代表原子间的化学键。利用分子图增广策略,将 G n G_n Gn?转化为两个不同但相关的分子图: G i G_i Gi?和 G j G_j Gj?,其中 i = 2 n ? 1 , j = 2 n i = 2n-1, j = 2n i=2n?1,j=2n。由同一分子扩充而来的分子图表示为正对,而由不同分子扩充而来的分子图表示为负对。特征提取器 f ( ? ) f(·) f(?)由GNNs建模,并将分子图映射到表示 h i , h j ε R d h_i,h_j \varepsilon\mathbb{R}^d hi?,hj?εRd中。在我们的例子中,我们用平均池作为特征提取器来实现GCN和GIN。非线性project head g ( ? ) g(·) g(?)采用带隐层的MLP模型,将表示 h i h_i hi?和 h j h_j hj?分别映射为隐向量 z i z_i zi?和 z j z_j zj?。将归一化temperature 交叉熵(NT-Xent) loss应用于2N个潜向量z s,使正对的一致性最大化,负对的一致性最小化。框架是在来自PubChem40的10M未标记数据上进行预训练的。 经过MolCLR预训练的GNN模型被微调用于分子性质预测,如图1?所示。与训练前模型类似,预测模型由一个GNN骨干和一个MLP head组成,前者与训练前的特征提取器使用相同的模型,后者将特征映射到预测的分子性质中。通过预训练模型的参数共享对微调模型中的GNN骨干进行初始化,而对MLP头进行随机初始化。然后在目标分子属性数据库上以监督学习的方式训练整个微调模型。更多细节可以在方法一节中找到。 Molecule Graph Augmentation |分子图增强We employ three molecule graph data augmentation strategies (Figure 1(b)) for input molecules in MolCLR: atom masking,bond deletion, and subgraph removal. 我们对输入分子在MolCLR中采用了三种分子图数据增强策略(图1(b)):原子掩蔽、键删除和子图删除。 原子屏蔽(Atom Masking)分子图中的原子以给定的比例被随机屏蔽。当一个原子被遮蔽时,它的原子特征被一个掩码标记 取代,该标记与图1 b中红框所示的分子图中的任何原子特征相区别。通过屏蔽,模型被迫学习内在的化学信息(比如由某些共价连接的原子的可能类型。 **键删除(Bond Deletion)**如图1(b)中的黄色方框所示, "键删除"以一定比例随机删除原子之间的化学键。与原子屏蔽方法中用掩码标记替代原始特征的原子掩码不同,键删除是一种更严格的增强,因为它从分子图中完全删除了边缘。原子之间化学键的形成和断裂决定了化学反应中分子的属性。键的删除模拟了化学键的断裂,促使模型学习一个分子在各种反应中的关联性。 **子图删除(Subgraph Removal)**子图删除可以被认为是原子屏蔽和键删除的结合。子图的去除从一个随机挑选的原点开始。去除过程通过屏蔽原原子的邻域,然后是邻域的邻域,直到被屏蔽的原子数量达到原子总数的一定比例。然后,被屏蔽的原子之间的化学键被删除,这样被屏蔽的原子和被删除的化学键就形成了原分子图的子图。如图1(b)中的蓝色方框所示,被移除的子图包括被遮蔽原子之间的所有化学键。通过匹配被移除的不同子结构的分子图,该模型学会了在剩余的子图中找到显著特征,这在很大程度上决定了分子的特性。 Molecular Property Predictions | 分子性质的预测Table 1. Test performance of different models on seven classifification benchmarks. The fifirst seven models are supervised learning methods and the last four are self-supervised/pre-training methods. Mean and standard deviation of test ROC-AUC (%) on each benchmark are reported. *Best performing supervised and self-supervised/pre-training methods for each benchmark are marked as bold. 表1。在七个分类基准上测试不同模型的性能。前七个模型是有监督的学习方法,后四个是自我监督/训练前的方法。报告每个基准测试ROC-AUC(%)的平均值和标准偏差。 Table 2. Test performance of different models on six regression benchmarks. The fifirst seven models are supervised learning methods and the last four are self-supervised/pre-training methods. Mean and standard deviation of test RMSE (for FreeSolv,ESOL, Lipo) or MAE (for QM7, QM8, QM9) are reported. 表2。在六个回归基准上测试不同模型的性能。前七个模型是有监督的学习方法,后四个是自我监督/训练前的方法。报告了测试RMSE(对于FreeSolv, ESOL, Lipo)或MAE(对于QM7, QM8, QM9)的平均值和标准差。
为了证明MolCLR的有效性,我们对来自MoleculeNet的多个具有挑战性的分类和回归任务的性能进行了基准测试。分子数据集的详细信息见补充表1和补充表2。表1显示了与监督和自我监督/训练前基线模型相比,我们的MolCLR模型在分类任务上的测试ROC-AUC(%)。报告了三个个体运行的平均和标准偏差。MolCLRGCN和MolCLRGIN分别表示以GCN和GIN作为特征提取器的MolCLR预训练。表1的观察结果如下:
表2包含了MolCLR和基线模型在回归基准上的测试性能。FreeSolv、ESOL和Lipo采用均方根误差(RMSE)作为评价指标,而QM7、QM8和QM9采用均方根绝对误差(MAE)进行测量,均遵循MoleculeNet的建议。与分类相比,回归任务更具挑战性,因为后者只考虑手工定义的离散标签。表2的观察结果如下。
从表1和表2可以看出,与监督的GCN和GIN相比,MolCLR预训练在所有基准上的性能都有很大的提高,这说明了MolCLR的有效性。在分类基准上,通过MolCLR的平均增益,GCN为12.4%,GIN为16.8%。同样,在回归分析中,GCN和GCN的平均改善率分别为27.6%和33.5%。总的来说,通过MolCLR前训练,GIN比GCN表现出更多的进步。这可能是因为GIN有更多的参数,能够学习更有代表性的分子特征。此外,在大多数情况下,与其他训练前/自我监督学习基线相比,MolCLR显示出更好的预测精度。需要强调的是,MolCLR受益于对大型未标记数据库的预训练,而其他监督/自我监督学习基线则不然。利用未标记数据为MolCLR在化学空间和各种分子性质之间的泛化提供了比其他基线更大的优势。补充表4和补充图1进一步研究了训练前数据库对MolCLR的影响。这种泛化能力为预测药物发现和设计中潜在的分子性质提供了希望。 Optimal Molecule Graph Augmentations | 最优分子图增强为了系统地分析分子图增强策略的效果,我们比较了原子掩蔽、键删除和子图删除的不同组成。图2(a)所示为每种数据增强策略在不同基准上的ROC-AUC(%)平均值和标准差。考虑了四种增强策略。(1)原子掩蔽和键缺失的整合,两者的比率p均设为25%。(2)随机比率p为0% ~ 25%的子图删除。(3)以固定的25%比例去除子图。(4)三种增广方法的组合。具体来说,首先应用随机比率为0%到25%的子图删除。然后,如果掩模原子的比例小于25%,我们继续随机掩模原子,直到达到25%的比例。同样,如果键删除率小于25%,则删除更多的键,以达到设定的比率。 如图2(a)所示,在四种组合中,25%的子图删除率平均达到最好的性能。与策略(1)相比,去除子图是原子掩蔽和键删除的内在结合,而且去除子图进一步解锁了局部子结构,因此,该算法的优异性能可归因于此。在BBBP数据集中,固定25%比例的子图删除效果较差,这是因为BBBP中的分子结构比较敏感,拓扑结构的微小变化会导致性质的巨大差异。此外,值得注意的是,在大多数基准测试中,与单子图删除增强相比,这三种增强(策略(4))的组合会损害ROC-AUC。一个可能的原因是,这三种增强策略的组合可以去除分子图中广泛的子结构,从而消除重要的拓扑信息。一般来说,子图删除在大多数基准测试中都能获得更好的性能。然而,它也表明,最优的分子图扩充是任务独立的。 Figure 2. Investigation of molecule graph augmentations on classifification benchmarks. (a) Test performance of MolCLR models with different compositions of molecule graph augmentation strategies. (b) Test performance of GIN models trained via supervised learning with and without molecular graph augmentations. The height of each bar represents the mean ROC-AUC(%) on the benchmark, and the length of each error bar represents the standard deviation. 图2.基于分类基准的分子图增强的研究。 Molecule Graph Augmentation on Supervised Learning | 有监督学习的分子图增强我们工作中的分子图扩展策略,即原子掩蔽、键删除和子图删除,可以作为一个通用的数据增强插件来实现,适用于任何基于图的分子学习方法。为了验证分子图增强对监督分子任务的有效性,我们从随机初始化开始训练有增强和没有增强的GIN模型。具体来说,实现了固定比例为25%的子图掩蔽作为增强。图2(b)记录了测试ROC-AUC(%)相对于七个分子性质分类基准的平均值和标准差。在所有七个基准测试中,使用增强训练的GINs都超过了没有增强训练的模型。分子图增强可以提高平均ROC-AUC分数7.2%。将我们的分子图增强策略应用于有监督的分子性质预测任务,即使没有预先训练,也能大大提高性能。结果表明,分子图增广可以有效地帮助gnn学习鲁棒性和代表性特征。例如,子图删除匹配部分观察到的分子图。因此,模型学习在剩余的子图中寻找显着的基序,这对分子性质的学习非常有利。 Investigation of MolCLR Representation | MolCLR表征的研究我们使用t-SNE embedding检查由预训练的MolCLR学习的表示。t-SNE算法将相似的分子表示映射到二维(2D)中的相邻点。图3所示是PubChem数据库验证集中的100K分子,通过t-SNE嵌入到2D中,根据分子量着色。我们还在图中加入了一些随机选择的分子,来说明通过MolCLR预训练学习到的相似/不相似分子有哪些。如图3所示,对于具有相似拓扑结构和官能团的分子,MolCLR学习了接近的表示。例如,上面显示的三个分子具有与芳基相连的羰基。左下角显示的两个分子结构相似,其中一个卤素原子(氟或氯)与苯相连。这说明,即使没有标签,该模型也能学习分子之间的内在联系,因为具有相似性质的分子具有相近的特征。更多的MolCLR表示的可视化可以在补充图2中找到。
Figure 3. Visualization of molecular representations learned by MolCLR via t-SNE. Representations are extracted from the validation set of the pre-training dataset, which contains 100k unique molecules. Each point is colored by its corresponding molecular weight. Some molecules close in the representation domain are also shown. 图3。MolCLR通过t-SNE学习的分子表征的可视化。表示 从训练前数据集的验证集中提取,该数据集包含100k个唯一的分子。每个点都用相应的分子量着色。一些分子在表示域密切的也显示。 Figure 4. Comparison of MolCLR-learned representations and conventional FPs using the query molecule (PubChem ID42953211). (a) Change of ECFP and RDKFP similarities with respect to the distance between MolCLR representations. (b)Distribution of ECFP and EDKFP similarities with the query molecule. ? The query molecule and 9 closest molecules in MolCLR representation domain with RDKFP and ECFP similarities labeled. 图4。使用查询分子(PubChem ID 42953211)比较molclr学习表示和传统FPs。 Conclusion在这项工作中,我们研究了分子表示的自我监督学习。具体来说,我们提出了通过gnn和三种分子图增强策略(原子掩蔽、键删除和子图删除)来进行表示的分子对比学习。通过对比来自增广的正对和负对,MolCLR使用一般GNN骨干学习信息表示。实验表明,经过MolCLR预训练的GNN模型在各种分子基准上都取得了很大的改进,与以监督学习方式训练的模型相比,具有更好的泛化性能。 通过MolCLR学习的分子表示法证明了在有限的数据下可转移到分子任务,以及在大的化学空间上的泛化能力。在未来的工作中,有许多值得研究的方向。例如,改进GNN骨干(例如基于transform的GNN架构)可以帮助提取更好的分子表示。此外,对自我监督学习表征的形象化和解释也很有趣。这样的研究可以帮助研究人员更好地了解化合物,有利于药物的发现。 MethodsGraph Neural Networks | 图神经网络在我们的工作中,一个分子图 G G G被定义为 G = ( V , E ) G = (V,E) G=(V,E),其中 V V V和 E E E分别是节点(原子)和边(化学键)。现代图神经网络(GNNS)利用邻域聚合操作,迭代更新节点表示。GNN第k层节点特征的聚合更新规则如式 a v ( k ) = AGGREGATE ? ( k ) ( { h u ( k ? 1 ) : u ∈ N ( v ) } ) , h v ( k ) = COMBINE ? ( k ) ( h v ( k ? 1 ) , a v ( k ) ) \boldsymbol{a}_{v}^{(k)}=\operatorname{AGGREGATE}^{(k)}\left(\left\{\boldsymbol{h}_{u}^{(k-1)}: u \in \mathscr{N}(v)\right\}\right), \boldsymbol{h}_{v}^{(k)}=\operatorname{COMBINE}^{(k)}\left(\boldsymbol{h}_{v}^{(k-1)}, \boldsymbol{a}_{v}^{(k)}\right) av(k)?=AGGREGATE(k)({hu(k?1)?:u∈N(v)}),hv(k)?=COMBINE(k)(hv(k?1)?,av(k)?) 其中 h v ( k ) h_v^{(k)} hv(k)?为节点v在第k层的特征, h v ( 0 ) h_v^{(0)} hv(0)? 由节点特征 x v x_v xv?初始化。 N ( v ) N (v) N(v)为节点v的所有邻居的集合。为了进一步提取图级特征 h G h_G hG?,读出操作将图G中的所有节点特征进行整合,如式2所示 h G = READOUT ? ( { h u ( k ) : v ∈ G } ) \boldsymbol{h}_{G}=\operatorname{READOUT}\left(\left\{\boldsymbol{h}_{u}^{(k)}: v \in G\right\}\right) hG?=READOUT({hu(k)?:v∈G}) 在我们的工作中,我们基于GCN和GIN构建了GNN编码器。在进行线性变换之前,GCN通过在节点本身及其邻接节点上引入一个均值池来集成聚合和组合操作。而GIN利用了MLP和节点特征加权求和的聚合方法。两者都是简单而通用的图卷积运算。此外,我们实现了广泛使用的平均值池作为读数。 Contrastive Learning | 对比学习对比学习旨在通过对比正数据对和负数据对来学习表征。SimCLR48证明了图像的对比学习可以从数据增强和大批量的组合中获得极大的好处。SimCLR基于InfoNCE loss,提出NT-Xent loss如式3所示: L i , j = ? log ? exp ? ( sim ? ( z i , z j ) / τ ) ∑ k = 1 2 N 1 { k ≠ i } exp ? ( sim ? ( z i , z k ) / τ ) \mathscr{L}_{i, j}=-\log \frac{\exp \left(\operatorname{sim}\left(\boldsymbol{z}_{i}, \boldsymbol{z}_{j}\right) / \tau\right)}{\sum_{k=1}^{2 N} \mathbb{1}\{k \neq i\} \exp \left(\operatorname{sim}\left(\boldsymbol{z}_{i}, \boldsymbol{z}_{k}\right) / \tau\right)} Li,j?=?log∑k=12N?1{k?=i}exp(sim(zi?,zk?)/τ)exp(sim(zi?,zj?)/τ)? 其中 z i z_i zi?和 z j z_j zj?为正数据对提取的潜向量,N为批量大小, s i m ( ? ) sim(·) sim(?)度量两个向量之间的相似性, τ τ τ为温度参数。在我们的MolCLR中,我们遵循NT-Xent损失对GNN编码器进行预训练,并将余弦相似度实现为 sim ? ( z i , z j ) = z i T z j ∥ z i ∥ 2 ∥ z j ∥ 2 \operatorname{sim}\left(z_{i}, z_{j}\right)=\frac{z_{i}^{T} z_{j}}{\left\|z_{i}\right\|_{2}\left\|z_{j}\right\|_{2}} sim(zi?,zj?)=∥zi?∥2?∥zj?∥2?ziT?zj??。补充表5对τ在MolCLR训练前的进一步研究。尽管对比学习框架已经被应用到各个领域,包括非结构化图形、句子嵌入和机器人规划。对于分子图的对比学习还没有进行全面而详尽的研究。 Datasets预训练数据集。对于MolCLR的预训练,我们使用了由ChemBERTa从PubChem收集的1000万个独特的未标记分子SMILES。然后利用RDKit构建分子图并从SMILES串中提取化学特征。在分子图中,每个节点代表一个原子,每条边代表一个化学键。我们以95/5的比例随机将训练前数据集分割为训练集和验证集。 下游数据集。为了测试我们的MolCLR框架的性能,我们使用了来自MoleculeNet的13个数据集,总共包含44个二元分类任务和24个回归任务。这些任务涵盖了多个领域的分子特性。对于除QM9之外的所有数据集,我们使用scaffold拆分来创建一个80/10/10 train/valid/test拆分,如中建议的那样。与常见的随机划分不同,基于分子亚结构的支架分裂使得预测任务更具挑战性,但也更加现实。QM9遵循随机分割设置作为大多数相关工作的实现进行比较。 **训练细节。**分子图上的每个原子按原子序数和手性类型嵌入,每个键按类型和方向嵌入。我们将ReLU激活作为GNN骨干,实现了一个5层图卷积,并遵循Hu等人的修改,使聚合与边缘特征兼容。对每个图应用平均池化作为读出操作,提取512维的分子表示。一个具有隐藏层的MLP将表示映射到一个256维的潜在空间。带重量衰减 1 0 ? 5 10^{-5} 10?5的Adam优化器用于优化NT-Xent损失。在以学习速率初始的10个epoch之后, 5 ? 1 0 ? 4 5 *10^{-4} 5?10?4,执行一个余弦学习衰减。以512批处理大小训练模型,共训练50个epoch。 对于下游任务的微调,我们在基本GNN特征提取器上添加一个随机初始化的MLP。对分类任务和回归任务分别实现了Softmax交叉熵损失和L1损失。在每个任务上,我们对预训练模型进行了三次100 epoch的微调,以得到测试集性能的平均值和标准差。我们只在训练集上训练模型,并在验证集上执行超参数搜索以获得最佳结果。整个框架是基于Pytorch Geometric实现的。补充表6提供了更多的微调细节。 Baselines有监督学习模型。我们综合评估了我们的MolCLR模型的性能,并将其与监督学习方法进行了比较。对于浅层机器学习模型,采用了以分子指纹为输入的随机森林(Random Forest, RF)和支持向量机(Support Vector machine, SVM)。还包括多个GNNS。考虑了具有边缘特征的GCN和GIN进行聚合。此外,我们还将几个在几个分子基准上达到SOTA的GNN模型(SchNet19、MGCN52和D-MPNN20)作为基准来实现。这些GNN是专门为分子设计的。例如,SchNet和MGCN明确地模拟了分子内部的量子相互作用。 自监督学习模型。为了更好地证明MolCLR框架的有效性,我们进一步将其他训练前或自我监督学习模型作为基线。Hu等人提出了分子图的节点级和图级预训练。需要指出的是,虽然节点级的预训练是基于自监督的,但图级的预训练是基于某些分子性质标签的监督。N-Gram图也被实现,它直接通过分子图计算一个紧凑的表示。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/8 4:35:52- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |