| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Self-supervised Learning for Label Sparsity in Computational Drug Repositioning -> 正文阅读 |
|
[人工智能]Self-supervised Learning for Label Sparsity in Computational Drug Repositioning |
论文地址:Self-supervised Learning for Label Sparsity in Computational Drug Repositioning 1. Introduction药物重定位旨在根据已知的药物-疾病关联性揭示上市药物的新用途。其背后的逻辑是:目前市场上的小分子药物具有多靶点特性,这意味着它们可以抑制或激活未知靶点,从而对未知疾病产生治疗效果。药物重定位通过计算模型和大量经验证的药物-疾病关联揭示药物和疾病的潜在治疗模式。基于这些模式,可以推断出目标药物的新的治疗用途。 流行的计算药物重定位模型可分为两类:基于图的模型和基于矩阵分解的模型。 自我监督学习在通过未经验证的数据增强药物的代表性方面可以提供一个新的视角。因此,在这项工作中,我们提出了一个多任务自监督学习框架(SSLDR)来解决药物重新定位中的标签稀疏问题。具体来说,我们以 SSLDR框架的辅助任务可以分为三个步骤: 如果仅用上述自我监督学习后获得的药物表征初始化双塔模型中的潜在因子,这本质上是一种预训练方法,不能有效提高主要任务(药物疾病关联预测)的准确性。因此,为了确保辅助任务能够提高主任务的准确性,我们采用了一种 一些工作使用自动编码器作为嵌入层来挖掘药物和疾病的潜在因素。随着自动编码器网络层的加深,出现了信息丢失的问题,解码器无法恢复原始输入。自动编码器的思想是:一个好的潜在因素必须能够恢复原始输入。因此,为了解决由于信息丢失导致潜在因素无法恢复到原始输入的问题,我们设计了一个多输入解码器。与前一解码器层只接受前一网络层的输出不同,我们将潜在因素输入到每个解码器层以增强解码器的重构能力。后续实验证明,经过上述运算后,该隐因子具有更好的预测性能。 主要贡献如下: 2. Materials and Methods2.1 DatasetsGottlieb 数据集包含593种药物、313种疾病和1933种治疗关系。Cdataset 包含663种药物、409种疾病和2532种治疗关系。DNdataset数据集包含1490种药物、4516种疾病和1008种治疗关系。 2.2 The two-tower model in computational drug repositioning计算药物重新定位可以定义为一个二分类问题,给定目标药物 i i i 和目标疾病 j j j,我们将它们各自的特征输入到模型 M M M 中得到预测值 0/1,其中 0 表示药物 i i i 不能治愈疾病 j j j,1 表示能治愈。 目前流行的计算药物重新定位模型是双塔模型。这个框架使用两组不同的神经网络来学习药物和疾病的潜在因素。在此结构中,药物和疾病的特征分别输入到包含一系列神经网络的嵌入层以提取各自的潜在因素。随后,通过相似算法(内积)计算药物和疾病的潜在因素,得出预测值 R i j R_{ij} Rij?,表示药物治疗疾病的概率。 2.3 The multi-task self-supervised learning framework该框架通过学习更好的药物表示来解决标签稀疏问题。具体来说,我们把预测药物与疾病的相关性作为主要任务(监督学习)。而自动挖掘药物特征的内部关系是辅助任务(自我监督学习),其目的是在存在未标记数据的情况下学习良好的药物表示。 我们将 x i x_i xi?和 x i , x_i^, xi,?分别输入嵌入函数 H H H 和 G G G,以获得 z i z_i zi? 和 z i , z_i^, zi,? 作为目标药物 i i i 的两个潜在因子。 z i = G ( x i ) , z i , = H ( x i , ) z_i=G(x_i),z_i^,=H(x_i^,) zi?=G(xi?),zi,?=H(xi,?) z k = G ( x k ) , z k , = H ( x k , ) (3) z_k=G(x_k),z_k^,=H(x_k^,)\tag{3} zk?=G(xk?),zk,?=H(xk,?)(3)在获得目标药物 i i i 和负样本 k k k 的潜在因子后,我们希望使 z i z_i zi? 和 z i , z_i^, zi,? 在嵌入空间中属于同一药物的距离尽可能接近。不属于同一药物的 z i z_i zi? 和 z k , z k , z_k,z_k^, zk?,zk,?之间的距离在嵌入空间中变得尽可能远。因此,定义了以下损失函数,以使这些潜在因子相互对比。 L a u x i l i a r y = D ( z i , z i , ) ? D ( z i , z k ) ? D ( z i , z k , ) (4) \mathcal{L}_{auxiliary}=D(z_i,z_i^,)-D(z_i,z_k)-D(z_i,z_k^,)\tag{4} Lauxiliary?=D(zi?,zi,?)?D(zi?,zk?)?D(zi?,zk,?)(4)其中 D D D 是距离度量函数, D ( z i , z i , ) = ∣ ∣ z i ? z i , ∣ ∣ 2 D(z_i,z_i^,)=||z_i-z_i^,||^2 D(zi?,zi,?)=∣∣zi??zi,?∣∣2。 (2)主任务 联合训练策略可以提高模型的泛化能力。因为以参数共享的形式,本质上是在主任务的损失函数中增加了一个正则化项,从而改善了嵌入层参数的变化范围,从而提高了主任务的泛化性能。 2.4 The autoencoder with multiple-input decoder基于主任务的解码架构,我们额外将潜在因子添加到每个解码器的输入中,以便解码器的每一层都可以考虑来自潜在因子的信息。 3. Experiments and Discussion本节设计的实验用于回答以下研究问题。 3.1 Evaluation Metrics本节中的实验使用 10 折交叉验证来评估模型的泛化能力。我们首先将已知的药物-疾病相关性作为正样本,并将其平均分为 10 个部分,其中的 9 个作为训练集,剩余的 1 个作为测试集。此外,我们将所有未知的药物-疾病相关性作为负样本添加到测试集。然后用训练集训练模型中的参数,并用测试集评估模型的泛化性能,用10轮计算结果的平均值表示模型10折交叉验证的结果。药物重定位是一个二分类问题。为了公平地比较模型的泛化性能,我们使用 AUC、AUPR 和 F1值 来评估模型的性能。 3.2 Parameter SettingSSLDR 模型中所有超参数的值都是根据它们在验证集上的性能来选择的。验证集是通过从训练集中抽取10%的数据来形成的。药物和疾病的潜在因子的变异区间为 [8,16,32,64,128]。公式(10)中参数 α \alpha α 的变化区间为 [0.1,0.3,0.5,0.7,0.9]。自动编码器损失函数参数的变化间隔为 [0.1、0.3、0.5、0.7、0.9]。模型优化器的学习率在区间 [0.1、0.05、0.01、0.005、0.001]内变化。在本节的实验中,上述参数的默认值为 64、0.5、0.5 和 0.001。 3.3 Effectiveness of joint optimization of auxiliary task and main task(RQ1)为了回答 RQ1,我们评估了联合训练策略下辅助任务对主要任务的影响。通过比较 SSLDR 和 SSLDR-M(去掉辅助任务)的实验结果,我们可以直观地比较辅助任务是否可以提高主任务的预测精度。首先,从表2中可以直观地发现,SSLDR 模型在所有度量和数据集上都优于 SSLDR-M 模型。在这三个数据集上,AUC、AUPR 和 F1 评分指标下的平均改善率分别为2%、14.3%和48.5%,尤其是 F1 评分指标的改善最为明显。上述结果表明,通过联合训练策略,将辅助任务的损失函数作为主任务损失函数的正则化项,优化了主任务中参数的搜索空间。这使得主任务的模型具有更好的泛化性能。 此外,我们发现SSLDR模型和SSLDR-M模型之间的性能差距与数据集之间的稀疏性成正比,即数据集的稀疏性越大,SSLDR模式和SSLDR-M模型之间的绩效差距越大。Gottlieb数据集、Cdataset和DNdataset的稀疏性依次增加,与SSLDR-M模型相比,这三个数据集的SSLDR平均改善率分别为17%、22.5%和25.4%。 这是因为 SSLDR-M 模型中的参数依赖于标记数据进行训练。稀疏数据集中的少量标记数据阻碍了 SSLDR-M 模型学习药物和疾病的有效潜在因子。SSLDR 模型还使用了自我监督和联合优化,以确保主任务学习更好的药物潜在因子。因此,主任务可以有较好的预测效果。对以上实验结果的讨论证明,辅助任务可以提高主任务的预测精度,表明我们改进点的正确性。 3.4 Effectiveness of autoencoder with multi-input decoder(RQ2)为了回答 RQ2,我们评估了多输入解码器的自动编码器的预测性能。通过 SSLDR 和 SSLDR-A(单输入解码器)的直接比较,可以验证多输入解码器是否能够克服信息丢失的问题,从而提高潜在因子的预测能力。在所有度量和数据集上,带有多输入解码器的 SSLDR 模型优于带有单输入解码器的 SSLDR-A 模型。在这三个数据集上,AUC、AUPR 和 F1得分指标的平均改善率分别为1.7%、6.5%和16.3%。 以上实验结果表明,在每个解码器的输入中加入潜在因子,可以使其考虑潜在因子的信息,从而使模型能够学习到更好的潜在因子,从而提高其表达能力和对药物疾病相关性的预测能力。 3.5 Comparison of experimental results(RQ3)为了回答 RQ3,我们将 SSLDR 模型的实验结果与以下主流计算药物重定位模型进行了比较。
不难发现,通过药物的两种增强表示之间的对比学习,模型可以学习到更好的药物表示,从而提高了模型的泛化能力。此外,解码层的额外输入增强了模型的重建能力。这也在一定程度上增强了药物和疾病的代表性,从而提高了模型的预测能力。 3.6 Case study(RQ4)我们从 Gottlieb 数据集中选择了3种药物,以验证 SSLDR 在实际应用中的有用性。这三种药物是 doxorubicin、gemcitabine 和 vincristine,它们都用于治疗肿瘤疾病。表5列出了SSLDR模型为这三种药物推荐的疾病。表中加粗的疾病表明,它们已在CTD数据集中得到验证与相应药物具有治疗关系。对于药物 doxorubicin 和 gemcitabine,两种新疾病的预测是正确的,都在第一和第五位。最后一种药物 vincristine 有3种疾病在推荐疾病列表中得到了正确的推荐。 上述案例研究的结果表明,与以往的计算药物重新定位模型相比,SSLDR 模型推荐的疾病列表具有较高的命中率,并且大多数疾病都是在较高的排名条件下成功预测的。因此,这可以大大加快药物筛选和研发过程,对于实际应用场景具有很大的经济和实用价值。 4. Conclusion在这项工作中,我们提出了一个多任务自监督学习框架SSLDR,用于解决计算药物重定位中的标签稀疏问题。在联合训练策略下,该框架使用辅助任务来改善药物的潜在因素,以提高主任务 对于未来的工作,我们计划探索如何改善疾病的潜在因子,以便更好地应用于计算药物重定位场景。此外,本文提出的框架是基于矩阵分解模型的,如何将该框架应用于基于图的模型也是我们未来工作的方向。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 20:39:17- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |