| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 开发工具 -> 论文解读:DNAgenie: accurate prediction of DNA-type-specific binding residues in protein sequences -> 正文阅读 |
|
[开发工具]论文解读:DNAgenie: accurate prediction of DNA-type-specific binding residues in protein sequences |
DNAgenie: accurate prediction of DNA-type-specific binding residues in protein sequences论文导读1. 论文基本信息一作单位:信阳师范学院计算机与信息技术学院 2. 生物背景2.1 研究问题预测蛋白质序列中氨基酸的DNA绑定位点的类型,其原理是在DNA-蛋白质复合物(蛋白质链)中蛋白质在DNA上识别特定的位点,包括以下四种类型:
作用原理如下图所示: 计算方法的意义: 3. 实验数据
4. 实验方法4.1 模型Dnagenie采用定制设计的双层架构,其中第一层中的机器学习(ML)模型产生的预测在第二层中精制,以减少交叉预测(图1)。 4.2 A-DNA、B-DNA和ssDNA相互作用指标制定三种新的相对氨基酸倾态(RAAP)指数,其量化了给定氨基酸与A-DNA,B-DNA和SSDNA相互作用的可能性。
5. 结果5.1 对A-DNA,B-DNA和SSDNA结合残基预测的比较评估测试数据集与CrossValidation设置中使用的培训数据共享低(<30%)序列相似性,以设计和优化Dnagenie。设计期间测试集的低相似性和排除。表2量化了Dnagenie的预测性能,并将其与基线和四种替代品进行比较。结果表明,DNAGENIE在三种DNA类型中提供了非常准确的预测,AUC在0.88(BDNA)之间的AUC和0.91(SSDNA)之间。
5.2 分析和评价交叉预测从测试数据集中随机选择的50%蛋白质对随机选择的50%蛋白进行了10个测试来评估对不同数据集的鲁棒性。我们报告了相应的平均值和标准偏差。 DNAgenie与其他五个预测因子之间的预测性能差异的统计学意义用T检验量化了与Anderson-Darling试验测试的正常测量;否则我们使用Wilcoxon等级和测试。 5.3 RNA结合蛋白交叉预测的评估
5.4 dsDNA和ssDNA结合蛋白预测的比较评估应用DNAgenie产生的A-DNA,B-DNA和SSDNA结合残基的残留水平预测,以区分在试验数据集中的DNA结合蛋白的SSDNA和DSDNA合作伙伴之间。通过计算预测的SSDNA结合残基的残留水平施力的平均值来计算在蛋白质水平的SSDNA结合的倾向。使用一个减去A-DNA和BDNA结合残基的施力的平均值,以量化DSDNA结合的蛋白质水平倾向。 5.5 案例分析DNAGENIE在一个测试蛋白,人DNA甲基转移酶3a(DNMT3A)中产生的DNAGENIE产生的盲/德诺维预测。该蛋白质与训练蛋白质的相似性低4.9%,即,用喷射测量的所有训练蛋白的最大成对相似。DNAGENIE与AUC表示的预测质量类似于测试数据集上的平均AUC,代表平均/典型案例。图3示出了具有B-DNA的复合物的3D结构,其中具有DNAGENIE预测的颜色编码注释。正确的预测 5.6 人类蛋白质组中A-DNA、B-DNA和SS-DNA结合残基和蛋白的预测和分析数据:从Uniprot参考人蛋白质组中对20350个蛋白进行预测。首先,我们收集来自EnPD的DNA结合蛋白,核酸结合蛋白的最大数据库[80]。鉴于蛋白质序列的自然变化,如果它们与来自ENPD的任何人DNA结合蛋白共享超过90%相似性(用BRAST定量),则将人蛋白从UNIPROT的参考蛋白质中注释为DNA结合。这导致2062实验带有的DNA结合蛋白的列表。其次,我们独立地使用PFAM结构域[81]注释DNA结合蛋白。我们手动分析人群蛋白质组中的PFAM结构域,发现672个与DNA相互作用的结构域。我们鉴定了2218个具有这些结构域中的至少一个的人蛋白质。第三,我们将2062个DNA结合蛋白与eNPD和具有PFAM的DNAbinding结构域的2218个蛋白质组合,以建立最终组的2763次验证的DNabinding蛋白。接下来,我们在低5%FPR处使用由DNAGENIE产生的推定的A-DNA,B-DNA和SSDNA结合残基以鉴定推定的DNA结合蛋白。我们将该残留水平校准蛋白质水平预测转化以产生类似于已验证的DNA结合蛋白的数量的推定DNA结合蛋白的数量。
6. 总结目前的DNA型无症溶液缺乏两个方面:将DNA结合残基与其他合作伙伴相互作用的残留物(即,它们交叉预测与RNA,蛋白质和小分子相互作用的残留物);并且能够预测与特定DNA类型的相互作用。 Dnagenie为两种挑战提供了第一和准确的解决方案,因为我们通过广泛的比较实证测试和应用于人类蛋白质组。重要的是,DNAGENIE不依赖于序列相似性或同源性,这意味着它为几乎任何蛋白质序列提供了准确的结果。这在测试数据集上的结果是显而易见的,这模拟了DNAGENIE用于预测与其训练蛋白共享低相似性(<30%)的序列的场景。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/23 5:13:16- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |