| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Transfer Learning for Predicting Virus-Host Protein Interactionsfor Novel Virus Sequences 论文梳理 -> 正文阅读 |
|
[人工智能]Transfer Learning for Predicting Virus-Host Protein Interactionsfor Novel Virus Sequences 论文梳理 |
作者:弗吉尼亚大学和谷歌的大佬 期刊:ACM-BCB(一个会议,在国内很少投,IF:2.3,国外更认可) 发表时间:2021.6.8 1. 本文贡献:? ? ?1 )提出DeepVHPPI,这是一种新的基于蛋白质序列的深度神经框架,用于预测新病毒蛋白或具有新变异的病毒蛋白的病毒宿主PPI。 ? ? ? 2)?DeepVHPPI结合了基于自我注意的Transformer架构和迁移学习,用于在新病毒序列的背景下预测PPI。 ? ? ? 3)?通过验证病毒宿主PPIs在三种病毒类型(SARS-CoV-2、H1N1和埃博拉数据集)上的相互作用,证明DeepVHPPI的有效性。研究表明,DeepVHPPI优于目前的最先进的方法,并提供了对SARS-CoV-2 Spike蛋白突变的分析。 2 本文目标预测一种新型病毒蛋白(如SARS-CoV-2)的所有可能的病毒-人类相互作用。 3 模型? ?1)?DeepVHPPI体系结构对上图解释,2304=128+256+348+512+512+512 图右上角为预测相互作用的公式,za为病毒蛋白质序列,zb为宿主序列 ? ?2)DeepVHPPI的迁移学习框架由于以下2个原因有了迁移学习框架: 1)可用于训练的病毒-宿主PPI数据有限。特别是,在新的病毒蛋白序列中很少或没有已知的相互作用。 2)蛋白质结构信息对准确预测PPI很重要,仅使用序列特征可能不足以预测某些相互作用 3)补充:下面简单介绍迁移模型里的基础知识?一、MLM来自Bert,Bert有两个任务:MLM(遮掩语言模型)+NSP(下句预测模型)a. MLM ?本文用到的是针对词的MLM,其分为3种方式:[MASK],原始词和随机词。 1 首先选取所有词中的15%个数 2 15%的选择词数中,80%用[MASK]的表示,10%用原始表示,10%用随机表示。 [MASK]引入后,作为模型输入;模型输出为[MASK]词对应位置的词表示,然后loss通过交叉熵计算,希望模型输出[MASK]的词和真正的词正好匹配。 本例中,MASK为_ b. NSP 是一个二分类任务,预测第二句sentence是不是第一句sentence的下一句。?NSP 学习的是句子与句子之间的关系。模型为: ?BERT模型有两个特殊的token:CLS(用于分类任务)、?SEP(用于断句),以及三个embedding 有一个例子: 1.token embedding:输入的文本经过tokenization之后,将 CLS插入tokenization结果的开头,SEP 插入到tokenization结果的结尾。然后进行 token embedding look up 。shape为: [seq_length,embedding_dims]。流程如下图所示: 2.segment embedding:在 NSP 任务中,用于区分第一句和第二句。segment embedding中只有 0 和 1 两个值,第一句所有的token(包括 cls 和紧随第一句的 sep )的segment embedding的值为 0 ,第二句所有的token(包括紧随第二句的 sep )的segment embdding的值为 1 。shape为: [seq_length, embedding_dims] 。流程如下图所示: ? 3.position embedding:因 Transformer-encoderlayer 无法捕获文本的位置信息,而文本的位置信息又非常重要(“你欠我500万” 和 “我欠你500万”的感觉肯定不一样),因此需要额外把位置信息输入到模型中。 BERT 的位置信息是通过 sin函数 和 cos函数 算出来的,shape为: [seq_length, embedding_dims] 。该部分参数在训练时不参与更新。? 备注:BERT的输入为:token_embedding + segment_embedding + position_embedding。 二、结构预测训练(SP)?以上的y-hat都是预测值,与真实值对比求损失训练参数4 实验实验一:SARS-CoV-2–Human PPI Task训练数据集:?? Host-Pathogen interaction Database (HPIDB; version 3.0)?? 正负样本:1:10 测试数据集:13,947 known SARS-CoV-2–Human interactions ?实验二:Other Virus–Host PPI Tasks (H1N1 and Ebola)实验三:Additional PPI Experiments??实验四:利用已知H-V相互作用进行灵敏度分析?当发现一种新病毒时,蛋白质相互作用是未知的。使用H-V训练,迁移到H-H,最初的VS现在,助于新的病毒-蛋白质相互作用预测 实验五:SARS-CoV-2尖峰突变验证分析显示了SARS-CoV-2刺突蛋白与人类ACE2蛋白结合时的受体结合域子序列的例子。 可以观察到特定的位置,第一个K氨基酸,在这里突变的氨基酸将减少相互作用的预测。也有其他地方的突变可以减少相互作用的结合,这可能解释了为什么某些病毒能够更容易地突变和感染人类。 本文通过解离常数测定蛋白质相互作用,查资料是生物实验,用的是光谱和荧光探针,此处很疑惑…… |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 1:38:24- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |