IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Transfer Learning for Predicting Virus-Host Protein Interactionsfor Novel Virus Sequences 论文梳理 -> 正文阅读

[人工智能]Transfer Learning for Predicting Virus-Host Protein Interactionsfor Novel Virus Sequences 论文梳理

作者:弗吉尼亚大学和谷歌的大佬

期刊:ACM-BCB(一个会议,在国内很少投,IF:2.3,国外更认可)

发表时间:2021.6.8

1. 本文贡献:

? ? ?1 )提出DeepVHPPI,这是一种新的基于蛋白质序列的深度神经框架,用于预测新病毒蛋白或具有新变异的病毒蛋白的病毒宿主PPI

? ? ? 2)?DeepVHPPI结合了基于自我注意Transformer架构和迁移学习,用于在新病毒序列的背景下预测PPI

? ? ? 3)?通过验证病毒宿主PPIs在三种病毒类型(SARS-CoV-2H1N1和埃博拉数据集)上的相互作用证明DeepVHPPI的有效性。研究表明,DeepVHPPI优于的最先进的方法,并提供了对SARS-CoV-2 Spike蛋白突变的分析

2 本文目标

预测一种新型病毒蛋白(如SARS-CoV-2)的所有可能的病毒-人类相互作用。

3 模型

? ?1)?DeepVHPPI体系结构

对上图解释,2304=128+256+348+512+512+512

图右上角为预测相互作用的公式,za为病毒蛋白质序列,zb为宿主序列

? ?2)DeepVHPPI的迁移学习框架

由于以下2个原因有了迁移学习框架:

1可用于训练的病毒-宿主PPI数据有限。特别是,在新的病毒蛋白序列中很少或没有已知的相互作用

2蛋白质结构信息对准确预测PPI重要使用序列特征可能不足以预测某些相互作用

3)补充:下面简单介绍迁移模型里的基础知识

?一、MLM来自Bert,Bert有两个任务:MLM(遮掩语言模型)+NSP(下句预测模型)

a. MLM

?本文用到的是针对词的MLM,其分为3种方式:[MASK],原始词和随机词。

1 首先选取所有词中的15%个数

2 15%的选择词数中,80%[MASK]的表示10%原始表示10%随机表示。

[MASK]引入后,作为模型输入;模型输出为[MASK]词对应位置的词表示,然后loss通过交叉熵计算,希望模型输出[MASK]的词和真正的词正好匹配。

本例中,MASK为_

b. NSP

是一个二分类任务,预测第二句sentence是不是第一句sentence的下一句。?NSP 学习的是句子与句子之间的关系。模型为:

?BERT模型有两个特殊的tokenCLS(用于分类任务)、?SEP(用于断句),以及三个embedding

有一个例子:

1.token embedding:输入的文本经过tokenization之后,将 CLS插入tokenization结果的开头,SEP 插入到tokenization结果的结尾。然后进行 token embedding look up shape为: [seq_length,embedding_dims]流程如下图所示:

2.segment embedding:在 NSP 任务中,用于区分第一句和第二句。segment embedding中只有 0 1 两个值,第一句所有的token(包括 cls 和紧随第一句的 sep )的segment embedding的值为 0 ,第二句所有的token(包括紧随第二句的 sep )的segment embdding的值为 1 shape为: [seq_length, embedding_dims] 。流程如下图所示:

?

3.position embedding:因 Transformer-encoderlayer 无法捕获文本的位置信息,而文本的位置信息又非常重要(“你欠我500万” 和 “我欠你500万”的感觉肯定不一样),因此需要额外把位置信息输入到模型中。 BERT 的位置信息是通过 sin函数 和 cos函数 算出来的,shape为: [seq_length, embedding_dims] 。该部分参数在训练时不参与更新?

备注:BERT的输入为:token_embedding + segment_embedding + position_embedding

二、结构预测训练(SP)

?以上的y-hat都是预测值,与真实值对比求损失训练参数

4 实验

实验一:SARS-CoV-2–Human PPI Task

训练数据集:?? Host-Pathogen interaction Database (HPIDB; version 3.0)?? 正负样本:1:10

测试数据集:13,947 known SARS-CoV-2–Human interactions

?实验二:Other Virus–Host PPI Tasks (H1N1 and Ebola)

实验三:Additional PPI Experiments

??实验四:利用已知H-V相互作用进行灵敏度分析

?当发现一种新病毒时,蛋白质相互作用是未知的。使用H-V训练,迁移到H-H,最初的VS现在,助于新的病毒-蛋白质相互作用预测

实验五:SARS-CoV-2尖峰突变验证分析

显示了SARS-CoV-2刺突蛋白与人类ACE2蛋白结合时的受体结合域子序列的例子。

可以观察到特定的位置,第一个K氨基酸,在这里突变的氨基酸将减少相互作用的预测。也有其他地方的突变可以减少相互作用的结合,这可能解释了为什么某些病毒能够更容易地突变和感染人类。

本文通过解离常数测定蛋白质相互作用,查资料是生物实验,用的是光谱和荧光探针,此处很疑惑……

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-12-08 13:48:54  更:2021-12-08 13:50:24 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 1:38:24-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码