1. 本文贡献：

? ? ?1 ）提出DeepVHPPI，这是一种新的基于蛋白质序列的深度神经框架，用于预测新病毒蛋白或具有新变异的病毒蛋白的病毒宿主PPI。

? ? ? 2）?DeepVHPPI结合了基于自我注意的Transformer架构和迁移学习，用于在新病毒序列的背景下预测PPI。

? ? ? 3）?通过验证病毒宿主PPIs在三种病毒类型(SARS-CoV-2、H1N1和埃博拉数据集)上的相互作用，证明DeepVHPPI的有效性。研究表明，DeepVHPPI优于目前的最先进的方法，并提供了对SARS-CoV-2 Spike蛋白突变的分析。

2 本文目标

预测一种新型病毒蛋白（如SARS-CoV-2）的所有可能的病毒-人类相互作用。

3 模型

? ?1）?DeepVHPPI体系结构

对上图解释，2304=128+256+348+512+512+512

图右上角为预测相互作用的公式，za为病毒蛋白质序列，zb为宿主序列

? ?2）DeepVHPPI的迁移学习框架

由于以下2个原因有了迁移学习框架：

1）可用于训练的病毒-宿主PPI数据有限。特别是，在新的病毒蛋白序列中很少或没有已知的相互作用。

2）蛋白质结构信息对准确预测PPI很重要，仅使用序列特征可能不足以预测某些相互作用

3）补充：下面简单介绍迁移模型里的基础知识

?一、MLM来自Bert，Bert有两个任务：MLM（遮掩语言模型）+NSP（下句预测模型）

a. MLM

?本文用到的是针对词的MLM，其分为3种方式：[MASK]，原始词和随机词。

1 首先选取所有词中的15%个数

2 15%的选择词数中，80%用[MASK]的表示，10%用原始表示，10%用随机表示。

[MASK]引入后，作为模型输入；模型输出为[MASK]词对应位置的词表示，然后loss通过交叉熵计算，希望模型输出[MASK]的词和真正的词正好匹配。

本例中，MASK为_

b. NSP

是一个二分类任务，预测第二句sentence是不是第一句sentence的下一句。?NSP 学习的是句子与句子之间的关系。模型为：

?BERT模型有两个特殊的token：CLS（用于分类任务）、?SEP（用于断句），以及三个embedding

有一个例子：

1.token embedding：输入的文本经过tokenization之后，将 CLS插入tokenization结果的开头，SEP 插入到tokenization结果的结尾。然后进行 token embedding look up 。shape为： [seq_length,embedding_dims]。流程如下图所示：

2.segment embedding：在 NSP 任务中，用于区分第一句和第二句。segment embedding中只有 0 和 1 两个值，第一句所有的token（包括 cls 和紧随第一句的 sep ）的segment embedding的值为 0 ，第二句所有的token（包括紧随第二句的 sep ）的segment embdding的值为 1 。shape为： [seq_length, embedding_dims] 。流程如下图所示：

3.position embedding：因 Transformer-encoderlayer 无法捕获文本的位置信息，而文本的位置信息又非常重要（“你欠我500万” 和 “我欠你500万”的感觉肯定不一样），因此需要额外把位置信息输入到模型中。 BERT 的位置信息是通过 sin函数和 cos函数算出来的，shape为： [seq_length, embedding_dims] 。该部分参数在训练时不参与更新。?