?摘要

一、动机

为了更好地预测和分析基因与表型本体（phenotype ontology）中组织的表型集合的基因关联，有效地对本体中表型之间的分层结构进行建模并利用稀疏的已知关联是至关重要的。

首先，本文引入了双标签传播（DLP），在预测人类表型本体论（HPO）中的表型-基因（phenotype-gene）关联时，对整个表型路径施加一致关联。

然后，将DLP作为迁移学习框架中（tlDLP）的基础模型，来整合基因本体论（GO）中的功能注释。通过同时重建蛋白质-蛋白质相互作用网络（PPI Network）中的所有基因的GO术语-基因关联和HPO表型-基因关联，tlDLP通过与GO术语的关系间接受益于丰富的训练关联。

二、结果

在基于人类蛋白质相互作用网络预测HPO中人类基因和表型关联的实验中，在交叉验证中，DLP和tlDLP都改进了HPO中基因与表型路径关联的预测，以及在训练数据快照后添加的最新关联的预测。此外，通过GO术语-基因关联的迁移学习显著提高了表型的关联预测，并且这些表型没有更具图的已知关联。然后举例说明表型本体中的表型路径和基因本体中的迁移学习如何改进预测。

正文

一、介绍

为了了解表型和基因之间的关系，许多研究使用分子图谱和基因组范围内特定表型个体的测序来确定表型和基因的关联。

目前的研究主要有两个局限性：

首先，缺乏一个计算框架来预测在本体中组织的表型与基因的关联。
第二，可供训练的已知关联很少。在HPO中，超过一半的表型都没有或者只有一个基因关联，这种稀疏性使得预测不可能或不可靠，即使基因-基因相互作用可以作为额外的训练信息引入。

为了解决这两个限制，本文引入了双标签传播（DLP），在本体中引入与整个表型路径一致的关联，然后引入迁移学习框架（tlDLP），在基因本体（GO）中加入功能注释，以获得额外的训练信息。

如下图，DLP模型利用PPI网络和HPO中的连接来预测HPO中基因与其最特异注释表型的关联，从而实现基于本体的预测。

?tlDLP通过同时重建GO术语-基因关联和HPO表型-基因关联，应用迁移学习，通过与GO术语的关系，利用丰富的训练关联。

在此背景下，表型本体和基因本体之间的迁移学习将表型和基因功能的只是通过基因关联联系起来。实验中，基于人蛋白相互作用网络和基因本体论，通过预测HPO中的关联来综合评价DLP和tlDLP方法。通过实例说明了基于本体的双标签传播和基于基因本体的迁移学习是如何改进预测的。最后，额外的实验也表明双标签传播和迁移学习模型也可以改善基因功能预测。

二、方法

2.1 数学符号

首先介绍一下数学符号。

2.1.1 图拉普拉斯矩阵的标准化（矩阵论的基础知识）

2.2 标签传播基本模型

本文首先介绍标签传播算法。

给定PPI网络S和目标表型p，标签传播的目标是学习一个与表型p关联的赋值函数 $y\in R$ ，如图A所示。

初始标签 $y^0=\widehat{Y}_{p\cdot }$ ，即已知关联矩阵的 $\widehat{Y}$ 的第p行。标签传播假设，如果基因连接在PPI网络中，它门应该被赋予相同的标签，这导致了以下目标函数：

$\large \psi (y)=\theta \sum_{i,j=1}^{m}\bar{S}_{ij}(y_{i}-y_{j})^{2}+(1-\theta) \sum_{i}\left \| y_{i}-\widehat{y_{i}} \right \|^2=\theta y L_{s}y^T+(1-\theta)\left \| y-\widehat{y} \right \|^2$