[人工智能] 文献阅读：DeepLigand: accurate prediction of MHC class I ligands using peptide embedding

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 文献阅读：DeepLigand: accurate prediction of MHC class I ligands using peptide embedding -> 正文阅读

[人工智能]文献阅读：DeepLigand: accurate prediction of MHC class I ligands using peptide embedding

发表年份：2019

下载地址：点击下载

1、摘要：

????????提出半监督模型DeepLigand，主要针对MHC-I类配体预测。DeepLigand结合了肽语言模型和肽结合亲和力预测来评估MHC-I类肽表现。肽语言模型描述了MHC配体选择中与次要因素相对应的序列特征，而不是结合亲和力。肽嵌入是通过天然配体的预训练来学习的，并且在没有结合亲和力预测的情况下可以区分配体和非配体。

将显示配体定义为：

MHC多肽结合亲和力
多肽载体嵌入的功能，该多肽具有可能与蛋白酶体切割足迹、TAP运输效率和其他过程相关的基序相关的序列模式。

????????对于模型元素（I）：采用深度残差网络对MHC亲和力进行建模，该网络根据MHC和肽的氨基酸序列预测亲和力。

????????对于模型元素（II）：通过对所有MHC天然配体进行无监督学习来学习肽序列的嵌入。

????????Deep Ligand方法在天然MHC配体预测中的性能有所提高，不仅可以从具有适度MHC结合亲和力的候选多肽中识别MHC配体，单肽嵌入能够高度预测自然配体。

2、数据集：

????????来自IDEB（Abelin 2017）和Kim（2014）的525672个结合亲和力和质谱数据组成。

3、数据集处理：

????????每个肽训练实例都是通过结合亲和力和质谱数据的存在/缺失来标记的。在结合亲和力和质谱数据集中的一些例子中，只有定性的亲和测量，表示为正、正高、正中、正低或负。Donnel等人为每一类定性标签指定一个定量值和“>”和“<”关系，以表示相应的亲和范围。具有定量亲和力的例子被赋值为“1/4”关系。本文进一步给非配体肽一个“unknown”亲和力。通过将其封顶在1~50000nM之间，得到的归一化亲和力介于0和1之间。

????????除了结合亲和力，还为每个例子创建配体标签，将质谱鉴定的配体标记为阳性，非配体肽标记为阴性，其他肽标记为“unknown”。同时删除了文献中找不到与肽接触的MHC氨基酸伪序列的MHC等位基因。最终的数据集包含3052388个样本，涵盖219个MHC一类等位基因。（具体信息情况supplement_table S2里面有详细的数据信息）

4、模型框架：

DeepLigand主要由两个模块组成：

绑定亲和力预测模块
肽嵌入模块

对于绑定亲和力预测模块：

????????该模块是以多肽的氨基酸序列和MHC分子的伪序列作为输入的深度残差网络。（Deep Residual Network）

????????其中MHC等位基因的伪序列是一个或多个主要MHC等位基因结构中34个多肽位置的氨基酸残基。该特征向量由两个编码序列连接而成：一个20维的one-hot编码和描述氨基酸之间进化相似性的20维BLOSUM50矩阵得分向量。（总计40个氨基酸）

????????每个MHC生成一个40×34的特征矩阵，每个肽生成一个40×40的特征矩阵。然后将MHC特征矩阵转换成1360×1向量，再沿着第一个维度添加到肽矩阵中，最终的特征矩阵为1400×40（这个就是深层残差网络的输入），即下图这个过程！

????????残差网络由一个初始卷积块、五个残差块（每个残差块都有两个卷积层）和两个全连接层组成。每个卷积层由256个卷积核，stride=1，kernel_size=3，并且每个卷积层后面都有一个批处理归一化，最后一个残差块的输出经过flatten后与经过sigmoid转换后的长度为L和1-L的肽作为全连接层的最后两个分支的输入，分别预测输入MHC与肽之间的绑定亲和力的高斯均值和方差。