| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 文献阅读:DeepLigand: accurate prediction of MHC class I ligands using peptide embedding -> 正文阅读 |
|
[人工智能]文献阅读:DeepLigand: accurate prediction of MHC class I ligands using peptide embedding |
发表年份:2019 下载地址:点击下载 目录 1、摘要:????????提出半监督模型DeepLigand,主要针对MHC-I类配体预测。DeepLigand结合了肽语言模型和肽结合亲和力预测来评估MHC-I类肽表现。肽语言模型描述了MHC配体选择中与次要因素相对应的序列特征,而不是结合亲和力。肽嵌入是通过天然配体的预训练来学习的,并且在没有结合亲和力预测的情况下可以区分配体和非配体。 将显示配体定义为:
????????对于模型元素(I):采用深度残差网络对MHC亲和力进行建模,该网络根据MHC和肽的氨基酸序列预测亲和力。 ????????对于模型元素(II):通过对所有MHC天然配体进行无监督学习来学习肽序列的嵌入。 ????????Deep Ligand方法在天然MHC配体预测中的性能有所提高,不仅可以从具有适度MHC结合亲和力的候选多肽中识别MHC配体,单肽嵌入能够高度预测自然配体。 2、数据集:????????来自IDEB(Abelin 2017)和Kim(2014)的525672个结合亲和力和质谱数据组成。 3、数据集处理:????????每个肽训练实例都是通过结合亲和力和质谱数据的存在/缺失来标记的。在结合亲和力和质谱数据集中的一些例子中,只有定性的亲和测量,表示为正、正高、正中、正低或负。Donnel等人为每一类定性标签指定一个定量值和“>”和“<”关系,以表示相应的亲和范围。具有定量亲和力的例子被赋值为“1/4”关系。本文进一步给非配体肽一个“unknown”亲和力。通过将其封顶在1~50000nM之间,得到的归一化亲和力介于0和1之间。 ????????除了结合亲和力,还为每个例子创建配体标签,将质谱鉴定的配体标记为阳性,非配体肽标记为阴性,其他肽标记为“unknown”。同时删除了文献中找不到与肽接触的MHC氨基酸伪序列的MHC等位基因。最终的数据集包含3052388个样本,涵盖219个MHC一类等位基因。(具体信息情况supplement_table S2里面有详细的数据信息) 4、模型框架:DeepLigand主要由两个模块组成:
对于绑定亲和力预测模块: ????????该模块是以多肽的氨基酸序列和MHC分子的伪序列作为输入的深度残差网络。(Deep Residual Network) ????????其中MHC等位基因的伪序列是一个或多个主要MHC等位基因结构中34个多肽位置的氨基酸残基。该特征向量由两个编码序列连接而成:一个20维的one-hot编码和描述氨基酸之间进化相似性的20维BLOSUM50矩阵得分向量。(总计40个氨基酸) ????????每个MHC生成一个40×34的特征矩阵,每个肽生成一个40×40的特征矩阵。然后将MHC特征矩阵转换成1360×1向量,再沿着第一个维度添加到肽矩阵中,最终的特征矩阵为1400×40(这个就是深层残差网络的输入),即下图这个过程! ????????残差网络由一个初始卷积块、五个残差块(每个残差块都有两个卷积层)和两个全连接层组成。每个卷积层由256个卷积核,stride=1,kernel_size=3,并且每个卷积层后面都有一个批处理归一化,最后一个残差块的输出经过flatten后与经过sigmoid转换后的长度为L和1-L的肽作为全连接层的最后两个分支的输入,分别预测输入MHC与肽之间的绑定亲和力的高斯均值和方差。 ????????每个分支由:64个神经元和1个神经元组成。并且采用ReLU激活函数,Adam优化器,并且随机抽取训练集的1/9作为验证集,所有的超参数,训练周期和优化器参数都是根据验证集进行选择。 对于肽嵌入模块: ????????采用ELMo学习上下文依赖的氨基酸嵌入,而这个EMLo将每个肽序列看成一个句子,将每个氨基酸看作一个单词,在语料库中(天然配体序列)上训练出一个深度双向语言模型。句子中每个词的ELMo嵌入是该词在语言模型中所有隐藏状态的平均值,同时考虑了该词和语义上下文。ELMo如下图所示: ????????在所有天然配体中进行训练,然后用得到的模型将每个肽嵌入成一个64×40的矩阵,其中60表示嵌入的维度,40表示数据集中氨基酸的最大长度,然后再将这个矩阵flatten成2560维的向量,作为该模型的输出。 5、提出两种可选的学习策略:????????affinity-only和two-task ????????其中two-task是增加一组额外的两层全连接层后跟一个sigmoid输出层,主要用于预测输入肽是否为输入MHC的配体。 6、对比算法:????????NetMHCPan4.0和MHCflurry,这两种方法都只支持MHC等位基因。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 21:52:33- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |