IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 文献阅读:DeepLigand: accurate prediction of MHC class I ligands using peptide embedding -> 正文阅读

[人工智能]文献阅读:DeepLigand: accurate prediction of MHC class I ligands using peptide embedding

发表年份:2019

下载地址:点击下载

目录

1、摘要:

2、数据集:

3、数据集处理:

4、模型框架:

5、提出两种可选的学习策略:

6、对比算法:


1、摘要:

????????提出半监督模型DeepLigand,主要针对MHC-I类配体预测。DeepLigand结合了肽语言模型和肽结合亲和力预测来评估MHC-I类肽表现。肽语言模型描述了MHC配体选择中与次要因素相对应的序列特征,而不是结合亲和力。肽嵌入是通过天然配体的预训练来学习的,并且在没有结合亲和力预测的情况下可以区分配体和非配体。

显示配体定义为

  1. MHC多肽结合亲和力
  2. 多肽载体嵌入的功能,该多肽具有可能与蛋白酶体切割足迹、TAP运输效率和其他过程相关的基序相关的序列模式。

????????对于模型元素(I):采用深度残差网络对MHC亲和力进行建模,该网络根据MHC和肽的氨基酸序列预测亲和力。

????????对于模型元素(II):通过对所有MHC天然配体进行无监督学习来学习肽序列的嵌入。

????????Deep Ligand方法在天然MHC配体预测中的性能有所提高,不仅可以从具有适度MHC结合亲和力的候选多肽中识别MHC配体,单肽嵌入能够高度预测自然配体。

2、数据集:

????????来自IDEB(Abelin 2017)和Kim(2014)的525672个结合亲和力和质谱数据组成。

3、数据集处理:

????????每个肽训练实例都是通过结合亲和力和质谱数据的存在/缺失来标记的。在结合亲和力和质谱数据集中的一些例子中,只有定性的亲和测量,表示为正、正高、正中、正低或负。Donnel等人为每一类定性标签指定一个定量值和“>”和“<”关系,以表示相应的亲和范围。具有定量亲和力的例子被赋值为“1/4”关系。本文进一步给非配体肽一个“unknown”亲和力。通过将其封顶在1~50000nM之间,得到的归一化亲和力介于0和1之间。

????????除了结合亲和力,还为每个例子创建配体标签,将质谱鉴定的配体标记为阳性,非配体肽标记为阴性,其他肽标记为“unknown”。同时删除了文献中找不到与肽接触的MHC氨基酸伪序列的MHC等位基因。最终的数据集包含3052388个样本,涵盖219个MHC一类等位基因。(具体信息情况supplement_table S2里面有详细的数据信息

4、模型框架:

DeepLigand主要由两个模块组成:

  1. 绑定亲和力预测模块
  2. 肽嵌入模块

对于绑定亲和力预测模块:

????????该模块是以多肽的氨基酸序列MHC分子的伪序列作为输入的深度残差网络。(Deep Residual Network)

????????其中MHC等位基因的伪序列是一个或多个主要MHC等位基因结构中34个多肽位置的氨基酸残基。该特征向量由两个编码序列连接而成:一个20维的one-hot编码和描述氨基酸之间进化相似性的20维BLOSUM50矩阵得分向量。(总计40个氨基酸)

????????每个MHC生成一个40×34的特征矩阵,每个肽生成一个40×40的特征矩阵。然后将MHC特征矩阵转换成1360×1向量,再沿着第一个维度添加到肽矩阵中,最终的特征矩阵为1400×40(这个就是深层残差网络的输入),即下图这个过程!

????????残差网络由一个初始卷积块、五个残差块(每个残差块都有两个卷积层)和两个全连接层组成。每个卷积层由256个卷积核,stride=1,kernel_size=3,并且每个卷积层后面都有一个批处理归一化,最后一个残差块的输出经过flatten后与经过sigmoid转换后的长度为L和1-L的肽作为全连接层的最后两个分支的输入,分别预测输入MHC与肽之间的绑定亲和力的高斯均值和方差。

????????每个分支由:64个神经元和1个神经元组成。并且采用ReLU激活函数,Adam优化器,并且随机抽取训练集的1/9作为验证集,所有的超参数,训练周期和优化器参数都是根据验证集进行选择。

对于肽嵌入模块:

????????采用ELMo学习上下文依赖的氨基酸嵌入,而这个EMLo将每个肽序列看成一个句子,将每个氨基酸看作一个单词,在语料库中(天然配体序列)上训练出一个深度双向语言模型。句子中每个词的ELMo嵌入是该词在语言模型中所有隐藏状态的平均值,同时考虑了该词和语义上下文。ELMo如下图所示:

????????在所有天然配体中进行训练,然后用得到的模型将每个肽嵌入成一个64×40的矩阵,其中60表示嵌入的维度,40表示数据集中氨基酸的最大长度,然后再将这个矩阵flatten成2560维的向量,作为该模型的输出。

5、提出两种可选的学习策略:

????????affinity-only和two-task

????????其中two-task是增加一组额外的两层全连接层后跟一个sigmoid输出层,主要用于预测输入肽是否为输入MHC的配体。

6、对比算法:

????????NetMHCPan4.0和MHCflurry,这两种方法都只支持MHC等位基因。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-07 21:46:06  更:2021-08-07 21:46:23 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 21:52:33-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码