| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 论文解读:BERT-Kcr: Prediction of lysine crotonylation sites by a transfer learning method -> 正文阅读 |
|
[人工智能]论文解读:BERT-Kcr: Prediction of lysine crotonylation sites by a transfer learning method |
目录论文基本情况作者单位:清华大学生命科学学院、安徽农业大学。 1. 研究背景赖氨酸巴豆酰化(Lysine Crotonylation, Kcr)是蛋白质翻译后修饰(post-translational modifications,PTMs)一种重要的形式和调节蛋白质发挥生物学功能的重要方式,对发育、代谢、疾病等众多生理过程均起到关键的调控作用,改现象在2011年才由芝加哥大学赵英明教授研究团队发现,刊发于顶级期刊Cell杂志,属于较新的研究方向。针对该问题的研究主要通过实验和计算的方法,实验方法不但昂贵而且耗时。而计算方法可以高效、低成本地预测Kcr的位置。 2. 研究进展3. 实验数据3.1 赖氨酸巴豆酰化数据集原始数据来源:来自于文章《Global crotonylome reveals CDYL-regulated RPA1 crotonylation in homologous recombination-mediated DNA repair》包含3734个蛋白质,14311个Kcr位点,使用CD-HIT设置序列识别阈值为30%去除冗余样本,得到9964个正样本,再从宫颈癌细胞(HeLa cells)获得相同数量的阴性样本。每个样品含有31个氨基酸,赖氨酸(K)位于中间,最终得到: 3.2 赖氨酸糖化和乙酰化数据集测试集:正样本为2989个肽的Kcr位点(3.1测试集正样本),负样本为2556个肽的Kgly位点和1485 Kace位点。 4. 实验方法4.1 BERT特征编码2017年BERT由谷歌的科学家提出,BERT通过在所有编码器层中使用注意机制对左右上下文联合条件作用,预先训练进行双向表示。它以一个单词序列作为输入,不断向上流动的编码器层堆叠。每一层应用自我注意,并将其结果通过前馈神经网络传递交给下一个编码器,如下图所示。
4.2 分类器模型深度学习方法:
机器学习方法:
5. 研究结果5.1滑动窗口大小的选择使用NLP模型对肽片段进行编码,需要将肽序列转换成以氨基酸为词的句子,作者使用kmer作为一个单词,其中k从1到7,具体过程如下图所示,其中1个氨基酸的窗口尺寸AUROC值最高为0.915。 5.2 不同BERT预训练模型比较在所有预先训练的BERT模型中,选择了5个典型的模型对我们的模型进行再训练进行微调。
梯度搜索得到每个模型的最优参数:
预训练对模型的影响:
5.3 不同NLP模型比较BERT和其他两个NLP模型fastText和ELMo。由于目前没有预先训练好的fastText模型,我们直接使用fastText软件,对我们的训练数据集进行训练,并基于10倍交叉验证测试预测性能。此外,ELMo具有预训练的模型,因此我们基于我们的训练数据集对预训练的ELMo模型进行再训练,提取特征,然后将其传递到两层密集网络中,输出二值分类结果。10折交差验证的结果如下表所示: 5.4 BERT模型的优化transformers层数的影响:
为了进一步分析序列信息如何通过BERT模型学习,我们提取并分析了每个序列不同层中不同头部的注意权值。由于进一步利用最后一层CLS令牌的嵌入进行分类,我们计算了其他31个令牌对CLS的注意权值,BERT-Mini模型整体注意力在四个不同的层次上权重如下图所示。 基于整个训练数据集的正负序列之间的Two Sample Logo图。计算了31个位置的整体注意权重与耗尽剩余频率之间的相关系数。相关系数分别为0.109、0.523、0.369和为四层,分别为0.629。 5.5 分类器的比较将预先训练的BERT-Mini模型提取的特征,将得到的特征输入到SVM、RF、XGBoost、CNN、BiLSTM和FFNN六个分类器中,得到以下结果。 从经过微调的BERT- mini模型中提取向量表示,然后将其输入到下游的深度学习层,从而对BERT编码器和下游的深度学习层的参数进行微调,得到下图结果。 5.6 独立测试比较为了进一步评估我们的模型的性能,我们将我们的模型的预测结果与其他几个Kcr站点预测器(如基于位置权重的方法)进行了比较。 5.7 检验模型泛化能力赖氨酸糖基化(Kgly)和乙酰化(Kace)位点作为负样本,独立检测数据中的赖氨酸crotonylation (Kcr)位点作为正样本,从而得到一个新的测试集,利用得到新的测试集测试Kcr训练的模型得到下图结果。
独立测试集和赖氨酸糖基化(Kgly)和乙酰化(Kace)位点作为负样本的比较。 6. 结论
7. 启发
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 6:31:25- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |