开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文解读：BERT-Kcr: Prediction of lysine crotonylation sites by a transfer learning method -> 正文阅读

[人工智能]论文解读：BERT-Kcr: Prediction of lysine crotonylation sites by a transfer learning method

论文基本情况

作者单位：清华大学生命科学学院、安徽农业大学。
发表期刊情况：《Bioinformatics》，2020年影响因子：6.937。
代码链接： http://zhulab.org.cn/BERT-Kcr_models/
数据链接：http://zhulab.org.cn/BERT-Kcr_models/data

1. 研究背景

赖氨酸巴豆酰化（Lysine Crotonylation, Kcr）是蛋白质翻译后修饰（post-translational modifications，PTMs）一种重要的形式和调节蛋白质发挥生物学功能的重要方式，对发育、代谢、疾病等众多生理过程均起到关键的调控作用，改现象在2011年才由芝加哥大学赵英明教授研究团队发现，刊发于顶级期刊Cell杂志，属于较新的研究方向。针对该问题的研究主要通过实验和计算的方法，实验方法不但昂贵而且耗时。而计算方法可以高效、低成本地预测Kcr的位置。

2. 研究进展

3. 实验数据

3.1 赖氨酸巴豆酰化数据集

原始数据来源：来自于文章《Global crotonylome reveals CDYL-regulated RPA1 crotonylation in homologous recombination-mediated DNA repair》包含3734个蛋白质，14311个Kcr位点，使用CD-HIT设置序列识别阈值为30%去除冗余样本，得到9964个正样本，再从宫颈癌细胞（HeLa cells）获得相同数量的阴性样本。每个样品含有31个氨基酸，赖氨酸（K）位于中间，最终得到：
训练集：正样本为6975个肽（每个肽包含31个氨基酸）和负样本为6975个肽（每个肽包含31个氨基酸）。
在这里插入图片描述
测试集：正样本为2989个肽（每个肽包含31个氨基酸）和负样本为2989个肽（每个肽包含31个氨基酸）。

3.2 赖氨酸糖化和乙酰化数据集

测试集：正样本为2989个肽的Kcr位点（3.1测试集正样本），负样本为2556个肽的Kgly位点和1485 Kace位点。
Kgly数据集截图：
在这里插入图片描述
Kace数据集截图：

备注：这里的Kgly数据集和Kace数据集均为负样本

4. 实验方法

4.1 BERT特征编码

2017年BERT由谷歌的科学家提出，BERT通过在所有编码器层中使用注意机制对左右上下文联合条件作用，预先训练进行双向表示。它以一个单词序列作为输入，不断向上流动的编码器层堆叠。每一层应用自我注意，并将其结果通过前馈神经网络传递交给下一个编码器，如下图所示。

在这里插入图片描述

在这里插入图片描述
BERT模型的框架如下图所示：

4.2 分类器模型

深度学习方法：

Bi-LSTM：一个包含128个隐藏节点并激活ReLU的全连接层，一个dropout率为0.2的dropout层，一个包含2个隐藏节点和softmax激活函数的全连接层，Adam算法作为优化器，损失函数选用交叉熵损失公式。
CNN
FFNN

机器学习方法：

SVM
RF
XGBoost

5. 研究结果

5.1滑动窗口大小的选择

使用NLP模型对肽片段进行编码，需要将肽序列转换成以氨基酸为词的句子，作者使用kmer作为一个单词，其中k从1到7，具体过程如下图所示，其中1个氨基酸的窗口尺寸AUROC值最高为0.915。

在这里插入图片描述

5.2 不同BERT预训练模型比较

在所有预先训练的BERT模型中，选择了5个典型的模型对我们的模型进行再训练进行微调。
5种不同的BERT模型：

BERT-Tiny：440万个参数，2个transformers层和128个隐藏的嵌入。
BERT-Mini：1130万个参数，4个transformers层和256个隐藏的嵌入。
BERT-Small ：2910万个参数，4个transformers层，512个隐藏的嵌入。
BERT-Medium：4170万个参数，8个transformers层，512个隐藏的嵌入。
BERT-Base：1.101亿个参数，12个transformers层，768个隐藏的嵌入。

梯度搜索得到每个模型的最优参数：

在这里插入图片描述
最优参数交差验证评估不同模型的性能：

结论：BERT-Mini, BERT-Small 和 BERT-Medium10折交叉验证的AUROC都是0.918.但是BERT-Mini模型较小，所以采用BERT-Mini作为最终的预训练模型。

预训练对模型的影响：
使用 Swiss-Prot蛋白质序列预训练五个BERT模型，然后采用训练集对模型进行微调，五个模型交叉验证的结果如下图所示：

在这里插入图片描述
结论： BERT-Medium-Prot和BERT-Base-Prot10折交差验证的为AUROC都是0.920,尽管BERT-Mini的QUROC为0.918，但是BERT-Mini模型较小，所以采用BERT-Mini作为预训练模型。

5.3 不同NLP模型比较

BERT和其他两个NLP模型fastText和ELMo。由于目前没有预先训练好的fastText模型，我们直接使用fastText软件，对我们的训练数据集进行训练，并基于10倍交叉验证测试预测性能。此外，ELMo具有预训练的模型，因此我们基于我们的训练数据集对预训练的ELMo模型进行再训练，提取特征，然后将其传递到两层密集网络中，输出二值分类结果。10折交差验证的结果如下表所示：
在这里插入图片描述
结论：BERT模型优于其他两个NLP模型

5.4 BERT模型的优化

transformers层数的影响：

在这里插入图片描述
结论：BERT可以从更高层次的输入序列中学习信息特征表示，层数越多能够更加有效的去除噪声，更好的表示蛋白质的特征，四层transformers的BERT-Mini模型能够更好的表示进行特征表示。

为了进一步分析序列信息如何通过BERT模型学习，我们提取并分析了每个序列不同层中不同头部的注意权值。由于进一步利用最后一层CLS令牌的嵌入进行分类，我们计算了其他31个令牌对CLS的注意权值，BERT-Mini模型整体注意力在四个不同的层次上权重如下图所示。
在这里插入图片描述
结论：四层transformers的BERT-Mini模型能够更好的表示进行特征表示，权值更加集中于中心残疾。

基于整个训练数据集的正负序列之间的Two Sample Logo图。计算了31个位置的整体注意权重与耗尽剩余频率之间的相关系数。相关系数分别为0.109、0.523、0.369和为四层，分别为0.629。
在这里插入图片描述
结论：序列信息可以在高层用注意力权重表示。

5.5 分类器的比较

将预先训练的BERT-Mini模型提取的特征，将得到的特征输入到SVM、RF、XGBoost、CNN、BiLSTM和FFNN六个分类器中，得到以下结果。
在这里插入图片描述
**结论：**综合分析BERT_BiLSTM能取得更优的结果。

从经过微调的BERT- mini模型中提取向量表示，然后将其输入到下游的深度学习层，从而对BERT编码器和下游的深度学习层的参数进行微调，得到下图结果。
在这里插入图片描述
结论：微调并没有能够提升模型的预测效果。

5.6 独立测试比较

为了进一步评估我们的模型的性能，我们将我们的模型的预测结果与其他几个Kcr站点预测器(如基于位置权重的方法)进行了比较。
在这里插入图片描述
结论：BERT-Kcr预测性能优于Deep-Kcr等四种工具。
根据BERT-Kcr (BERT_BiLSTM)等方法在独立测试集上的预测结果绘制ROC和PRC图：

结论：与其他先进的方法相比，我们的BERT-Kcr模型在检测蛋白Kcr位点方面显示出了令人印象深刻的预测和识别能力。