论文解读《#m6AmPred:基于序列衍生信息识别 RNA N6、2’-O-二甲基腺苷 (m6Am) 位点》 数据:https://www.xjtlu.edu.cn/biologicalsciences/m6am
目录 1、介绍 2、材料和方法 2、结果
介绍
NA的动态表观遗传修饰已成为过去几年生物学研究的重要焦点。自从发现第一个结构修饰的核苷以来,已经表征了 170 多种转录后修饰[1,2]。在几乎所有类型的 RNA 上都发现了 RNA 修饰,包括 mRNA、rRNA、tRNA 和 snRNA,它们在调节生物功能方面表现出高度的特异性和效率 最近的研究已经开始揭示 m6Am 在增强 mRNA 稳定性和翻译效率方面的功能 ]和阻碍结直肠癌干细胞能力的功能 。m6Am 位点的鉴定对于阐明其生物学功能至关重要 在这项研究中,我们尝试开发一种用于识别 RNA 序列中 m6Am 位点的计算机技术,使用 eXtreme Gradient Boosting 算法,XgbDart 作为分类器。
材料和方法
1、特征提取
1、.核苷酸化学性质 (NCP) 和核苷酸密度 (ND) 核苷酸密度(ND)表示核苷酸在每个位置的分布和频率信息。**第 i 个位置的核苷酸 N 的密度 (di) 可以通过 N 出现的数量 (n) 来计算 在第 (i +1) 个位置除以i之前:di =n/i。因此,对于序列“AUAGUCAUAA”,A在第 1、3、7、9 和 10 位的密度分别为 1、0.67、0.43、0.44 和 0.50。类似地,U 为 0.50,具体来说,A、C、G、U可以编码为向量(1,1,1,di)、(0,1,0,di)、(1,0,0,di)和(0,0,1 ,di) 分别。因此,RNA 序列中的每个核苷酸将被编码为四个数值,并且每个 RNA 序列将被编码为 4 (侧翼序列的长度)维向量 2、.电子-离子相互作用电位(EIIP)和伪EIIP(PseEIIP)采用核苷酸的电子-离子相互作用电位(EIIP)值的编码方案最初由Nair和Sreenadhan[37]提出,并被用于其他生物信息学研究领域后来[38-40]。在 EIIP 中,每个 mRNA 核苷酸都被编码为一个数值,代表它的电子- 离子相互作用势。每个核苷酸的 EIIP值在表 2中给出。在我们的研究中,EIIP编码生成一个长度为 41 的数字向量。此外,为 EIIP (PseEIIP) 是通过将三核苷酸的数值总和与其在给定序列中的频率相乘来计算的。 PseEIIP = [EIIPAAAf AAA, EIIPAACf AAC, EIIPAAGfAAG, ……., EIIPTTTf TTT, ] 每个核苷酸的EIIP
2、训练集和测试集
数据从基因表达下载综合 (GEO) 将两个GEO数据集的数据合并,分为完整转录数据集和成熟RNA数据集,完整转录数据集中2447个阳性序列,成熟RNA数据集中1673个阳性序列。将完整的转录本和成熟的RNA数据集随机分离,以8:2的比例进行训练集和测试集。然后,将两个GEO数据集作为训练集,另一个分别作为测试集,以测试模型的坚固性。表1列出了每个数据集的站点数
3、机器学习分类器的选择
支持向量机 (SVM)、随机森林 (RF)、线性模型 (GLM) 是 RNA 修饰预测中最流行的机器学习分类器,已广泛用于不同的修饰预测 [16,22,30,42 ]。此外,本研究还测试了极限梯度提升算法 XgbDart (XGBDART),该算法之前尚未被其他 RNA 修饰预测器使用。 XgbDart[43]最初是由 K. V. Rashmi 和 RanGilad-Bachrach通过对集成树采用 dropout 来克服过度专业化问题而提出的。我们通过 10 倍交叉验证和独立测试集评估了这些算法的性能。 *XgbDart 算法的超参数通过对 boosting 迭代次数、最大树深度、收缩(学习率)、最小损失减少、子样本百分比、列子样本比率、分数应用网格搜索来调整丢弃的树的数量、跳过 drop-out 的概率以及实例权重的最小总和。选择最佳序列长度和超参数用于 m6AmPred 的最终构建 * .独立测试集对具有两种不同编码方案的四种分类器的性能评估。不同编码方案的不同分类器的AUC值比较如上图所示。下图比较了两种不同编码方案的四种分类器在全转录模式下的预测性能,下图为成熟RNA模式下的结果。 * XGBDART = XgbDart,SVM =支持向量机,RF = 随机 森林,GLM =线性模型。
结果
当通过独立测试集评估时,我们的模型实现了相当高的准确度,完整转录本的 AUC 为 0.932,成熟 RNA 的 AUC 为 0.956。该模型还通过使用来自两个来源的数据进行了交叉评估。使用 GSE63753 作为训练集时,AUC 和 10 倍交叉验证的准确率出乎意料地低于使用整个 GSE78040 作为独立测试集的结果。与我们的常识不同,该模型通常比测试数据集更适合训练数据集
|