[人工智能] 论文解读《ISGm1A：整合序列特征和基因组特征，提高对人类m1ARNA甲基化位点的预测》

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文解读《ISGm1A：整合序列特征和基因组特征，提高对人类m1ARNA甲基化位点的预测》 -> 正文阅读

[人工智能]论文解读《ISGm1A：整合序列特征和基因组特征，提高对人类m1ARNA甲基化位点的预测》

?
目录

摘要

索引术语

一、介绍

二、方法

 A.数据集的构建

 B.特征表示

     1)序列特征

     2)基因组特征

 C.评价指标

三.结果和讨论

 A.通过交叉验证比较五种分类器

加粗样式
B.独立测试中5个分类器的比较

 C.功能选择

 D.与其他方法的比较

 E.转录组范围内的m1a位点预测

四、结论

摘要

n1-甲基腺苷(m1A)作为一种新的表转录组学修饰，在基因表达调控中起着重要作用。虽然我们提出了一些计算方法来预测m1A修饰位点，但所有这些方法都应用了基于核苷酸序列特征的机器学习预测，它们错过了转录本拓扑和RNA二级结构的信息层。为了增强m1ARNA甲基化的预测模型，我们提出了一个计算框架ISGm1A，该框架代表整合序列特征和基因组特征，以提高对人类m1ARNA甲基化位点的预测。基于随机森林算法，ISGm1A利用传统的序列特征和75个基因组特征，提高了人类m1A位点的预测性能。五倍交叉验证和独立检验结果表明，ISGm1A的性能优于其他预测算法(AUC=分别为0.903和0.909)。此外，通过分析特征的重要性，我们发现基因组特征在位点预测中比序列特征更重要。此外，利用ISGm1A，我们通过预测转录组中的所有腺嘌呤位点，生成了一个高精度的m1A图谱。

该研究的数据和结果可在：https://github.com/lianliu09/m1a_prediction.git.

上免费获得

索引术语 外转录组，m1A，位点预测，序列特征，基因组特征。

一、介绍

RNA表观遗传修饰在RNA生命周期的各个阶段发挥着重要作用，这发生在所有类型的RNA中。目前，已经鉴定出170多种不同的RNA修饰。其中，n1-甲基腺苷(m1A)是一种新的表转录组修饰，即腺嘌呤第一位置的氮被甲基[1]修饰。芝加哥大学的研究通过m1ARNA甲基化测序和RIP测序技术全面分析了真核mRNA中m1A的甲基化，发现m1A化学修饰的存在可以显著提高转录本的蛋白翻译。进一步观察到m1A修饰在进化上是保守的并且普遍存在于人类，其对RNA表达的拓扑选择性和生物学机制表明，对RNA存在一层新的表观遗传调控层。总的来说，这些发现可能为RNA生物学[2]提供一个新的视角。利用m1A-MAP技术，一些研究确定了细胞核和线粒体RNA中m1A的甲基化位点。他们的结果表明，m1A的大部分甲基化修饰位点集中在mRNA转录本的5‘UTR中，符合“GUUCRA’”序列基序的m1A位点是由已知的甲基化酶复合物TRMT6/61A产生的。该研究还发现了线粒体编码转录本中的大量m1a甲基化修饰。与普遍存在的mRNA修饰m6A不同，m1A的丰度相对较低，而且它主要分布在mRNA的5‘UTR区域，特别是在转录本起始位点的第一和第二位置。mRNA转录本5‘UTR内的m1A可以促进蛋白的翻译，但在转录本编码区观察到的m1A可以导致翻译[3]的抑制。此外，一种RNA修复酶ALKBH1通过催化去甲基化反应[4]作为m1A擦除剂。最后但并非最不重要的是，m1A可以影响核糖体生物合成[5]，介导rRNA中的抗生素耐药性[6]，并介导tRNA[7]、[8]对环境应激的反应。

随着高通量测序技术的快速发展，miCLIP[9]、m1A-seq[10]、m1A-MAP[3]、m1A-IP-seq[11]等碱基分辨率技术可以在给定的细胞样本中以单碱基分辨率绘制m1A位点的精确位置。然而，由于技术的复杂性和碱基分辨率实验的高成本，它尚未被广泛应用于不同生物环境下的m1A表转录组的研究。然而，现有的碱基分辨率数据集为训练RNAm1A修饰的机器学习预测模型提供了足够的信息。已经提出了几种预测m1a甲基化位点的计算方法。特别是，RAMPReD[12]利用SVM预测智人、肌肉杆菌和酿酒酵母的m1A修饰位点。RAMPred所使用的特征编码方法是基于物理性质、化学性质和碱基累积频率所描述的特征的41-nt序列。iRNA-PseColl[13]应用相同的序列特征编码模式，使用机器学习分类器预测m6A、m1A和m5C位点。此外，该方法也被用于预测iRNA-3typeA[14]项目中的m6A、m1A和A-A-I位点，该位点同时针对智人和小家鼠转录组。同时，发表了许多m6A方法的RNA预测框架可以转移到m1A位点预测。例如，MethyRNA[15]使用与RAMPred相同的编码模式来预测人类上的m6A位点。iRNA-甲基[16]应用PseDNC的序列特征表示方法捕获其二核苷酸组成和理化特征。irna-甲基的预测模型由SVM进行。M6AMRFS[17]通过二核苷酸二进制编码和局部位置特异性二核苷酸频率构建序列特征。其中实现的机器学习方法是XGBoost。最后但重要的是，我们开发了几种基于深度学习的预测m6A[18]-[21]的方法。然而，上述所有方法都基于修饰位点周围序列的输入来预测RNA修饰位点，而忽略了基于注释来自基因的位点的拓扑信息。因此，WHISTLE[22]通过序列特征和基因组特征结合预测m6A位点来解决这一问题，并进行大规模预测，解读整个m6A表转录组的高精度图。

受WHISTLE的启发，我们提出了一个计算框架，整合序列特征和基因组特征，以提高对人类m1ARNA甲基化位点(ISGm1A)的预测，对人类转录组中的m1A甲基化状态进行分类。ISGm1A基于使用碱基分辨率的m1A位点训练的随机森林算法来预测m1A甲基化组。ISGm1A中使用的预测因子涉及核苷酸理化性质和累积频率的传统序列特征，以及来自手工制作的基因组注释的额外75个特征。

二、方法

A.数据集的构建

为了预测智人的m1A甲基化位点，我们从3种细胞类型的12个数据集，包括HEK293T、HeLa和HepG2，其中HEK293T有7个数据集，2个来自HeLa，3个来自HepG2（见表1）。m1A阳性位点被定义为来自12个数据集的m1A位点的联合。阴性m1A位点是通过在包含阳性样本的外显子区域上取相同数量的随机腺苷呤位点来确定的。此外，没有报道从模糊区域可以定位到多个基因的位点。最后收集了39104m1A位点，其中阳性位点19552个，阴性位点19552个。我们随机选择五分之四的地点进行训练，其余的地点被保留进行测试。

表1.m1A预测中的单碱基分辨率数据集

在这里插入图片描述

B.特征表示

本研究采用序列特征和基因组特征两种特征来表示m1A位点

1)序列特征

以腺嘌呤为中心的41序列中的每个碱基都用一个使用相同的方法RAMPred[12]的四维向量表示。一个mRNA序列由四种核苷酸组成，包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶?和尿嘧啶(U)。在序列特征表示中，根据不同的结构性质，首先使用三个特征来表示一个核苷酸即环数、氢键和化学功能。在这四种核苷酸中，嘌呤有两个环，而嘧啶只有一个环，所以腺嘌呤和鸟嘌呤只有一个环，而胞嘧啶和尿嘧啶有两个环。虽然RNA是一个单链分子，但RNA的生物学功能与RNA二级结构捕获的内部杂交密切相关。当二级结构形成时，鸟嘌呤和胞嘧啶最多形成三个氢键，而腺嘌呤和尿嘧啶最多形成两个氢键。因此，根据氢键的强度，鸟嘌呤和胞嘧啶具有较强的氢键，而腺嘌呤和尿嘧啶具有较弱的氢键。此外，腺嘌呤和胞嘧啶根据化学功能，鸟嘌呤和尿嘧啶分为酮基。通过这个定义，可以得到每个碱基的三种化学性质。这三种化学性质的定义如下：
在这里插入图片描述

根据上述化学性质的定义，A、G、C和U可以分别编码为A=（1,1,1）、G=（1,0,0）、C=（0,1,0）、U=（0,1,0）。此外，为了描述碱基在序列中的分布，将序列特征的碱频积累值作为序列特征的第四个特征，即i位置之前第i个碱基的发生频率。第i个碱基的密度fi定义如下：

在这里插入图片描述

其中di定义为前一个i个碱基中第i个碱基出现的次数之和。例如，对于一个碱基分布为“GAAUCCUGGA”的序列，G分别出现在第一、第八和第九个位置，因此G的频率分别为1/1、2/8和3/9。同时，A的累积频率分别为1/2、2/3、3/10。基于此原理，我们可以计算输入核苷酸序列中每个碱基的频率累积值。根据前面描述的物理化学性质和频率积累特性，序列中的每个碱基都可以用一个四维向量来表示。

2)基因组特征

目前，大多数m1A预测方法只使用序列特征，但核苷酸序列特征只能代表序列中每个碱基的特征，而不能代表转录本注释中RNA甲基化位点的拓扑特征。因此，我们产生了75个额外的基因组特征来解释m1A位点的拓扑和转录组特征。在这些特征中，基因组特征1-17是虚拟变量，表明该位点是否与主要RNA转录本上的拓扑区域重叠。特征18-23表示在这些区域上的相对位置，而特征18-23的值在[0,1]上是真实的。基因组特征24-25代表指向剪接连接的核苷酸距离。特征26-33代表了包含m1A甲基化位点的转录区域的长度。特征34-51表明m1A位点属于哪个基序。基因组特征52-55是聚类指标或基序聚类，可以反映甲基化位点的聚类特征。特征56-59是到邻近站点或最近的A主题的距离。基因组特征60-63是与进化保护相关的得分，包括吞噬体的缺点(PC)得分、平均PC得分、适合度结果(FC)得分和平均FC得分。特征64-65表明RNAfold[24]的RNA二级结构信息。特征66代表与m1A生物学相关的RNA注释。基因组特征67-71是假变量，表明该位点是否与sncRNA、lncRNA、lincRNA、管家基因和microRNA重叠。转录本亚型和外显子数的z分数由特征72-73来描述。基因组特征74-75包含基因GC含量的z分数和以m1A位点为中心的101bp区域。我们所考虑的基因组特征被详细记录在补充表S1中。

C.评价指标

为了进一步测量该模型的性能，我们采用了四种性能指标，即Sn（灵敏度）、Sp（光谱特异性）、ACC（准确性）、MCC（马修斯的相关系数）。在这些指标中，Sn表示该模型在预测阳性样本方面的准确性。Sn越高，说明对阳性样本的预测性能较高。同时，Sp越高，说明对阴性样本的预测性能越高。ACC代表了真阳性和真阴性样本预测的成功率。一个好的预测模型应该同时具有高Sn和Sp。如果Sn很高，Sp很低，则产生高假阳性，而如果Sp很高，Sn很低，则产生高假阴性。此外，MCC可以反映结果的可靠性，这对样本比例的不平衡是稳健的。这四个指标的定义如下：
在这里插入图片描述

其中，TP、TN、FP、FN分别为真阳性、真阴性、假阳性、假阴性等值。此外，绘制了接收器工作特性(ROC)曲线，并计算曲线下的区域(称为“AUC”)，以评估预测模型的性能。

表2.在五倍交叉验证中的性能
在这里插入图片描述

三.结果和讨论

A.通过交叉验证比较五种分类器

为了比较不同分类器的预测结果，我们使用了5种常见的机器学习分类器，分别是随机森林(RF)[25]、支持向量机(SVM)[14]、k-最近邻(KNN)[26]、逻辑回归(LR)[27]和eXtreme梯度增强(XGBoost)[28]。RF是一种广泛使用的基于树的机器学习算法，被SRAMP[29]用于预测哺乳动物的m6A位点。SVM是另一种广泛应用于许多计算生物学预测模型中的机器学习方法，在此基础上，iRNA-3型A、RAMPRED和iRNA-PseColl实现了人类、小鼠和酵母中m1A位点的预测。KNN是机器学习算法中最基本和最简单的算法之一。它可以用于分类和回归。KNN通过测量不同特征值之间的距离来进行分类。LR是机器学习中的另一种基本分类方法，是一种计算效率高的线性模型。XGBoost[28]广泛应用于数据科学竞争和行业中，可以有效地应用于结构化数据的分类、回归和排序问题。M6AMRFS[17]和HMpre[30]均基于XGBoost预测了修饰位点。为了比较5个分类器的性能，对训练数据进行了5倍交叉验证，并在m1a预测中采用最佳分类器。不同分类器在交叉验证中的性能如表2和图.1所示，结果表明，除Sp外，RF在与AUC=0.903的5倍交叉验证中性能最好。
在这里插入图片描述

图1.五个分类器在交叉验证中的性能

B.独立测试中5个分类器的比较

接下来，我们比较了5个分类器的预测结果。不出所料，RF在独立测试中也取得了最好的性能（见表3）。此外，ROC曲线也如图所示。2.基于交叉验证和独立检验的结果，我们选择RF作为m1A位点预测的最终模型。

表3. 5个分类器在独立测试中的性能
在这里插入图片描述

图2. 5个分类器的ROC曲线

C.功能选择

为了获得最有效的预测结果，我们使用特征选择来定义最有效的特征子集。首先，我们对五倍交叉验证中特征的重要性进行了排序，该验证是由R包中的RF计算的。然后，我们根据排序的特征集每次向特征集添加一个特征，并计算五倍交叉验证中的AUC。最后，得到了AUC最高的最优特征子集。如图所示.3A，前5个最重要的特征是位点到下游（3’端）剪接点(dist_3sj_2k)、位点是否与内部外显子重叠(inter_exon)、位点重叠的CDS长度(len_CDS)、位点重叠的基因长度(len_gene_full)、与最近相邻位点的距离(最大为200bp)(ndist_m2h)，均属于基因组特征。这表明，基因组特征在预测m1a位点中发挥着更重要的作用。此外，我们还发现，当使用所有特征时，可以获得最高的AUC(见图.3B)。这可能是由于所选的特性与数据无关所致。

然后，我们分别使用不同类型的特征，即序列特征（序列)、基因组特征(基因组)和序列特征和基因组特征(序列+基因组）的组合来预测m1A位点。性能总结如图所示.4。如图所示.4，将序列特征和基因组特征相结合，可以获得最佳的预测性能。同时，当只使用单一类型的特征时，基因组特征的结果比序列特征要好得多。这一观察结果表明，在m1a位点预测中，基因组特征一般比序列特征更有效。

虽然当使用单一类型的特征时，基因组特征比序列特征可以得到更好的结果，但基因组特征和序列特征的整合可以进一步提高预测的性能。因此，我们使用两种特征的整合来预测m1A位点。

在这里插入图片描述

图3.功能选择的结果。A.m1A站点预测的前30个特征的排名。B.选择所有特征以生成最优特征子集
在这里插入图片描述

图4.不同类型的特征的结果
在这里插入图片描述

表4.m1A站点预测的性能比较
在这里插入图片描述

图5.m1a位点预测的ROC曲线

D.与其他方法的比较

为了进一步验证该算法的有效性，我们将该模型与现有的m1A预测方法进行了比较。由于在RAMPRed、iRNA-3typeA、iRNA-PseColl中应用了相同的特征和分类器用于预测，因此我们只选择RAMPred进行比较。通过显示ROC曲线，结果总结在表4和图5中。可以看出，与现有的方法相比，ISGm1A在预测RNA上的m1A位点方面取得了优越的性能。

E.转录组范围内的m1a位点预测

为了用我们的预测模型生成人类m1a甲基化位点的完整图谱，我们搜索了转录组的整个外显子区域，并使用所有腺嘌呤位点作为候选区域。用所提出的模型估计了所有候选位点的m1a阳性的概率。最后，在总共23,138,573种腺嘌呤中，有147,762个位点被预测为m1ARNA甲基化位点。完整的预测结果可在：https://github.com/lianliu09/m1a_prediction.git.

上免费访问

四、结论

作为最近发现的内部mRNA修饰，m1A是基因表达调控的重要信息层。随着高通量测序技术的发展，人们可以在整个转录组范围内高精度地测量和预测mRNA甲基化状态。以前很少有研究建立了对转录组中m1A的RNA修饰状态的预测方法。

在本文中，我们提出了ISGm1A，一个通过整合序列特征和基因组特征来预测m1A位点的新框架。ISGm1A首先提取了碱基的理化性质和累积频率，以捕获m1A位点的侧翼序列的信息。此外，ISGm1A精心制作了75个额外的基于领域知识的基因组特征，以增强m1A位点的预测能力。使用随机森林分类器，ISGm1A在5倍与目前发表的方法的交叉验证和独立测试下都取得了优越的性能。此外，利用训练后的预测模型，我们扫描了外显子区域上的所有腺嘌呤位点，并预测了人类147,762个候选m1A位点。总之，综上所述，只要基因组伴随着高质量的基因注释，该预测框架就可以转移到预测人类以外物种的m1A甲基化位点。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-09-02 11:21:53 更:2021-09-02 11:24:30

360图书馆购物三丰科技阅读网日历万年历 2026年3日历

-2026/3/8 1:18:25-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码