IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> m6AmPred:基于序列衍生信息识别 RNA N6、2‘-O-二甲基腺苷 (m6Am) 位点 -> 正文阅读

[人工智能]m6AmPred:基于序列衍生信息识别 RNA N6、2‘-O-二甲基腺苷 (m6Am) 位点

论文解读《#m6AmPred:基于序列衍生信息识别 RNA N6、2’-O-二甲基腺苷 (m6Am) 位点》
数据:https://www.xjtlu.edu.cn/biologicalsciences/m6am

目录
1、介绍
2、材料和方法
2、结果

介绍

NA的动态表观遗传修饰已成为过去几年生物学研究的重要焦点。自从发现第一个结构修饰的核苷以来,已经表征了 170 多种转录后修饰[1,2]。在几乎所有类型的 RNA 上都发现了 RNA 修饰,包括 mRNA、rRNA、tRNA 和 snRNA,它们在调节生物功能方面表现出高度的特异性和效率
最近的研究已经开始揭示 m6Am 在增强 mRNA 稳定性和翻译效率方面的功能 ]和阻碍结直肠癌干细胞能力的功能 。m6Am 位点的鉴定对于阐明其生物学功能至关重要
在这项研究中,我们尝试开发一种用于识别 RNA 序列中 m6Am 位点的计算机技术,使用 eXtreme Gradient Boosting 算法,XgbDart 作为分类器。

材料和方法

1、特征提取

1、.核苷酸化学性质 (NCP) 和核苷酸密度 (ND)
核苷酸密度(ND)表示核苷酸在每个位置的分布和频率信息。**第 i 个位置的核苷酸 N 的密度 (di) 可以通过 N 出现的数量 (n) 来计算
在第 (i +1) 个位置除以i之前:di =n/i。因此,对于序列“AUAGUCAUAA”,A在第 1、3、7、9 和 10 位的密度分别为 1、0.67、0.43、0.44 和 0.50。类似地,U 为 0.50,具体来说,A、C、G、U可以编码为向量(1,1,1,di)、(0,1,0,di)、(1,0,0,di)和(0,0,1 ,di) 分别。因此,RNA 序列中的每个核苷酸将被编码为四个数值,并且每个 RNA 序列将被编码为 4 (侧翼序列的长度)维向量
2、.电子-离子相互作用电位(EIIP)和伪EIIP(PseEIIP)采用核苷酸的电子-离子相互作用电位(EIIP)值的编码方案最初由Nair和Sreenadhan[37]提出,并被用于其他生物信息学研究领域后来[38-40]。在 EIIP 中,每个 mRNA 核苷酸都被编码为一个数值,代表它的电子- 离子相互作用势。每个核苷酸的 EIIP值在表 2中给出。在我们的研究中,EIIP编码生成一个长度为 41 的数字向量。此外,为 EIIP (PseEIIP) 是通过将三核苷酸的数值总和与其在给定序列中的频率相乘来计算的。
PseEIIP = [EIIPAAAf AAA, EIIPAACf AAC, EIIPAAGfAAG, ……., EIIPTTTf TTT, ]
每个核苷酸的EIIP
在这里插入图片描述

2、训练集和测试集

数据从基因表达下载综合 (GEO) 将两个GEO数据集的数据合并,分为完整转录数据集和成熟RNA数据集,完整转录数据集中2447个阳性序列,成熟RNA数据集中1673个阳性序列。将完整的转录本和成熟的RNA数据集随机分离,以8:2的比例进行训练集和测试集。然后,将两个GEO数据集作为训练集,另一个分别作为测试集,以测试模型的坚固性。表1列出了每个数据集的站点数
在这里插入图片描述

3、机器学习分类器的选择

支持向量机 (SVM)、随机森林 (RF)、线性模型 (GLM) 是 RNA 修饰预测中最流行的机器学习分类器,已广泛用于不同的修饰预测 [16,22,30,42 ]。此外,本研究还测试了极限梯度提升算法 XgbDart (XGBDART),该算法之前尚未被其他 RNA 修饰预测器使用。 XgbDart[43]最初是由 K. V. Rashmi 和 RanGilad-Bachrach通过对集成树采用 dropout 来克服过度专业化问题而提出的。我们通过 10 倍交叉验证和独立测试集评估了这些算法的性能。 *XgbDart 算法的超参数通过对 boosting 迭代次数、最大树深度、收缩(学习率)、最小损失减少、子样本百分比、列子样本比率、分数应用网格搜索来调整丢弃的树的数量、跳过 drop-out 的概率以及实例权重的最小总和。选择最佳序列长度和超参数用于 m6AmPred 的最终构建
在这里插入图片描述
*
在这里插入图片描述
在这里插入图片描述
.独立测试集对具有两种不同编码方案的四种分类器的性能评估。不同编码方案的不同分类器的AUC值比较如上图所示。下图比较了两种不同编码方案的四种分类器在全转录模式下的预测性能,下图为成熟RNA模式下的结果。 * XGBDART = XgbDart,SVM =支持向量机,RF = 随机
森林,GLM =线性模型。

结果

当通过独立测试集评估时,我们的模型实现了相当高的准确度,完整转录本的 AUC 为 0.932,成熟 RNA 的 AUC 为 0.956。该模型还通过使用来自两个来源的数据进行了交叉评估。使用 GSE63753 作为训练集时,AUC 和 10 倍交叉验证的准确率出乎意料地低于使用整个 GSE78040 作为独立测试集的结果。与我们的常识不同,该模型通常比测试数据集更适合训练数据集
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-28 09:00:22  更:2021-08-28 09:00:51 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/1 12:41:06-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码