[人工智能] 【生信论文阅读】Integration of omic networks in a developmental atlas of maize

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【生信论文阅读】Integration of omic networks in a developmental atlas of maize -> 正文阅读

[人工智能]【生信论文阅读】Integration of omic networks in a developmental atlas of maize

Integration of omic networks in a developmental atlas of maize

期刊
Science2016

论文背景

1.（问题）
系统性的预测基因功能是生物学领域的一个复杂挑战。
2.（解决问题）
（1）（工具）共表达网络和基因调控网络(GRNs)正在成为在系统范围内预测单个基因功能角色的重要工具。
（2）（数据）随着高通量测序技术的成熟以及成本的极速下降，大量的转录组数据被用于构建基因组范围的基因调控网络(GRNs)和共表达网络。
感觉好像很完美了，但其实数据部分存在着一些问题。
（数据中的问题）用mRNA来构建网络是基于一个假设：mRNA测量是蛋白质丰度测量的替代
然而，mRNA并不能完全代表蛋白丰度，众多研究显示mRNA丰度与蛋白丰度仅存在较弱的正相关。这意味着加入蛋白数据，可能会极大的改善仅基于转录组的基因调控网络质量。
因此在本研究中，作者建立了玉米发育过程中23个组织的转录组、蛋白质组和磷蛋白组的数据，探讨多组学合并数据相比于单组学数据，在构建基因调控网络和共表达网络所呈现的优势。

磷蛋白：
DNA转录成mRNA要再翻译成具有特定氨基酸序列的蛋白质才能在体内发挥功能，其中大部分蛋白质往往还需要经过化学修饰才能具备真正的活性，磷酸化修饰（Phosphorylation modification）是最普遍的修饰类型之一。对于大部分蛋白质来说，磷酸化修饰是一种可逆的短暂性修饰，当某一蛋白的某一位点帮助蛋白完成了任务，蛋白质又会在磷酸酶的作用下发生去磷酸化，就像蛋白质功能的“开关”，少数磷酸化是永久性的修饰。

论文内容
1.数据分析
分析了横跨玉米发育的营养和生殖阶段的23个组织
具体来说，mRNA测序(mRNA-SEQ)(三个生物复制biological replicates，23个组织)对用于蛋白质组谱分析的样本子集(三到七个生物复制，33个组织)进行了转录组分析
（为什么不是23个组织而是33个组织，会在接下来提到）

biological replicates：
DNA在生物体内进行的复制（3 biological replicates 进行了三次）
technical replicates ：
在生物体外进行的DNA复制

（1）通过计算Pearson相关性来评估生物复制的重复性
发现转录组、蛋白质组和磷酸蛋白质组数据集的平均重复性分别为0.9、0.84和0.7。
（这一步是证明什么没有交代，猜测是证明样本之间重复性高，没有其他变量了，可以进行下一步的分析了）
（2）对数据的物质进行了检测
图中是检测物质的分布，横轴：每千个碱基的转录每百万映射读取的fragments，就是一种衡量的尺度，纵轴是浓度，红线是mRNA，蓝线是蛋白质，绿线是磷酸蛋白质，灰线是共线基因（位于同一条染色体上的基因），黑色是非共线基因。
这一步的实验结果是图例中的前三条线。

现象
①图中，mRNA 组出现了双峰，而两个蛋白组只有单峰，且与 mRNA 高丰度区（右峰）重合
②数据上看，从46%的转录本中观察到蛋白质，也就是说蛋白质只能覆盖46%的转录本
严谨的作者大佬为了确定蛋白质组对转录组的覆盖是否受到样本组织多样性的限制，又生成了另外10种组织类型的蛋白质组学数据（上文提到的33种中多出的10种），但这只是将高丰度转录组的覆盖率增加到了48%。
总结（2）实验
①蛋白组对应的基因占转录组对应基因的不到一半
②有245个蛋白质没有相应的mRNA
对于①
（i）可能是因为转录组学的测定，相对于蛋白组学更敏感
（ii）部分 mRNA 可能不编码蛋白质。
对于②
（i）mRNA 和蛋白质稳定性的差异；
（ii）蛋白质在组织间的运输；
（iii）mRNAs 和对应蛋白质存在时间上的反相位积累（out-of-phase accumulation ）（意思可能是：同一时间，蛋白质多，mRNA少，mRNA多，蛋白质少）

（3）对高粱和玉米之间的共线同源基因和非共线基因进行检测
这一步的实验结果是下面两条线

现象
I.共线基因的 mRNA 含量丰度较高，而非共线则较低
II.对于所有表达mRNA的基因，共线基因表达蛋白质的可能性是非共线基因的9倍

猜测现象 ii. 可能不是表达蛋白可能性的原因，而是由于非共线同源区基因转录的 mRNA 含量较低，所以翻译出的蛋白质可能未被检测到。作者研究了不同 mRNA 丰度下共线和不共线的基因，结果均与第二条结论相似。所以该现象与 mRNA 丰度无关。
透过现象看本质：
大部分共线基因表达蛋白并参与到生理功能的建设中，而大部分非共线基因只转录 mRNA并可能是参与到生理功能的调控中。
推论：
共线基因的突变更易引起生物体生理功能的缺陷，而非共线基因突变更易引起调控的失常。
这可能是“引发玉米表型上出现可观的变异所对应的突变主要存在于共线保守基因中”这一现象的一种解释。

保守基因：
保留性很强的基因，自然变异中不易突变，而保留下来，一般在同种物种中都有存在，研究的人较多，因为研究结果在其他人的研究中有借鉴意义。
非保守基因：
非保守基因可能只有你研究的系统有，对于别人的研究、人类的发展都没有干系，研究的人少，不好发论文
但保守与否也不是有明确界限的

2.共表达网络

基因共表达：使用大量基因表达数据构建基因间的相关性基因共表达网络：是一种无向图，每个节点代表基因，如果二者存在明显的共表达关系，就用一个边连接两个节点。

（1）建立共表达网络
图中实线表示边缘保守，就是两基因在mRNA网络和蛋白质网络中都相关，虚线表示不保守，即相关性不一致。
比如，A、C两个基因之间在mRNA网络和蛋白质网络中都共表达，就是实线，B、C两个基因在蛋白质网络中是共表达而在mRNA网络中不是，因而是虚线，C、D同理。
那么又该如何衡量相关性呢？
作者通过斯皮尔曼Spearman相关系数，衡量mRNA和mRNA之间，以及蛋白和蛋白之间的相关性。
为了直接比较mRNA和蛋白质共表达网络，并编译一个高置信度的共表达数据集，每一个网络被限制只包括相关指数大于0.75的边界。分析结果显示122029个边界在两个网络中是保守的，占总体的6.1%。

尽管这个边界的重叠区远大于随机期望的0.8%，但是大多数的基因关系具有网络独特性。即使将边界数目扩大到1000万，上述指标也未发生显著改变。
这一结果与之前的一系列研究相吻合，也即mRNA和蛋白质具有较弱的正相关。
为了检验边缘重叠的缺乏是否是由于实验噪声，作者使用单个生物复制（single biological replication)创建了六个新的共表达网络。
两两比较发现，mRNA和蛋白质共表达网络之间的边缘保守性也很低(5%)。也支持了之前的结论。
共表达网络的一个关键特征是存在少量但高连接度的核心节点，通常一个节点代表一个基因。
核心节点比非核心节点，在网络完整度和有机体存活中具有更重要意义，因此判定这些核心节点是网络分析的重心之一。
结果显示大多数核心节点是mRNA或蛋白质网络所独有，而共同的核心节点仅占15%左右。

（2）基因富集分析

基因富集分析是分析基因表达信息的一种方法。
富集是指将基因按照先验知识，也就是基因组注释信息，对基因进行分类的过程。基因经过分类后，能够帮助认知寻找到的基因是否具有某方面的共性(如功能、组成等等).

作者利用 WGCNA（weighted gene coexpression network analysis，加权基因共表达网络分析）R包根据转录组学数据，计算基因间相关系数（Spearman correlations）并分层聚类，将基因聚类成了多个模块（簇）。
再利用 MapMan对每个模块中的基因功能进行注释，以模块中富集的功能基因作为该模块的功能标签。对蛋白组和磷酸蛋白组数据进行同样的操作。可以想象，由于组学数据之间的低相关性，同一个基因在不同组学数据的分析中，可能被聚类到不同功能标签的模块中。

Mapman是一个针对植物，对基因在生物体代谢途径和生物过程中的功能进行分类的工具，它采用了层次分类的方式，对基因产物进行功能分类

作者研究了在不同组学数据中，相同功能标签的模块间基因的重叠率。这些发现表明不同类型数据，预测到的基因相关性和功能也不尽相同。
推测造成mRNA和蛋白质共表达网络不一致的原因，主要是mRNA丰度和蛋白质丰度之间有限的相关性；而有限的相关性，可能受mRNA和蛋白质的稳定性、翻译调控以及蛋白转运等因素影响。

构成显著富集类别的基因
35%存在于蛋白网络，27%存在于mRNA网络，38%为两者共有

3.基因调控网络
为了进一步探索玉米发育过程中基因表达的调控模式，作者生成了基因调控网络GRNs。

基因调控网络（Gene Regulatory Network，GRN）由两个集合构建而成，一个是转录因子集合，一个是靶基因集合，计算转录因子与靶基因间的相关性。
其中靶基因集合可以是基因对应的转录组数据，也可以是对应的蛋白组数据。
虽然也是利用相关系数构建网络，但网络是有向的，从转录因子指向靶基因，即转录因子调控靶基因。

相比于共表达网络，基因调控网络能够更直接地展示转录因子及其靶基因
（转录因子transcription factors TF：参与转录起始的过程）

使用GENIE3来构建基因调控网络

GENIE3利用的是随机森林算法，也有R包

作者分别利用mRNA、蛋白质和磷酸蛋白质数据构建了三个基因调控网络。
为了构建这些网络，转录因子方面选择了2200个可定量的mRNA、545个可定量的蛋白质，以及441个可定量的磷酸肽，而靶基因数据集则来自于41021个定量的mRNA。
已公布的两类经典的玉米转录因子(转录因子KN1和转录因子Opaque2)作为测试集，对生成的GRN进行质量评估。评估方法是绘制ROC和PR曲线。

选择这两个转录因子的原因是，这两种转录因子代表了两种具有关键发育作用的不同类型的TF。

两种曲线显示出三个GRNs在总体质量方面较为相似
这一步实验生成的左上角三个曲线

细看得分前500位的结果，（这500位结果，每个结果都是一个连接，连接对应一个预测的靶基因，将预测的靶基因与真正的靶基因相对比），发现：基于蛋白数据的两个GRNs能够更准确地预测靶基因。KN1子网络准确预测到108(mRNA)，129(蛋白质)和125(磷酸肽)个靶基因，而O2子网络表现类似。
此外，研究还发现在准确预测到的靶基因亦存在GRN独特性，且比例不低(KN1有44%；O2有31%)。上述结果表明利用不同表达数据进行GRN预测，能够极大的互补。

将GRN分析扩大到所有转录因子后，作者同样发现存在较低的边界保守性（不同组学数据得到的相同靶细胞的数量很少，之间的重叠很少），而大多数边界仍为不同GRN所独有——例如边界数为100万时，93%的边界存在于单一的GRN；而边界数为20万时，数值则增加到96%。
这一发现说明转录因子在mRNA、蛋白质和磷酸化层面的不同积累模式，导致了截然不同的GRN预测结果。

为了检测多组学数据的整合分析，是否能够改善单组学分析结果，作者另外构建了四个GRNs，并利用KN1和O2相关数据来评估网络质量。

结果显示基于多组学的GRN预测优于单组学预测。

上图中显示仅用mRNA信息推断转录因子活性，计算的ROC曲线下方面积(AUC)为0.657；当进一步结合蛋白丰度以及磷酸化水平信息后，AUC增加到0.717。
这表明如果进行假阳性率为20%的网络预测时，仅凭mRNA数据，真阳性率为40%，而利用多组学整合分析则能提高到50%。
下图也揭示了类似的结果——如果进行精确度为0.021的网络预测时，仅凭mRNA数据，只有16%的真阳性率，而整合分析则能提高到41%。