| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 三代测序数据分析实战 -> 正文阅读 |
|
[人工智能]三代测序数据分析实战 |
三代测序数据分析实战
背景介绍从1977年第一代DNA测序技术(Sanger法)发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。 第三代测序技术目前已经成为科研领域不可或缺的一种主流技术,广泛应用于基因组 Denovo、全长转录本检测、宏基因组、重测序和变异检测等多个方向,并且在染色体结构变异(SV)的检测中有着不可替代的优势。 第三代测序技术目前存在着错误率较高的瓶颈,生物信息学分析软件也不够丰富,但是未来随着准确度的提升、平行测序能力和酶活性等问题的解决,第三代测序技术是未来发展的重要技术趋势,实现大规模商业化将是大势所趋。 测序技术发展历程三代测序技术介绍第三代测序技术是指单分子测序技术。DNA测序时,不需要经过PCR扩增,不仅实现了对每一条DNA分子的单独测序,并且避免了潜在的PCR扩增错误和偏好性。 第三代测序技术目前已经成为科研领域不可或缺的一种主流技术,广泛应用于基因组Denovo、全长转录本检测、宏基因组、重测序和变异检测等多个方向,并且在染色体结构变异(SV)的检测中有着不可替代的优势。 三代测序技术优点
三代测序技术缺点
趋势未来随着第三代测序技术的准确度提升、平行测序能力和酶活性等问题的解决,第三代测序技术是未来发展的重要技术趋势,实现大规模商业化将是大势所趋。 三代测序平台及原理介绍三大主流平台
SMRTPacBio SMRT(single molecule real time sequencing)技术应用了边合成边测序的思想,并以SMRT 芯片为测序载体。 基本原理: DNA 聚合酶和模板结合,4色荧光标记4种碱基(即dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。 注:DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。 测序步骤: (1)聚合酶捕获文库DNA序列,锚定在零模波导孔底部; 优点:
缺点:
Nanopore sequencing基本原理: 纳米孔测序设计了一种特殊的纳米孔,孔内共价结合有分子接头。当DNA 碱基通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的电子设备检测到这些变化从而鉴定所通过的碱基。 测序步骤: (1)解螺旋,将双链DNA解开成单链; 测序读长: 由于测序无需DNA聚合酶的链式反应,所以不存在DNA聚合酶的失活问题,理论上只要DNA分子不断开,就一直可以通过纳米孔,目前在对于人和大肠杆菌的测序中观测到的read是1Mb左右。 测序准确率: Nanopore测序准确率和Pacbio持平,为86%左右。而且起始位置正确率偏低,在大约100nt位置达到稳定,且错误为随机测序错误。 三代测序数据分析流程注:以下流程以假微型海链藻(Thalassiosira pseudonana) 基于 Nanopore sequencing 的基因组数据为例。 1. basecalling
MinION 每个样本下机数据是一系列的fast5文件,如下: Guppy Guppy 是当前的“官方” ONT basecaller,基于basecalling的神经网络模型,将原始电子信号转换成碱基,生成fastq格式。除了basecalling之外,它还能进行低质量的reads 过滤、基于牛津纳米孔测序的adapter剪切等功能。 使用命令示例:
生成结果如下: 然后将所有fastq格式文件合并到一起:
2. Quality Control of Raw Reads2.1 FastQC FastQC 是测序数据质控最常用的工具之一,支持Illumina、Oxford Nanopore和PacBio data 等各种平台。 使用命令示例:
打开生成的结果文件 2.2 PycoQC PycoQC 是一种基于纳米孔数据的数据可视化和质控工具。与FastQC相比,它需要一个特定的sequencing_summary.txt 作为输入文件,该文件由Oxford nanopore basecaller (如Guppy或albacore basecaller)生成。 使用命令示例:
打开生成的结果文件 2.3 MinION_QC MinIONQC 也是一种基于纳米孔数据的数据可视化和质控工具,需要一个特定的sequencing_summary.txt 作为输入文件。与PycoQC相比,它能够比较多个测序结果的质控结果。
查看结果文件 3. Filtering, trimming and adapter removal
使用命令示例:
4. Genome Assembly由于第三代测序技术的高误差率,将PacBio和Oxford Nanopore等长读长数据组装成 contigs 对普通的第二代测序组装软件来说是一个挑战。在过去的几年里,越来越多的专门为长读长reads 设计的组装软件被发布,例如Canu、Flye、Shasta和miniasm。 不同的组装软件对不同的基因组有不同的作用。基因组大小、重复性、GC含量等因素都会影响组装软件的性能。最好的办法是运行多个组装软件,然后比较结果,经评估后决定使用哪一个软件的结果。 以下将介绍 minimap2-miniasm 的基因组组装流程: Genome Assembly with Minimap2 and Miniasm minimap2-miniasm 流程是组装长读长read的一种非常快速和高效的方法,个人比较推荐。 使用命令示例:
5. Error correction5.1 Error Correction using Racon Racon 软件是为了补充minimap2/miniasm 流程而开发的,但可以用于任何长读长reads读取的组装结果。它提供了一个快速的一致性算法,可对二代短reads 和 三代长读长reads 进行校正。 使用命令示例:
5.2 Error Correction using Minipolish 与 Racon 类似,Minipolish 是专门为校正 minimap2/miniasm流程的结果而编写。事实上,minipolish 是调用 Racon 来优化 miniasm 的结果,但与 Racon 不同的是,它读取和输出文件是miniasm 的GFA格式,而不是fasta 格式。 使用命令示例:
5.3 Pilon Pilon可以在Racon 之后运行,通过纠正插入/缺失(Indel)和单核苷酸多态性(SNPs) 的错误进一步提高组装质量。
使用命令示例:
6. Variant calling长读长测序的虽然可以检测单核苷酸多态性(SNPs),但是在检测长片段结构变异(SVs)方面更具优势。三代测序技术的较高错误率,使得对单核苷酸多态性的检测具有很高的挑战性。到目前为止,只有很少的工具能够对第三代测序数据进行 SNP 和 SV 的检测。 Sniffles Sniffles 主要用于检测长读长数据的SV,专门为 Pacbio 和 Oxford Nanopore数据设计,已经展现出了良好的性能。 使用命令示例:
查看结果文件 第三代测序技术展望第三代测序技术目前已经成为科研领域不可或缺的一种主流技术,目前已经在染色体结构变异(SV)的检测中有着不可替代的优势。 虽然第三代测序技术目前存在着错误率较高的瓶颈,生物信息学分析软件也不够丰富,但是未来随着准确度的提升、平行测序能力和酶活性等问题的解决,第三代测序技术是未来发展的重要技术趋势,实现大规模商业化将是大势所趋。 三代测序数据分析专题
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 6:36:33- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |