[Python知识库] TopHat比对RNA-Seq数据

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> TopHat比对RNA-Seq数据 -> 正文阅读

[Python知识库]TopHat比对RNA-Seq数据

TopHat用于转录组测序数据的比对，它建立在Bowtie上，目前已经不再更新。TopHat目前的版本为v2.1.1,运行环境为python2，conda安装时要建立python2的环境，再通过conda?install TopHat?安装。

Usage: tophat [options]* <genome_index_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2]?

1. 比对单端测序数据

# 默认参数
tophat test_genome test_read.fq

#指定参数
tophat –p 20 –o output –G genome.gtf genome test_read.fq

参数说明：

-p?为安排运行tophat所需要的CPU线程数，根据服务器端的CPU总线程数来决定。

-o?为文件输出路径，一般建议每个样单独建立一个文件夹。

-G?后面跟着相应参考基因组的注释文件，在运行时会首先被tophat2调用bowtie2建立index，这个过程会占用一定的时间。

genome，样品物种的基因组index，可用bowtie2-build对物种的genome.fa文件进行建库，命令为：bowtie2-build genome.fa genome?，此命令建立index也需要花费较长的时间。

2. 比对双端测序数据

tophat –p 20 –o output –G genome.gtf genome test_reads_1.fq test_reads_2.fq

注：Starting with version 2.0.10 TopHat accepts mixed input file formats (FASTA/FASTQ)

3. 混合使用测序数据

Usage: tophat [options]* <genome_index_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2]

‐?or?‐?

tophat [options]* <genome_index_base> PE_reads_1.fq.gz,SE_reads.fa PE_reads_2.fq.gz?
‐?or?‐?
tophat [options]* <genome_index_base> PE_reads_1.fq.gz PE_reads_2.fq.gz,SE_reads.fa

4. 提前建好GTF文件的index，减少运行时间

# 建立注释文件index
tophat?–G?genome.gtf?--transcriptome-index=transcriptome_data/genome.gtf.index? genome
# 使用注释文件index。不需要-G选项
tophat –p 20 –o output --transcriptome-index=transcriptome_data/genome.gtf.index? genome reads_1.fa reads_2.fa

注：conda 安装的TopHat v2.1.1, 使用时加-p，-G等参数，报错。

Error: Could not find Bowtie 2 index files (–G.*.bt2l)