[Python知识库] RNA-seq流程（fastp-hisat-stringtie)

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> RNA-seq流程（fastp-hisat-stringtie) -> 正文阅读

[Python知识库]RNA-seq流程（fastp-hisat-stringtie)

1.安装Ubantu LTS
2.安装miniconda3
3.配置清华镜像源
4.用fastp对数据进行处理
（加参数 l 20 过滤掉reads长度小于20的数据，否则Hisat2会报错，提示reads长度应该大于20）

/home/wm_771/miniconda2/bin/fastp -f 10 -F 10 --detect_adapter_for_pe -x -h SRR10251179.sra.html -c -q 15 -u 40 -g -n 5 -l 20 -i SRR10251179.sra_1.fastq.gz -I SRR10251179.sra_2.fastq.gz -o SRR10251179.clean.sra_1.fastq.gz -O SRR10251179.clean.sra_2.fastq.gz

5.使用hisat2比对到参考基因组

建立索引

#gff文件转换为gtf格式，gffread是cufflinks的小脚本
#gff2gtf
gffread watermelon_97103_v2.gene_model.gff -T -o watermelon_97103_v2.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3

extract_splice_sites.py Lsiceraria_v1.gtf >>Lsiceraria_v1.ss
extract_exons.py Lsiceraria_v1.gtf >>Lsiceraria_v1.exon
hisat2-build -p 4 Lsiceraria_v1.fa --ss Lsiceraria_v1.ss --exon Lsiceraria_v1.exon genome_snp_tran_index

比对
下面展示一些 内联代码片。

hisat2 -t -p 4 --dta -x ./genome_tran_index/genome_snp_tran_index -1 SRR10251180.clean.sra_1.fastq.gz -2 SRR10251180.clean.sra_2.fastq.gz -S SRR10251180.clean.sam
#-x 索引目录/索引前缀

6.samtools 将sam文件转换为bam文件，排序

samtools view -bS SRR10251180.clean.sam > SRR10251180.clean.bam

#排序脚本
vim samtools_sort.sh
#!/bin/bash
#This is for samtools_sort
for i in SRR10251174 SRR10251176 SRR10251177
do
samtools sort -l 5 -o ${i}_sort.bam ${i}.clean.bam
done
#Esc键退出编辑脚本模式，i键进入编辑。Esc退出后，打出：wq 退出并保存脚本
bash samtools_sort.sh

排序后bam文件会变小？
BAM is compressed. Sorting helps to give a better compression ratio because similar sequences are grouped together.

BAM 文件是压缩的二进制文件，对文件内容排序之后相似的内容排在一起，使得文件压缩比提高了，因此排序之后的 BAM 文件变小了，相对应的 SAM 文件就是纯文本文件，对 SAM 文件进行排序就不会改变文件大小。由于 RNA-seq 中基因表达量的关系，RNA-seq 的数据比对结果 BAM 文件使用 samtools 进行 sort 之后文件压缩比例变化会比 DNA-seq 更甚。

另外，samtools 对 BAM 文件进行排序之后那些没有比对上的 reads 会被放在文件的末尾。

## 参考：

作者：wangpeng905
链接：https://www.jianshu.com/p/6ed1bfbb7b72
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。
6.合并每一个gtf

stringtie --merge \
-o assembly.gtf \
-p 4 \
-G Lsiceraria_v1.gtf \
SRR10251169_transcripts.gtf SRR10251177_transcripts.gtf SRR10251178_transcripts.gtf SRR10251179_transcripts.gtf SRR10251180_transcripts.gtf SRR10251181_transcripts.gtf SRR10251174_transcripts.gtf SRR10251176_transcripts.gtf \

stringTie只提供了转录本水平的表达量，定量方式包括TPM和FPKM值两种。
为了进行raw count的定量方式，官方提供了prepED.py脚本，可以计算出raw count的表达量。
后面再写。。。。。。好累呀