1.安装Ubantu LTS 2.安装miniconda3 3.配置清华镜像源 4.用fastp对数据进行处理 (加参数 l 20 过滤掉reads长度小于20的数据,否则Hisat2会报错,提示reads长度应该大于20)
/home/wm_771/miniconda2/bin/fastp -f 10 -F 10 --detect_adapter_for_pe -x -h SRR10251179.sra.html -c -q 15 -u 40 -g -n 5 -l 20 -i SRR10251179.sra_1.fastq.gz -I SRR10251179.sra_2.fastq.gz -o SRR10251179.clean.sra_1.fastq.gz -O SRR10251179.clean.sra_2.fastq.gz
5.使用hisat2比对到参考基因组
- 建立索引
#gff文件转换为gtf格式,gffread是cufflinks的小脚本
#gff2gtf
gffread watermelon_97103_v2.gene_model.gff -T -o watermelon_97103_v2.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3
extract_splice_sites.py Lsiceraria_v1.gtf >>Lsiceraria_v1.ss
extract_exons.py Lsiceraria_v1.gtf >>Lsiceraria_v1.exon
hisat2-build -p 4 Lsiceraria_v1.fa --ss Lsiceraria_v1.ss --exon Lsiceraria_v1.exon genome_snp_tran_index
- 比对
下面展示一些 内联代码片 。
hisat2 -t -p 4 --dta -x ./genome_tran_index/genome_snp_tran_index -1 SRR10251180.clean.sra_1.fastq.gz -2 SRR10251180.clean.sra_2.fastq.gz -S SRR10251180.clean.sam
#-x 索引目录/索引前缀
6.samtools 将sam文件转换为bam文件,排序
samtools view -bS SRR10251180.clean.sam > SRR10251180.clean.bam
#排序脚本
vim samtools_sort.sh
#!/bin/bash
#This is for samtools_sort
for i in SRR10251174 SRR10251176 SRR10251177
do
samtools sort -l 5 -o ${i}_sort.bam ${i}.clean.bam
done
#Esc键退出编辑脚本模式,i键进入编辑。Esc退出后,打出:wq 退出并保存脚本
bash samtools_sort.sh
排序后bam文件会变小? BAM is compressed. Sorting helps to give a better compression ratio because similar sequences are grouped together.
BAM 文件是压缩的二进制文件,对文件内容排序之后相似的内容排在一起,使得文件压缩比提高了,因此排序之后的 BAM 文件变小了,相对应的 SAM 文件就是纯文本文件,对 SAM 文件进行排序就不会改变文件大小。由于 RNA-seq 中基因表达量的关系,RNA-seq 的数据比对结果 BAM 文件使用 samtools 进行 sort 之后文件压缩比例变化会比 DNA-seq 更甚。
另外,samtools 对 BAM 文件进行排序之后那些没有比对上的 reads 会被放在文件的末尾。
## 参考:
作者:wangpeng905 链接:https://www.jianshu.com/p/6ed1bfbb7b72 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 6.合并每一个gtf
stringtie --merge \
-o assembly.gtf \
-p 4 \
-G Lsiceraria_v1.gtf \
SRR10251169_transcripts.gtf SRR10251177_transcripts.gtf SRR10251178_transcripts.gtf SRR10251179_transcripts.gtf SRR10251180_transcripts.gtf SRR10251181_transcripts.gtf SRR10251174_transcripts.gtf SRR10251176_transcripts.gtf \
stringTie只提供了转录本水平的表达量,定量方式包括TPM和FPKM值两种。 为了进行raw count的定量方式,官方提供了prepED.py脚本,可以计算出raw count的表达量。 后面再写。。。。。。好累呀
|