IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> RNA-seq流程(fastp-hisat-stringtie) -> 正文阅读

[Python知识库]RNA-seq流程(fastp-hisat-stringtie)

1.安装Ubantu LTS
2.安装miniconda3
3.配置清华镜像源
4.用fastp对数据进行处理
(加参数 l 20 过滤掉reads长度小于20的数据,否则Hisat2会报错,提示reads长度应该大于20)

/home/wm_771/miniconda2/bin/fastp -f 10 -F 10 --detect_adapter_for_pe -x -h SRR10251179.sra.html -c -q 15 -u 40 -g -n 5 -l 20 -i SRR10251179.sra_1.fastq.gz -I SRR10251179.sra_2.fastq.gz -o SRR10251179.clean.sra_1.fastq.gz -O SRR10251179.clean.sra_2.fastq.gz

5.使用hisat2比对到参考基因组

  1. 建立索引
#gff文件转换为gtf格式,gffread是cufflinks的小脚本
#gff2gtf
gffread watermelon_97103_v2.gene_model.gff -T -o watermelon_97103_v2.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3

extract_splice_sites.py Lsiceraria_v1.gtf >>Lsiceraria_v1.ss
extract_exons.py Lsiceraria_v1.gtf >>Lsiceraria_v1.exon
hisat2-build -p 4 Lsiceraria_v1.fa --ss Lsiceraria_v1.ss --exon Lsiceraria_v1.exon genome_snp_tran_index
  1. 比对
    下面展示一些 内联代码片
hisat2 -t -p 4 --dta -x ./genome_tran_index/genome_snp_tran_index -1 SRR10251180.clean.sra_1.fastq.gz -2 SRR10251180.clean.sra_2.fastq.gz -S SRR10251180.clean.sam
#-x 索引目录/索引前缀

6.samtools 将sam文件转换为bam文件,排序

samtools view -bS SRR10251180.clean.sam > SRR10251180.clean.bam
#排序脚本
vim samtools_sort.sh
#!/bin/bash
#This is for samtools_sort
for i in SRR10251174 SRR10251176 SRR10251177
do
samtools sort -l 5 -o ${i}_sort.bam ${i}.clean.bam
done
#Esc键退出编辑脚本模式,i键进入编辑。Esc退出后,打出:wq 退出并保存脚本
bash samtools_sort.sh

排序后bam文件会变小?
BAM is compressed. Sorting helps to give a better compression ratio because similar sequences are grouped together.

BAM 文件是压缩的二进制文件,对文件内容排序之后相似的内容排在一起,使得文件压缩比提高了,因此排序之后的 BAM 文件变小了,相对应的 SAM 文件就是纯文本文件,对 SAM 文件进行排序就不会改变文件大小。由于 RNA-seq 中基因表达量的关系,RNA-seq 的数据比对结果 BAM 文件使用 samtools 进行 sort 之后文件压缩比例变化会比 DNA-seq 更甚。

另外,samtools 对 BAM 文件进行排序之后那些没有比对上的 reads 会被放在文件的末尾。

## 参考:

作者:wangpeng905
链接:https://www.jianshu.com/p/6ed1bfbb7b72
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
6.合并每一个gtf

stringtie --merge \
-o assembly.gtf \
-p 4 \
-G Lsiceraria_v1.gtf \
SRR10251169_transcripts.gtf SRR10251177_transcripts.gtf SRR10251178_transcripts.gtf SRR10251179_transcripts.gtf SRR10251180_transcripts.gtf SRR10251181_transcripts.gtf SRR10251174_transcripts.gtf SRR10251176_transcripts.gtf \

stringTie只提供了转录本水平的表达量,定量方式包括TPM和FPKM值两种。
为了进行raw count的定量方式,官方提供了prepED.py脚本,可以计算出raw count的表达量。
后面再写。。。。。。好累呀

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-08-12 16:33:29  更:2021-08-12 16:35:48 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 4:25:39-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码