kneaddata 安装
# conda 安装
conda create -n kneaddata -c biobakery kneaddata fastqc
conda activate kneaddata
# 构建数据库
mkdir kneaddata_db
cd kneaddata_db
#可选数据库,通过wget获取后解压在目录下
human_genome : bmtagger = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_BMTagger_v0.1.tar.gz
human_genome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
mouse_C57BL : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/mouse_C57BL_6NJ_Bowtie2_v0.1.tar.gz
human_transcriptome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg38_transcriptome_Bowtie2_v0.1.tar.gz
ribosomal_RNA : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/SILVA_128_LSUParc_SSUParc_ribosomal_RNA_v0.2.tar.gz
#本流程选择human_genome:bowtie2数据库去除人体DNA污染
wget http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
mkdir human_genome
tar -zxvf Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz -c human_genome
运行
#启动环境
conda activate kneaddata
#设置数据库地址(请修改为绝对路径)
human_genome_db = ./kneaddata_db/human_genome
#运行bowtie2去除人体DNA污染,运行trimmomatic默认参数进行序列质控
kneaddata -i XXX_R1.fq.gz \
-i XXX_R2.fq.gz \
-o 01_clean_data\output_dir \
-t 50 -p 50 -db $human_genome_db
#可选添加项fastqc
#--run-fastqc-start
#--run-fastqc-end
帮助文档
usage: kneaddata [-h] [--version] [-v] -i INPUT -o OUTPUT_DIR
[-db REFERENCE_DB] [--bypass-trim]
[--output-prefix OUTPUT_PREFIX] [-t <1>] [-p <1>]
[-q {phred33,phred64}] [--run-bmtagger] [--bypass-trf]
[--run-trf] [--run-fastqc-start] [--run-fastqc-end]
[--store-temp-output] [--remove-intermediate-output]
[--cat-final-output] [--log-level {DEBUG,INFO,WARNING,ERROR,CRITICAL}]
[--log LOG] [--trimmomatic TRIMMOMATIC_PATH] [--run-trim-repetitive]
[--max-memory MAX_MEMORY] [--trimmomatic-options TRIMMOMATIC_OPTIONS]
[--sequencer-source {NexteraPE,TruSeq2,TruSeq3,none}]
[--bowtie2 BOWTIE2_PATH] [--bowtie2-options BOWTIE2_OPTIONS]
[--decontaminate-pairs {strict,lenient,unpaired}] [--reorder] [--serial]
[--bmtagger BMTAGGER_PATH] [--trf TRF_PATH] [--match MATCH]
[--mismatch MISMATCH] [--delta DELTA] [--pm PM] [--pi PI]
[--minscore MINSCORE] [--maxperiod MAXPERIOD] [--fastqc FASTQC_PATH]
KneadData
optional arguments:
-h, --help 显示该页面
-v, --verbose 打印其他输出
global options:
--version 查看版本
-i INPUT, --input INPUT
输入 FASTQ 文件(添加第二个参数实例以使用双端的输入文件运行)
-o OUTPUT_DIR, --output OUTPUT_DIR
目录来写入输出文件
-db REFERENCE_DB, --reference-db REFERENCE_DB
参考数据库的位置(添加数据库的其他参数)
--bypass-trim 跳过修剪步骤
--output-prefix OUTPUT_PREFIX
所有输出文件的前缀 [默认值:$SAMPLE_kneaddata ]
-t <1>, --threads <1>
线程数[默认值: 1 ]
-p <1>, --processes <1>
进程数[默认值: 1 ]
-q {phred33,phred64}, --quality-scores {phred33,phred64}
质量得分[默认值:phred33 ]
--run-bmtagger 运行BMTagger而不是Bowtie2来识别污染物读数
--bypass-trf 跳过删除串联重复项的选项
--run-trf 用于运行删除串联重复的旧选项(现在默认运行)
--run-fastqc-start 在工作流开始时运行 fastqc
--run-fastqc-end 在工作流结束时运行 fastqc
--store-temp-output 存储临时输出文件 [默认:临时输出文件被删除 ]
--remove-intermediate-output
删除中间输出文件 [默认:存储中间输出文件 ]
--cat-final-output 连接所有最终输出文件 [ 默认:最终输出未连接 ]
--log-level {DEBUG,INFO,WARNING,ERROR,CRITICAL}
日志消息级别 [默认:调试DEBUG ]
--log LOG 日志文件目录 [ 默认值 : $OUTPUT_DIR/$SAMPLE_kneaddata.log ]
trimmomatic arguments:
--trimmomatic TRIMMOMATIC_PATH
trimmomatic地址[ DEFAULT : $PATH ]
--run-trim-repetitive
修剪 fastqc 生成的过度表示的序列
--max-memory MAX_MEMORY
最大内存量[ 默认值 : 500m ]
--trimmomatic-options TRIMMOMATIC_OPTIONS
trimmomatic参数
[ 默认为 : MINLEN:60 ILLUMINACLIP:/-SE.fa:2:30:10
SLIDINGWINDOW:4:20 MINLEN:50 ]
MINLEN 设置为总输入读取长度的 50%
--sequencer-source {NexteraPE,TruSeq2,TruSeq3,none}
数据来源[ 默认值 : NexteraPE]
bowtie2 arguments:
--bowtie2 BOWTIE2_PATH
path to bowtie2[ DEFAULT : $PATH ]
--bowtie2-options BOWTIE2_OPTIONS
bowtie2的参数
[默认值 : --very-sensitive-local ]
--decontaminate-pairs {strict,lenient,unpaired}
用于过滤配对端读取的选项
(strict='如果对齐,则删除两个 R1+R2',
lenient='仅当两个 R1+R2 对齐时才删除',
取消配对='忽略配对并作为单端删除')
[ 默认: strict ]
--reorder 按与输入相同的顺序对序列进行排序
[ 默认值 : 序列未排序 ]
--serial 为多个数据库筛选串行输入,以便在每个数据库搜索中处理读取子集
bmtagger arguments:
--bmtagger BMTAGGER_PATH
BMTagger地址[ DEFAULT : $PATH ]
trf arguments:
--trf TRF_PATH TRF地址[ DEFAULT : $PATH ]
--match MATCH 匹配重量[ DEFAULT : 2 ]
--mismatch MISMATCH 不匹配的罚分[ DEFAULT : 7 ]
--delta DELTA 内嵌罚分indel penalty[ DEFAULT : 7 ]
--pm PM 匹配概率[ DEFAULT : 80 ]
--pi PI 内嵌概率indel probability[ DEFAULT : 10 ]
--minscore MINSCORE 报告的最低对齐分数[ DEFAULT : 50 ]
--maxperiod MAXPERIOD
要报告的最大周期大小[ DEFAULT : 500 ]
fastqc arguments:
--fastqc FASTQC_PATH fastqc地址[ DEFAULT : $PATH ]
参考文献:
kneaddata · biobakery/biobakery Wiki · GitHub
|