kneaddata 安装

# conda 安装
conda create -n kneaddata -c biobakery kneaddata fastqc
conda activate kneaddata

# 构建数据库
mkdir kneaddata_db
cd kneaddata_db
#可选数据库，通过wget获取后解压在目录下
human_genome : bmtagger = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_BMTagger_v0.1.tar.gz
human_genome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
mouse_C57BL : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/mouse_C57BL_6NJ_Bowtie2_v0.1.tar.gz
human_transcriptome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg38_transcriptome_Bowtie2_v0.1.tar.gz
ribosomal_RNA : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/SILVA_128_LSUParc_SSUParc_ribosomal_RNA_v0.2.tar.gz
#本流程选择human_genome：bowtie2数据库去除人体DNA污染
wget http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
mkdir human_genome
tar -zxvf Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz -c human_genome

运行

#启动环境
conda activate kneaddata
#设置数据库地址(请修改为绝对路径）
human_genome_db = ./kneaddata_db/human_genome
#运行bowtie2去除人体DNA污染，运行trimmomatic默认参数进行序列质控
kneaddata -i XXX_R1.fq.gz \
-i XXX_R2.fq.gz \
-o 01_clean_data\output_dir \
-t 50 -p 50 -db $human_genome_db

#可选添加项fastqc
#--run-fastqc-start
#--run-fastqc-end

帮助文档

usage: kneaddata [-h] [--version] [-v] -i INPUT -o OUTPUT_DIR 
                 [-db REFERENCE_DB] [--bypass-trim] 
                 [--output-prefix OUTPUT_PREFIX] [-t <1>] [-p <1>]
                 [-q {phred33,phred64}] [--run-bmtagger] [--bypass-trf] 
                 [--run-trf] [--run-fastqc-start] [--run-fastqc-end] 
                 [--store-temp-output] [--remove-intermediate-output] 
                 [--cat-final-output] [--log-level {DEBUG,INFO,WARNING,ERROR,CRITICAL}]
                 [--log LOG] [--trimmomatic TRIMMOMATIC_PATH] [--run-trim-repetitive] 
                 [--max-memory MAX_MEMORY] [--trimmomatic-options TRIMMOMATIC_OPTIONS]
                 [--sequencer-source {NexteraPE,TruSeq2,TruSeq3,none}] 
                 [--bowtie2 BOWTIE2_PATH] [--bowtie2-options BOWTIE2_OPTIONS]
                 [--decontaminate-pairs {strict,lenient,unpaired}] [--reorder] [--serial] 
                 [--bmtagger BMTAGGER_PATH] [--trf TRF_PATH] [--match MATCH]
                 [--mismatch MISMATCH] [--delta DELTA] [--pm PM] [--pi PI] 
                 [--minscore MINSCORE] [--maxperiod MAXPERIOD] [--fastqc FASTQC_PATH]

KneadData

optional arguments:
  -h, --help            显示该页面
  -v, --verbose         打印其他输出

global options:
  --version             查看版本
  -i INPUT, --input INPUT
                        输入 FASTQ 文件（添加第二个参数实例以使用双端的输入文件运行）
  -o OUTPUT_DIR, --output OUTPUT_DIR
                        目录来写入输出文件
  -db REFERENCE_DB, --reference-db REFERENCE_DB
                        参考数据库的位置（添加数据库的其他参数）
  --bypass-trim         跳过修剪步骤
  --output-prefix OUTPUT_PREFIX
                        所有输出文件的前缀 [默认值:$SAMPLE_kneaddata ]
  -t <1>, --threads <1>
                        线程数[默认值: 1 ]
  -p <1>, --processes <1>
                        进程数[默认值: 1 ]
  -q {phred33,phred64}, --quality-scores {phred33,phred64}
                        质量得分[默认值:phred33 ]
  --run-bmtagger        运行BMTagger而不是Bowtie2来识别污染物读数
  --bypass-trf          跳过删除串联重复项的选项
  --run-trf             用于运行删除串联重复的旧选项（现在默认运行）
  --run-fastqc-start    在工作流开始时运行 fastqc
  --run-fastqc-end      在工作流结束时运行 fastqc
  --store-temp-output   存储临时输出文件 [默认：临时输出文件被删除 ]
  --remove-intermediate-output
                        删除中间输出文件 [默认：存储中间输出文件 ]
  --cat-final-output    连接所有最终输出文件 [ 默认：最终输出未连接 ]
  --log-level {DEBUG,INFO,WARNING,ERROR,CRITICAL}
                        日志消息级别 [默认：调试DEBUG ]
  --log LOG             日志文件目录 [ 默认值 ： $OUTPUT_DIR/$SAMPLE_kneaddata.log ]

trimmomatic arguments:
  --trimmomatic TRIMMOMATIC_PATH
                        trimmomatic地址[ DEFAULT : $PATH ]
  --run-trim-repetitive
                        修剪 fastqc 生成的过度表示的序列
  --max-memory MAX_MEMORY
                        最大内存量[ 默认值 : 500m ]
  --trimmomatic-options TRIMMOMATIC_OPTIONS
                        trimmomatic参数
                        [ 默认为 : MINLEN:60 ILLUMINACLIP:/-SE.fa:2:30:10 
                                  SLIDINGWINDOW:4:20 MINLEN:50 ]
                        MINLEN 设置为总输入读取长度的 50%
  --sequencer-source {NexteraPE,TruSeq2,TruSeq3,none}
                        数据来源[ 默认值 : NexteraPE]

bowtie2 arguments:
  --bowtie2 BOWTIE2_PATH
                        path to bowtie2[ DEFAULT : $PATH ]
  --bowtie2-options BOWTIE2_OPTIONS
                        bowtie2的参数
                        [默认值 : --very-sensitive-local ]
  --decontaminate-pairs {strict,lenient,unpaired}
                        用于过滤配对端读取的选项
                        （strict='如果对齐，则删除两个 R1+R2'，
                        lenient='仅当两个 R1+R2 对齐时才删除'，
                        取消配对='忽略配对并作为单端删除'） 
                        [ 默认： strict ]
  --reorder             按与输入相同的顺序对序列进行排序
                        [ 默认值 : 序列未排序 ]
  --serial              为多个数据库筛选串行输入，以便在每个数据库搜索中处理读取子集

bmtagger arguments:
  --bmtagger BMTAGGER_PATH
                        BMTagger地址[ DEFAULT : $PATH ]

trf arguments:
  --trf TRF_PATH        TRF地址[ DEFAULT : $PATH ]
  --match MATCH         匹配重量[ DEFAULT : 2 ]
  --mismatch MISMATCH   不匹配的罚分[ DEFAULT : 7 ]
  --delta DELTA         内嵌罚分indel penalty[ DEFAULT : 7 ]
  --pm PM               匹配概率[ DEFAULT : 80 ]
  --pi PI               内嵌概率indel probability[ DEFAULT : 10 ]
  --minscore MINSCORE   报告的最低对齐分数[ DEFAULT : 50 ]
  --maxperiod MAXPERIOD
                        要报告的最大周期大小[ DEFAULT : 500 ]

fastqc arguments:
  --fastqc FASTQC_PATH  fastqc地址[ DEFAULT : $PATH ]

参考文献：

kneaddata · biobakery/biobakery Wiki · GitHub