IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 病毒组学数据分析 -01 kneaddata数据质控 -> 正文阅读

[人工智能]病毒组学数据分析 -01 kneaddata数据质控

kneaddata 安装

# conda 安装
conda create -n kneaddata -c biobakery kneaddata fastqc
conda activate kneaddata

# 构建数据库
mkdir kneaddata_db
cd kneaddata_db
#可选数据库,通过wget获取后解压在目录下
human_genome : bmtagger = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_BMTagger_v0.1.tar.gz
human_genome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
mouse_C57BL : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/mouse_C57BL_6NJ_Bowtie2_v0.1.tar.gz
human_transcriptome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg38_transcriptome_Bowtie2_v0.1.tar.gz
ribosomal_RNA : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/SILVA_128_LSUParc_SSUParc_ribosomal_RNA_v0.2.tar.gz
#本流程选择human_genome:bowtie2数据库去除人体DNA污染
wget http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
mkdir human_genome
tar -zxvf Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz -c human_genome

运行

#启动环境
conda activate kneaddata
#设置数据库地址(请修改为绝对路径)
human_genome_db = ./kneaddata_db/human_genome
#运行bowtie2去除人体DNA污染,运行trimmomatic默认参数进行序列质控
kneaddata -i XXX_R1.fq.gz \
-i XXX_R2.fq.gz \
-o 01_clean_data\output_dir \
-t 50 -p 50 -db $human_genome_db

#可选添加项fastqc
#--run-fastqc-start
#--run-fastqc-end

帮助文档

usage: kneaddata [-h] [--version] [-v] -i INPUT -o OUTPUT_DIR 
                 [-db REFERENCE_DB] [--bypass-trim] 
                 [--output-prefix OUTPUT_PREFIX] [-t <1>] [-p <1>]
                 [-q {phred33,phred64}] [--run-bmtagger] [--bypass-trf] 
                 [--run-trf] [--run-fastqc-start] [--run-fastqc-end] 
                 [--store-temp-output] [--remove-intermediate-output] 
                 [--cat-final-output] [--log-level {DEBUG,INFO,WARNING,ERROR,CRITICAL}]
                 [--log LOG] [--trimmomatic TRIMMOMATIC_PATH] [--run-trim-repetitive] 
                 [--max-memory MAX_MEMORY] [--trimmomatic-options TRIMMOMATIC_OPTIONS]
                 [--sequencer-source {NexteraPE,TruSeq2,TruSeq3,none}] 
                 [--bowtie2 BOWTIE2_PATH] [--bowtie2-options BOWTIE2_OPTIONS]
                 [--decontaminate-pairs {strict,lenient,unpaired}] [--reorder] [--serial] 
                 [--bmtagger BMTAGGER_PATH] [--trf TRF_PATH] [--match MATCH]
                 [--mismatch MISMATCH] [--delta DELTA] [--pm PM] [--pi PI] 
                 [--minscore MINSCORE] [--maxperiod MAXPERIOD] [--fastqc FASTQC_PATH]

KneadData

optional arguments:
  -h, --help            显示该页面
  -v, --verbose         打印其他输出

global options:
  --version             查看版本
  -i INPUT, --input INPUT
                        输入 FASTQ 文件(添加第二个参数实例以使用双端的输入文件运行)
  -o OUTPUT_DIR, --output OUTPUT_DIR
                        目录来写入输出文件
  -db REFERENCE_DB, --reference-db REFERENCE_DB
                        参考数据库的位置(添加数据库的其他参数)
  --bypass-trim         跳过修剪步骤
  --output-prefix OUTPUT_PREFIX
                        所有输出文件的前缀 [默认值:$SAMPLE_kneaddata ]
  -t <1>, --threads <1>
                        线程数[默认值: 1 ]
  -p <1>, --processes <1>
                        进程数[默认值: 1 ]
  -q {phred33,phred64}, --quality-scores {phred33,phred64}
                        质量得分[默认值:phred33 ]
  --run-bmtagger        运行BMTagger而不是Bowtie2来识别污染物读数
  --bypass-trf          跳过删除串联重复项的选项
  --run-trf             用于运行删除串联重复的旧选项(现在默认运行)
  --run-fastqc-start    在工作流开始时运行 fastqc
  --run-fastqc-end      在工作流结束时运行 fastqc
  --store-temp-output   存储临时输出文件 [默认:临时输出文件被删除 ]
  --remove-intermediate-output
                        删除中间输出文件 [默认:存储中间输出文件 ]
  --cat-final-output    连接所有最终输出文件 [ 默认:最终输出未连接 ]
  --log-level {DEBUG,INFO,WARNING,ERROR,CRITICAL}
                        日志消息级别 [默认:调试DEBUG ]
  --log LOG             日志文件目录 [ 默认值 : $OUTPUT_DIR/$SAMPLE_kneaddata.log ]

trimmomatic arguments:
  --trimmomatic TRIMMOMATIC_PATH
                        trimmomatic地址[ DEFAULT : $PATH ]
  --run-trim-repetitive
                        修剪 fastqc 生成的过度表示的序列
  --max-memory MAX_MEMORY
                        最大内存量[ 默认值 : 500m ]
  --trimmomatic-options TRIMMOMATIC_OPTIONS
                        trimmomatic参数
                        [ 默认为 : MINLEN:60 ILLUMINACLIP:/-SE.fa:2:30:10 
                                  SLIDINGWINDOW:4:20 MINLEN:50 ]
                        MINLEN 设置为总输入读取长度的 50%
  --sequencer-source {NexteraPE,TruSeq2,TruSeq3,none}
                        数据来源[ 默认值 : NexteraPE]

bowtie2 arguments:
  --bowtie2 BOWTIE2_PATH
                        path to bowtie2[ DEFAULT : $PATH ]
  --bowtie2-options BOWTIE2_OPTIONS
                        bowtie2的参数
                        [默认值 : --very-sensitive-local ]
  --decontaminate-pairs {strict,lenient,unpaired}
                        用于过滤配对端读取的选项
                        (strict='如果对齐,则删除两个 R1+R2',
                        lenient='仅当两个 R1+R2 对齐时才删除',
                        取消配对='忽略配对并作为单端删除') 
                        [ 默认: strict ]
  --reorder             按与输入相同的顺序对序列进行排序
                        [ 默认值 : 序列未排序 ]
  --serial              为多个数据库筛选串行输入,以便在每个数据库搜索中处理读取子集

bmtagger arguments:
  --bmtagger BMTAGGER_PATH
                        BMTagger地址[ DEFAULT : $PATH ]

trf arguments:
  --trf TRF_PATH        TRF地址[ DEFAULT : $PATH ]
  --match MATCH         匹配重量[ DEFAULT : 2 ]
  --mismatch MISMATCH   不匹配的罚分[ DEFAULT : 7 ]
  --delta DELTA         内嵌罚分indel penalty[ DEFAULT : 7 ]
  --pm PM               匹配概率[ DEFAULT : 80 ]
  --pi PI               内嵌概率indel probability[ DEFAULT : 10 ]
  --minscore MINSCORE   报告的最低对齐分数[ DEFAULT : 50 ]
  --maxperiod MAXPERIOD
                        要报告的最大周期大小[ DEFAULT : 500 ]

fastqc arguments:
  --fastqc FASTQC_PATH  fastqc地址[ DEFAULT : $PATH ]

参考文献:

kneaddata · biobakery/biobakery Wiki · GitHub

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-14 01:58:30  更:2022-01-14 01:59:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 17:12:44-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码