IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 系统运维 -> Naopore基因组数据组装软件---NECAT下载试用 -> 正文阅读

[系统运维]Naopore基因组数据组装软件---NECAT下载试用

1. NECAT软件简介和下载

NECAT(https://github.com/xiaochuanle/NECAT)是一种用于 Nanopore 长噪声reads的纠错和从头组装工具。该软件结果发表在Nature Communications上,可以去看原文学习:

Chen Y, Nie F, Xie S Q, et al. Efficient assembly of nanopore reads via highly accurate and intact error correction[J]. Nature Communications, 2021, 12(1): 1-10.

目前最新版本是2020-8-03日更新的。
下载直接使用conda了,方便:

conda activate necat
conda install -c bioconda necat
## 输出软件信息有点点问题,不影响使用
necat 
Smartmatch is experimental at /home/debian/bin/miniconda3/envs/necat/share/necat-0.0.1_update20200803-1/bin/Plgd/Project.pm line 263.
Usage: necat.pl correct|assemble|bridge|config cfg_fname
    correct:     correct rawreads
    assemble:    generate contigs
    bridge:      bridge contigs
    config:      generate default config file ## 生成config file

2. NECAT使用步骤(以拟南芥Nanopore数据为例)

根据github中quickstart介绍,首先需要将软件放入Linux环境变量中确保正常运行,之后开始:

(1)necat生成config文件

生成命令:

necat config  config.txt

config.txt 文件内容:

PROJECT=
ONT_READ_LIST=
GENOME_SIZE=
THREADS=4
MIN_READ_LENGTH=3000
PREP_OUTPUT_COVERAGE=40
OVLP_FAST_OPTIONS=-n 500 -z 20 -b 2000 -e 0.5 -j 0 -u 1 -a 1000
OVLP_SENSITIVE_OPTIONS=-n 500 -z 10 -e 0.5 -j 0 -u 1 -a 1000
CNS_FAST_OPTIONS=-a 2000 -x 4 -y 12 -l 1000 -e 0.5 -p 0.8 -u 0
CNS_SENSITIVE_OPTIONS=-a 2000 -x 4 -y 12 -l 1000 -e 0.5 -p 0.8 -u 0
TRIM_OVLP_OPTIONS=-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 1 -a 400
ASM_OVLP_OPTIONS=-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 0 -a 400
NUM_ITER=2
CNS_OUTPUT_COVERAGE=30
CLEANUP=1
USE_GRID=false
GRID_NODE=0
GRID_OPTIONS=
SMALL_MEMORY=0
FSA_OL_FILTER_OPTIONS=
FSA_ASSEMBLE_OPTIONS=
FSA_CTG_BRIDGE_OPTIONS=
POLISH_CONTIGS=true

根据自己的物种和数据名修改上面的config.txt 文件。
nanopore数据文件read_list.txt,文件中nanopore数据的内容不必相同,可以存在fastq,fasta,或者gzip格式,我们的拟南芥仅为一个文件:

## cat read_list.txt
/home/debian/data/08.arabidopsis_t2t_genome/CRR302667/CRR302667.fastq.gz

设置必须的参数值:

PROJECT=Arabidopsis ## 输出结果文件的文件名
ONT_READ_LIST=read_list.txt ## nanopore数据路径及文件名
GENOME_SIZE=138000000  ## 基因组大小
THREADS=20 ## 20个线程
MIN_READ_LENGTH=3000  ## 最短length
PREP_OUTPUT_COVERAGE=40  ## 设定corrected reads的覆盖度,这里是40X
OVLP_FAST_OPTIONS=-n 500 -z 20 -b 2000 -e 0.5 -j 0 -u 1 -a 1000
OVLP_SENSITIVE_OPTIONS=-n 500 -z 10 -e 0.5 -j 0 -u 1 -a 1000
CNS_FAST_OPTIONS=-a 2000 -x 4 -y 12 -l 1000 -e 0.5 -p 0.8 -u 0
CNS_SENSITIVE_OPTIONS=-a 2000 -x 4 -y 12 -l 1000 -e 0.5 -p 0.8 -u 0
TRIM_OVLP_OPTIONS=-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 1 -a 400
ASM_OVLP_OPTIONS=-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 0 -a 400
NUM_ITER=2
CNS_OUTPUT_COVERAGE=30   ## 最长的30X数据用于后续组装
CLEANUP=1
USE_GRID=false
GRID_NODE=0
GRID_OPTIONS=
SMALL_MEMORY=0
FSA_OL_FILTER_OPTIONS=
FSA_ASSEMBLE_OPTIONS=
FSA_CTG_BRIDGE_OPTIONS=
POLISH_CONTIGS=true  ## 设置最后bridge结果是否polish
(2)necat矫正nanopore数据

necat矫正

## run necat
time necat  correct config.txt

Note

1)The pipeline only corrects longest 40X (PREP_OUTPUT_COVERAGE) raw reads. 
The corrected reads are in the files ./ecoli/1-consensus/cns_iter${NUM_ITER}/cns.fasta.gz

2)The longest 30X (CNS_OUTPUT_COVERAGE) corrected reads are extracted for assembly,
 which are in the file ./ecoli/1-consensus/cns_final.fasta.gz
(3)necat组装nanopore数据

necat组装,使用的数据是Arabidopsis/1-consensus/cns_final.fasta.gz,如果上面的矫正未运行,那么这步也会运行矫正:

time necat  assemble config.txt

assemble结果为:

Arabidopsis/4-fsa/contigs.fasta
(4)necat bridge nanopore数据(将结果链接起来)

necat bidge命令:

time necat  bridge  config.txt

bridge结果:

Arabidopsis/6-bridge_contigs/bridged_contigs.fasta

注意:

If POLISH_CONTIGS is set, the pipeline uses the corrected reads to polish the bridged contigs.
The polished contigs are in the file ./ecoli/6-bridge_contigs/polished_contigs.fasta

因为我们上面也是设置的POLISH_CONTIGS=true,所以最终birdge的结果还进行了polish。从结果文件大小可以看出两个文件存在细微差别,polish的长约17k:

ll  Arabidopsis/6-bridge_contigs/*_contigs.fasta 
-rw-r--r-- 1 debian debian 128470228 9   2 02:20 Arabidopsis/6-bridge_contigs/bridged_contigs.fasta
-rw-r--r-- 1 debian debian 128487860 9   2 04:22 Arabidopsis/6-bridge_contigs/polished_contigs.fasta

此处拟南芥组装得到的基因组大小为~128.48Mb,设置了20个threads,运行速度一天,整体结束(500G RAM and 28cpu debian sever)。命令前面使用time 是为了输出软件运行时间。

参考:
https://github.com/xiaochuanle/NECAT (github地址)
https://www.nature.com/articles/s41467-020-20236-7 (文章)

  系统运维 最新文章
配置小型公司网络WLAN基本业务(AC通过三层
如何在交付运维过程中建立风险底线意识,提
快速传输大文件,怎么通过网络传大文件给对
从游戏服务端角度分析移动同步(状态同步)
MySQL使用MyCat实现分库分表
如何用DWDM射频光纤技术实现200公里外的站点
国内顺畅下载k8s.gcr.io的镜像
自动化测试appium
ctfshow ssrf
Linux操作系统学习之实用指令(Centos7/8均
上一篇文章      下一篇文章      查看所有文章
加:2022-09-21 01:04:54  更:2022-09-21 01:08:24 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 9:59:19-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码