NCBI数据库
在微生物测序分析中,常常需要对未知的核酸或蛋白序列进行物种,功能或类别注释。注释方法种类较多,其中最常用的是与一些标准数据库进行相似性搜索,也就是序列比对。因此,数据库的优劣对注释结果至关重要。
NR/NT数据库
NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NT(Nucleotide Sequence Database),核酸序列数据库,是NR库的子集。
NR和NT库都可以通过NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)进行在线BLAST,也可以在[下载地址][ftp://ftp.ncbi.nih.gov/blast/db]中将数据直接下载下来,需要注意的是,NR和NT库是被切分为以数字命名的子数据库上传的,将所有的子数据库放到同一个目录下,解压缩后构建索引文件即可。
Taxonomy 数据库
NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止发稿日为止该数据库所包含的物种数目统计表如下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x7Nymex0-1633523935616)(/Volumes/Flower0501/picture/基础知识/NCBI-Taxanomy数据库.png)]
Taxanomy的[下载地址][https://ftp.ncbi.nih.gov/pub/taxonomy ]
gi_taxid 标识的数据:NCBI早在2016年已经宣布逐渐停用,这部分信息不再关注
- taxcat 标识的数据:ncbi提供有不同格式的压缩包,解压后都只有一个
categories.dmp 文件。打开该文件,包含三列信息,三列代表的不同的分类层次:
内容信息:
- 第一列:代表分类的顶级类别(top-level category),字母分别代表不同分类名(古菌,细菌,真核生物,病毒和类病毒,未分类,其他) A = Archaea B = Bacteria E = Eukaryota V = Viruses and Viroids U = Unclassified O = Other
- 第二列:相应的物种级别(species-level)的
taxid - 第三列:
taxid 本身
- taxdump 标识的数据
同样提供不同格式的压缩包,解压后后包含7个文件:
citations.dmp :与某个物种(taxid表示)的文献信息,来源信息:
- it_id :the unique id of citation-引用ID
- cit_key:citation key-文献关键词
- medline_id:unique id in MedLine database (0 if not in MedLine)-MedLine数据库中的唯一ID
- pubmed_id:unique id in PubMed database (0 if not in PubMed)-PubMud数据库中的唯一ID
- url:URL associated with citation-相关网站
- text :any text (usually article name and authors)-通常包含文章名字与作者名字的文本信息
- The following characters are escaped in this text by a backslash:
- newline (appear as “\n”),
- tab character ("\t"),
- double quotes (’"’),
- backslash character ("").
- taxid_list:list of node ids separated by a single space-文章中所包含的分类节点信息
nodes.dmp :存储 taxid对应的多级节点信息
- tax_id:the id of node associated with this name-节点taxaid
- name_txt:name itself-分类名称
- unique name:the unique variant of this name if name not unique-唯一名字
- name class:(synonym, common name, …)-分类级别
nodes.dmp :存储 taxid对应的多级节点信息
- tax_id:node id in GenBank taxonomy database
- parent tax_id:parent node id in GenBank taxonomy database
- rank:rank of this node (superkingdom, kingdom, …)
- embl code:locus-name prefix; not unique
- division id:see division.dmp file
- inherited div flag (1 or 0): 1 if node inherits division from parent
- genetic code id:see gencode.dmp file
- inherited GC flag (1 or 0): if node inherits genetic code from parent
- mitochondrial genetic code id: – see gencode.dmp file
- inherited MGC flag (1 or 0): – 1 if node inherits mitochondrial gencode
- GenBank hidden flag (1 or 0) : – 1 if name is suppressed in GenBank entry
- hidden subtree root flag (1 or 0) : – 1 if this subtree has no sequence data yet
comments:free-text comments and citations
- division id:taxonomy database division id
- division cde:GenBank division code (three characters)
- division name:e.g. BCT, PLN, VRT, MAM, PRI…
- comments
- genetic code id:GenBank genetic code id
- abbreviation:genetic code name abbreviation
- name:genetic code name
- cde:translation table for this genetic code
- starts:start codons for this genetic code
merged.dmp :记录新taxid替换旧taxid的信息
- old_tax_id:id of nodes which has been merged
- new_tax_id:id of nodes which is result of merging
RefSeq数据库
RefSeq([the reference sequence database][https://www.ncbi.nlm.nih.gov/refseq/]).参考序列数据库,包含RefSeq_genomic(NCBI genomic reference sequences),RefSeq_protein(NCBI protein reference sequences)和RefSeq transpans(NCBI transpans reference sequences)具有生物意义上的非冗余基因,转录本和蛋白质序列,是经过NCBI和其他组织校正的数据库,使用人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。
RefSeq记录有三种可以获得的状态:预测的、临时的和检查过的(reviewd)。
- 预测的RefSeq记录是来自于那些未知功能的cDNA序列,它们有一个预测的蛋白编码区;
- 临时的RefSeq记录还没有被检查过,它们是有自动的程序产生的;
- 检查过的记录代表了目前关于一个基因和它的转录子的知识的汇编,它们很多都来自于GenBank记录、人类基因组命名委员会和OMIM,RefSeq标准为人类基因组的功能注解提供一个基础。
RefSeq数据库和GenBank数据库的区别在于:GenBank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。
数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。
文章来源: https://cloud.tencent.com/developer/article/1772376
|