NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NT(Nucleotide Sequence Database),核酸序列数据库,是NR库的子集。
NR和NT库都可以通过NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)进行在线BLAST,也可以在[下载地址][]中将数据直接下载下来,需要注意的是,NR和NT库是被切分为以数字命名的子数据库上传的,将所有的子数据库放到同一个目录下,解压缩后构建索引文件即可。
Taxonomy 数据库
Taxanomy的[下载地址][ ]
gi_taxid 标识的数据:NCBI早在2016年已经宣布逐渐停用,这部分信息不再关注
- taxcat 标识的数据:ncbi提供有不同格式的压缩包,解压后都只有一个
categories.dmp 文件。打开该文件,包含三列信息,三列代表的不同的分类层次:
- 第一列:代表分类的顶级类别(top-level category),字母分别代表不同分类名(古菌,细菌,真核生物,病毒和类病毒,未分类,其他) A = Archaea B = Bacteria E = Eukaryota V = Viruses and Viroids U = Unclassified O = Other
- 第二列:相应的物种级别(species-level)的
taxid - 第三列:
taxid 本身
- taxdump 标识的数据
citations.dmp :与某个物种(taxid表示)的文献信息,来源信息:

- it_id :the unique id of citation-引用ID
- cit_key:citation key-文献关键词
- medline_id:unique id in MedLine database (0 if not in MedLine)-MedLine数据库中的唯一ID
- pubmed_id:unique id in PubMed database (0 if not in PubMed)-PubMud数据库中的唯一ID
- url:URL associated with citation-相关网站
- text :any text (usually article name and authors)-通常包含文章名字与作者名字的文本信息
- The following characters are escaped in this text by a backslash:
- newline (appear as “\n”),
- tab character ("\t"),
- double quotes (’"’),
- backslash character ("").
- taxid_list:list of node ids separated by a single space-文章中所包含的分类节点信息
nodes.dmp :存储 taxid对应的多级节点信息

- tax_id:the id of node associated with this name-节点taxaid
- name_txt:name itself-分类名称
- unique name:the unique variant of this name if name not unique-唯一名字
- name class:(synonym, common name, …)-分类级别
- tax_id:node id in GenBank taxonomy database
- parent tax_id:parent node id in GenBank taxonomy database
- rank:rank of this node (superkingdom, kingdom, …)
- embl code:locus-name prefix; not unique
- division id:see division.dmp file
- inherited div flag (1 or 0): 1 if node inherits division from parent
- genetic code id:see gencode.dmp file
- inherited GC flag (1 or 0): if node inherits genetic code from parent
- mitochondrial genetic code id: – see gencode.dmp file
- inherited MGC flag (1 or 0): – 1 if node inherits mitochondrial gencode
- GenBank hidden flag (1 or 0) : – 1 if name is suppressed in GenBank entry
- hidden subtree root flag (1 or 0) : – 1 if this subtree has no sequence data yet
- division id:taxonomy database division id
- division cde:GenBank division code (three characters)
- division name:e.g. BCT, PLN, VRT, MAM, PRI…
- genetic code id:GenBank genetic code id
- abbreviation:genetic code name abbreviation
- name:genetic code name
- cde:translation table for this genetic code
- starts:start codons for this genetic code
merged.dmp :记录新taxid替换旧taxid的信息

- old_tax_id:id of nodes which has been merged
- new_tax_id:id of nodes which is result of merging
RefSeq([the reference sequence database][]).参考序列数据库,包含RefSeq_genomic(NCBI genomic reference sequences),RefSeq_protein(NCBI protein reference sequences)和RefSeq transpans(NCBI transpans reference sequences)具有生物意义上的非冗余基因,转录本和蛋白质序列,是经过NCBI和其他组织校正的数据库,使用人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。
- 预测的RefSeq记录是来自于那些未知功能的cDNA序列,它们有一个预测的蛋白编码区;
- 临时的RefSeq记录还没有被检查过,它们是有自动的程序产生的;
- 检查过的记录代表了目前关于一个基因和它的转录子的知识的汇编,它们很多都来自于GenBank记录、人类基因组命名委员会和OMIM,RefSeq标准为人类基因组的功能注解提供一个基础。