HomoloGene数据库就是用来查找物种间对应的同源基因
ftp地址:
ftp://ftp.ncbi.nih.gov/pub/HomoloGene/build68/homologene.data
homologene.data存放着不同物种之间同源基因的对应关系
nohup wget -c 'ftp://ftp.ncbi.nih.gov/pub/HomoloGene/build68/homologene.data' &
echo -e "HID(HomoloGene_group_id)\tTaxonomyID\tGeneID\tGeneSymbol\tProtein_gi\tProtein_accession" |cat - homologene.data >mid && mv mid homologene.data
$ head -5 homologene.data |column -t
HID(HomoloGene_group_id) TaxonomyID GeneID GeneSymbol Protein_gi Protein_accession
3 9606 34 ACADM 4557231 NP_000007.1
3 9598 469356 ACADM 160961497 NP_001104286.1
3 9544 705168 ACADM 109008502 XP_001101274.1
3 9615 490207 ACADM 545503811 XP_005622188.1
根据HID去重之后的个数,得到44233组同源基因
$ awk 'NR>1{print $1}' homologene.data |sort -u |wc -l
44233
根据TaxonomyID得到目前共21个物种
$ awk 'NR>1{print $2}' homologene.data |sort -u |wc -l
21
每个物种都有一个对应的Taxonomy ID
10090 Mus musculus
10116 Rattus norvegicus
28985 Kluyveromyces lactis
318829 Magnaporthe oryzae
33169 Eremothecium gossypii
3702 Arabidopsis thaliana
4530 Oryza sativa
4896 Schizosaccharomyces pombe
4932 Saccharomyces cerevisiae
5141 Neurospora crassa
6239 Caenorhabditis elegans
7165 Anopheles gambiae
7227 Drosophila melanogaster
7955 Danio rerio
8364 Xenopus (Silurana) tropicalis
9031 Gallus gallus
9544 Macaca mulatta
9598 Pan troglodytes
9606 Homo sapiens
9615 Canis lupus familiaris
9913 Bos taurus
数据库中包含的人类基因数:19129,也就是说这些基因有其它物种的同源基因对应关系
$ awk 'NR>1 && $2=="9606"' homologene.data |wc -l
19129
参考:
https://www.jianshu.com/p/877d6f3cc799
|