| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【生信MOOC】生信数据库1 -> 正文阅读 |
|
[人工智能]【生信MOOC】生信数据库1 |
【生信MOOC】生信数据库1文章的文字/图片/代码部分/全部来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用。 目录 4.1——大肠杆菌dUTPas(脱氧尿苷焦磷酸酶)X01714的DNA序列 4.2——编码人dUTPase的成熟mRNA序列U90223 4.3——编码人dUTPase的dut基因序列。序列AF018430 1、认识生物数据库装载的内容HIV-one病毒的整个基因组,包含了9752个碱基,编码9个基因。差不多一页A4纸,正反面打印就可以把这九千多个碱基记录下来。 人的基因组要大得多,有3个G,也就是30亿个碱基。如果一页A4纸打印5000个碱基的话,我们需要打印60万页,才能把整个人的基因组打印完。 ?在生物中,1000K=1M。1000M=1G。1000G=1T,1000T=1P,依次1000倍1000倍的往上增长。 ? 2、生物数据库的分类核酸数据库:是与核酸相关的数据库。 蛋白质数据库:与蛋白质相关的数据库 专用数据库:专门针对某一主题的数据库,或者是综合性的数据库,以及无法归入其他两类的数据库。 一级数据库:存储的是通过各种科学手段得到的最直接的基础数据。比如测序获得的核酸序列,或者X射线衍射法等获得的蛋白质三维结构。 二级数据库:是通过对一级数据库的资源进行分析、整理、归纳、注释而构建的具有特殊生物学意义和专门用途的数据库。 ? 3、文献数据库——PubMed在搜索时,可以使用引号。引号里的词会被当作一个整体来看待,而不会被拆开。 也可以使用逻辑词ANDORNOT。 在PubMed搜索1995年以前的文献中排名十位以后的作者是白费力气。搜索1976年以前的文献是没有摘要的。搜索1965年以前的文献无结果。 ? ?4、一级核酸数据库——NCBI的Genbank数据库三大核酸数据库包括NCBI的Genbank,EMBL的ENA和DDBJ,它们共同构成国际核酸序列数据库。通过INSDC,三大核酸数据痒的信息每日相互交换、更新汇总,这使得他们几乎在任何时候都享有相同的数据。 ? 首先需要明确原核生物和真核生物的基因区别。 原核生物:基因组小,基因是呈线性分布,基因密度高(1000个碱基里就有1个基因),编码区含量高,原核生物没有内含子。 真核生物:基因组大,基因是非线性的,基因密度低(10万个碱基有1个基因),编码区含量低,真核生物有内含子,mRNA要经历剪切的过程,剪切后的成熟mRNA才能进行翻译。 原核生物和真核生物有无内含子导致了两种基因在数据库中不同的存储方式和注释。 ? 4.1——大肠杆菌dUTPas(脱氧尿苷焦磷酸酶)X01714的DNA序列?
4.2——编码人dUTPase的成熟mRNA序列U90223成熟mRNA是已经剪切掉内含子,只剩外显子的序列,所以这条成熟mRNA序列和之前看到的原核生物的DNA序列从拓扑结构上看是几乎一样的。 KEYWORDS后面只有一个点。表示数据库并不是完美的,所有数据库都存在数据不完整的问题。 Features里的注释内容与原核生物的数据库记录相似, CDS指出了从63到821是一段编码区,在这段编码区里基因是连续的,因为是经过剪切后的成熟mRNA,它将被翻译成线粒体型dUTPase蛋白。 /translation里给出的是计算机翻译出的该蛋白的序列。 sig_peptide(signalpeptide)编码信号肽的碱基的位置。信号肽决定了蛋白质的亚细胞定位,也就是蛋白质工作的地方。 mat_peptide(maturepeptide)指出编码成熟肽链的碱基的位置。他从信号肽后面开始,到编码区结尾提前三个碱基结束。 编码区的最后三个碱基是终止密码子,不翻译。 4.3——编码人dUTPase的dut基因序列。序列AF018430? 5、一级核酸数据库——基因组数据库EnsembleEnsembl数据库(http://www.ensembl.org)它收入了各种动物的基因组,特别是那些离人类近的脊椎动物的基因组。 编码dUPTase的dut基因就在15号染色体上。 ?在弹出窗口中选择染色体概要(chromosomesummary)。这时我们会得到15号染色体的一个一览图。里面包括编码蛋白的基因、非编码基因、假基因分别在染色体上不同区段内的含量,以及GC百分比(红线),和卫星DNA百分比(黑线)。染色体统计表给出了15号染色体的长度,以及各种类型的基因的个数。 ?从Genbank我们了解到,dut基因的第三号外显子位于15号染色体的长臂条带21.1附近。所以我们进一步进入这个条带看一下。点击条带21.1,选择区间链接。这时,这个区间内所有的基因就都被显示在一张图上。可以从这个图谱上直接找到dut基因,并以他为中心放大。如果找不到,也可以通过搜索条输入基因的名字进行查找。 ?在以dut基因为中心显示的放大图谱中,点击dut或者对应的区域,在弹出的概况窗口中选择Ensemble数据库的检索号。之后就会出现dut基因在Ensemble数据库中的详细记录。 6、一级核酸数据库——微生物宏基因组数据库JCVITIGR是NCBI基因组资源的有力补充,因为它不仅拥有已完成测序的基因组,还有那些测序中的基因组信息。在植物基因组项目中可以找到拟南芥、玉米、苜蓿和柳树的基因组信息。在微生物与环境基因组目中,特别值得关注的是“人类微生物组计划”,HMP。 HMP由美国NIH发起,由4个四个测序中心共同完成,其中一个就是克莱格凡特学院。“人类微生物组计划”堪比“人类基因组计划”。目前,HMP主要包括了人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程。 ?我们目前认知的微生物不到1%,生活在我们肠道中的微生物细胞,是人体细胞的10倍。这些微生物基因组之和是人类基因组的100倍。微生物影响并超越我们的生老病死,有一天人死了,但身体中的微生物却还活着。除了近年来少量的有关糖尿病等与肠道微生物的研究外,我们完全不清楚肠道微生物,呼吸道微生物,还有体表微生物等在人体内做了什么,他们的喜怒哀乐与我们的生老病死有什么关系。 点击统计链接。可以得到HMP中已研究的所有微生物基因组。这些微生物在人体中存在的位置,测序及注释是已完成还是在进行中。 已完成的基因组后面会有三个链接: WGS? 是全基因组鸟枪法测序项目数据库记录的链接。 SRA? 是高通量测序数据库记录的链接。这两个链接里记录的是测序的信息。 ANNOTATION? 链接里的内容,他列出了某个基因组在Genbank中所有注释的链接。比如微生物AcinetobacterradioresistensSK82的基因组共分成82条序列记录在Genbank数据库中。 ? 7、二级核酸数据库二级核酸数据库包括的内容非常多。其中NCBI下属的三个数据库经常会用到。他们是RefSeq数据库,dbEST数据库和Gene数据库。 RefSeq数据库,也叫参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。凡是叫ref什么的数据库都是非冗余数据库,就是已经帮你把重复的内容去除掉了。 dbEST数据库,也就是表达序列标签数据库,存储的是不同物种的表达序列标签。 Gene数据库以基因为记录对象为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录。 非编码RNA数据库,提供非编码RNA的序列和功能信息。 非编码RNA不编码蛋白质但在细胞中起调节作用。目前该数据库包含来源于99种细菌,古细菌和真核生物的3万多条序列。microRNA数据库主要存放已发表的microRNA序列和注释。这个数据库可以分析microRNA在基因组中的定位和挖掘microRNA序列间的关系。 ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 18:35:59- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |