IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【生信MOOC】生信数据库1 -> 正文阅读

[人工智能]【生信MOOC】生信数据库1

【生信MOOC】生信数据库1

文章的文字/图片/代码部分/全部来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用。

目录

【生信MOOC】生信数据库

1、认识生物数据库装载的内容

2、生物数据库的分类

3、文献数据库——PubMed

?4、一级核酸数据库——NCBI的Genbank数据库

4.1——大肠杆菌dUTPas(脱氧尿苷焦磷酸酶)X01714的DNA序列

4.2——编码人dUTPase的成熟mRNA序列U90223

4.3——编码人dUTPase的dut基因序列。序列AF018430

5、一级核酸数据库——基因组数据库Ensemble

6、一级核酸数据库——微生物宏基因组数据库JCVI

7、二级核酸数据库


1、认识生物数据库装载的内容

HIV-one病毒的整个基因组,包含了9752个碱基,编码9个基因。差不多一页A4纸,正反面打印就可以把这九千多个碱基记录下来。

人的基因组要大得多,有3个G,也就是30亿个碱基。如果一页A4纸打印5000个碱基的话,我们需要打印60万页,才能把整个人的基因组打印完。

?在生物中,1000K=1M。1000M=1G。1000G=1T,1000T=1P,依次1000倍1000倍的往上增长。

?

2、生物数据库的分类

核酸数据库:是与核酸相关的数据库。

蛋白质数据库:与蛋白质相关的数据库

专用数据库:专门针对某一主题的数据库,或者是综合性的数据库,以及无法归入其他两类的数据库。

一级数据库:存储的是通过各种科学手段得到的最直接的基础数据。比如测序获得的核酸序列,或者X射线衍射法等获得的蛋白质三维结构。

二级数据库:是通过对一级数据库的资源进行分析、整理、归纳、注释而构建的具有特殊生物学意义和专门用途的数据库。

?

3、文献数据库——PubMed

在搜索时,可以使用引号。引号里的词会被当作一个整体来看待,而不会被拆开。

也可以使用逻辑词ANDORNOT。

在PubMed搜索1995年以前的文献中排名十位以后的作者是白费力气。搜索1976年以前的文献是没有摘要的。搜索1965年以前的文献无结果。

?

?4、一级核酸数据库——NCBI的Genbank数据库

三大核酸数据库包括NCBI的Genbank,EMBL的ENA和DDBJ,它们共同构成国际核酸序列数据库。通过INSDC,三大核酸数据痒的信息每日相互交换、更新汇总,这使得他们几乎在任何时候都享有相同的数据。

?

首先需要明确原核生物和真核生物的基因区别。

原核生物:基因组小,基因是呈线性分布,基因密度高(1000个碱基里就有1个基因),编码区含量高,原核生物没有内含子。

真核生物:基因组大,基因是非线性的,基因密度低(10万个碱基有1个基因),编码区含量低,真核生物有内含子,mRNA要经历剪切的过程,剪切后的成熟mRNA才能进行翻译。

原核生物和真核生物有无内含子导致了两种基因在数据库中不同的存储方式和注释。

?

4.1——大肠杆菌dUTPas(脱氧尿苷焦磷酸酶)X01714的DNA序列

?

字段

解释

LOCUS

包括基因座的名字,核酸序列长度,分子的类别,拓扑类型,原核生物的基因拓扑类型都是线性的,最后是更新日期。

DEFINITION

是这条序列的简短定义,也就是这条序列的标题。

ACCESSION

就是在搜索条中输入的那个数据库编号,也叫做检索号,每条记录的检索号在数据库中是唯一且不变的

即使数据提交者改变了数据内容,Accession也不会变。

同一个基因在不同的数据库中会有不同的检索号(Accession),而基因的名字只有一个(LOCUS)。

Version

版本号的格式是“检索号.版本编号”

GI号

GI号与版本号系统是平行运行的。当一条序列改变后,它将被赋予一个新的GI号,同时它的版本号将增加。

KEYWORDS

提供能够大致描述该条目的几个关键词,可用于数据库搜索。

SOURCE

基因序列所属物种的俗名。

其子条目ORGANISM,是对所属物种更详细的定义,包括他的科学分类。

REFERENCE

是基因序列来源的科学文献。一条基因序列的不同片段可能来源于不同的文献,会有很多个REFERENCE条目出现。

COMMENT

是自由撰写的内容,比如致谢,或者是无法归入前面几项的内容。

FEATURES

是非常重要的注释内容,它描述了核酸序列中各个已确定的片段区域,包含很多子条目,比如来源,启动子,核糖体结合位点等等。

Source

核酸序列的来源,据此可以容易的分辨出这条序列是来源于克隆载体还是基因组。

Promoter

启动子的位置。细菌有两个启动子区,-35区和-10区。

misc_feature

列出了一些杂项,比如,put表示推测,这条说明了从第322个碱基到第324个碱基是一个推测的,但无实验证实的转录起始位置。

RBS

核糖体结合位点的位置。

CDS

CodingSegment,编码区。对于原核生物来讲,CDS记录了一个开放阅读框。从第343个碱基开始的起始密码子ATG到第798个碱基结束的结束密码子TAA。除了位置信息,还包括翻译产物的诸多信息。翻译产物蛋白的名字是dUTPase,这个编码区编码该蛋白的第1到第151个氨基酸。

这不是生物自然翻译的,而是计算机翻译的。

ORIGIN

是核酸序列,以双斜线作为整条记录的结束符。

4.2——编码人dUTPase的成熟mRNA序列U90223

成熟mRNA是已经剪切掉内含子,只剩外显子的序列,所以这条成熟mRNA序列和之前看到的原核生物的DNA序列从拓扑结构上看是几乎一样的。

KEYWORDS后面只有一个点。表示数据库并不是完美的,所有数据库都存在数据不完整的问题。

Features里的注释内容与原核生物的数据库记录相似,

CDS指出了从63到821是一段编码区,在这段编码区里基因是连续的,因为是经过剪切后的成熟mRNA,它将被翻译成线粒体型dUTPase蛋白。

/translation里给出的是计算机翻译出的该蛋白的序列。

sig_peptide(signalpeptide)编码信号肽的碱基的位置。信号肽决定了蛋白质的亚细胞定位,也就是蛋白质工作的地方。

mat_peptide(maturepeptide)指出编码成熟肽链的碱基的位置。他从信号肽后面开始,到编码区结尾提前三个碱基结束。

编码区的最后三个碱基是终止密码子,不翻译。

4.3——编码人dUTPase的dut基因序列。序列AF018430

?

5、一级核酸数据库——基因组数据库Ensemble

Ensembl数据库(http://www.ensembl.org)它收入了各种动物的基因组,特别是那些离人类近的脊椎动物的基因组。

编码dUPTase的dut基因就在15号染色体上。

?在弹出窗口中选择染色体概要(chromosomesummary)。这时我们会得到15号染色体的一个一览图。里面包括编码蛋白的基因、非编码基因、假基因分别在染色体上不同区段内的含量,以及GC百分比(红线),和卫星DNA百分比(黑线)。染色体统计表给出了15号染色体的长度,以及各种类型的基因的个数。

?从Genbank我们了解到,dut基因的第三号外显子位于15号染色体的长臂条带21.1附近。所以我们进一步进入这个条带看一下。点击条带21.1,选择区间链接。这时,这个区间内所有的基因就都被显示在一张图上。可以从这个图谱上直接找到dut基因,并以他为中心放大。如果找不到,也可以通过搜索条输入基因的名字进行查找。

?在以dut基因为中心显示的放大图谱中,点击dut或者对应的区域,在弹出的概况窗口中选择Ensemble数据库的检索号。之后就会出现dut基因在Ensemble数据库中的详细记录。

6、一级核酸数据库——微生物宏基因组数据库JCVI

TIGR是NCBI基因组资源的有力补充,因为它不仅拥有已完成测序的基因组,还有那些测序中的基因组信息。在植物基因组项目中可以找到拟南芥、玉米、苜蓿和柳树的基因组信息。在微生物与环境基因组目中,特别值得关注的是“人类微生物组计划”,HMP。

HMP由美国NIH发起,由4个四个测序中心共同完成,其中一个就是克莱格凡特学院。“人类微生物组计划”堪比“人类基因组计划”。目前,HMP主要包括了人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程。

?我们目前认知的微生物不到1%,生活在我们肠道中的微生物细胞,是人体细胞的10倍。这些微生物基因组之和是人类基因组的100倍。微生物影响并超越我们的生老病死,有一天人死了,但身体中的微生物却还活着。除了近年来少量的有关糖尿病等与肠道微生物的研究外,我们完全不清楚肠道微生物,呼吸道微生物,还有体表微生物等在人体内做了什么,他们的喜怒哀乐与我们的生老病死有什么关系。

点击统计链接。可以得到HMP中已研究的所有微生物基因组。这些微生物在人体中存在的位置,测序及注释是已完成还是在进行中。

已完成的基因组后面会有三个链接:

WGS? 是全基因组鸟枪法测序项目数据库记录的链接。

SRA? 是高通量测序数据库记录的链接。这两个链接里记录的是测序的信息。

ANNOTATION? 链接里的内容,他列出了某个基因组在Genbank中所有注释的链接。比如微生物AcinetobacterradioresistensSK82的基因组共分成82条序列记录在Genbank数据库中。

?

7、二级核酸数据库

二级核酸数据库包括的内容非常多。其中NCBI下属的三个数据库经常会用到。他们是RefSeq数据库,dbEST数据库和Gene数据库。

RefSeq数据库,也叫参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。凡是叫ref什么的数据库都是非冗余数据库,就是已经帮你把重复的内容去除掉了。

dbEST数据库,也就是表达序列标签数据库,存储的是不同物种的表达序列标签。

Gene数据库以基因为记录对象为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录。

非编码RNA数据库,提供非编码RNA的序列和功能信息。

非编码RNA不编码蛋白质但在细胞中起调节作用。目前该数据库包含来源于99种细菌,古细菌和真核生物的3万多条序列。microRNA数据库主要存放已发表的microRNA序列和注释。这个数据库可以分析microRNA在基因组中的定位和挖掘microRNA序列间的关系。

?

课程学习链接:生物信息学_中国大学MOOC(慕课) (icourse163.org)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-03 16:13:20  更:2022-03-03 16:18:11 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 18:35:59-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码