【陪你学·生信】三、核苷酸序列数据库的使用(1)

这章内容将介绍如何使用GenBank。

此数据库是国际协作核酸序列数据库(INSDC)的一部分,由美国国家生物技术信息中心(NCBI)主管,NCBI为美国国立卫生研究院的下属机构。

GenBank和它的合作者(DNA DataBank of Japan (DDBJ), European Nucleotide Archive (ENA)和GenBank of NCBI)从全球各个实验室接收了超过百万种生物的数据。

一、基本生物学概念

在使用数据库之前,我们先来看看基因,基因组的生物学概念。

生物中基因都是核苷酸序列构成的,但是在原核和真核生物中,他们差别较大。

1. 原核生物和古细菌

对于生信分析,原核生物和古细菌是很相似的(相比于真核生物),常常会把两个数据放在一起。它们有如下特点:

(1)它们都是微生物。

(2)遗传物质是单一环状DNA分子。

(3)基因组大小约为几百万个碱基对。

(4)它们的基因密度大约为每1,000个碱基对一个基因。

(5)基因几乎没有冗余,70%可编码蛋白质。

(6)基因不重叠。

(7)启动子之后就是转录区域。

(8)无内含子。

(9)蛋白质序列从最长的开放阅读框翻译而来(从ATG到终止密码子)。

图1简单的展示了细菌基因组,转录本(mRNA),开放阅读框(ORF)和蛋白质(核糖体结合位点(Ribosome Binding Site,RBS))。mRNA序列中RBS之后的部分会被翻译为蛋白质。

由于这些特质,所以原核生物的数据库中,一般包含三个重要信息,即启动子、RBS、ORF边界的位置。

2. 真核生物

真核生物包括很多,小到酵母,大到树木、鲸鱼等。虽然真核生物体千差万别,但是它们的基因组也有一些共性,以及一些给生信分析带来困难的性质。

(1)基因组由多条染色体组成

(2)基因组非常大(1000万到6700亿碱基对)

(3)基因密度100,100碱基对一个基因

(4)在人类基因组中,小于5%的基因编码蛋白质

(5)基因可能重叠

(6)也是在启动子后开始转录,但是距离很远的一些序列也可能干扰这个过程。

(7)基因序列与产生的mRNA,蛋白质不一一对应,只有小部分外显子对应。

(8)基因通常编码一种以上的mRNA(蛋白质)。

基于真核生物基因序列与mRNA,蛋白质之间复杂多变的对应关系,数据库中的条目会更多。

前期相关推送

【陪你学·生信】序

【陪你学·生信】一、生信能帮我们做什么

【陪你学·生信】二、一些你肯定会用到的生信工具和基本操作

你可能感兴趣的:(【陪你学·生信】三、核苷酸序列数据库的使用(1))