【读书笔记】生信札记 第二章

1.简介

生物信息学涉及的数据库可大致分为二种:初级数据库二级数据库

初级数据库贮存原始的生物数据,如 DNA 序列,由晶体衍射(Crystallography)获得的蛋白质结构等。

二级数据是在初级数据库的基础上经加工和增加相关信息,使它们更便于特定专业人员的使用,如真核生物启动子序列库 EPD 和蛋白质一般结构或功能模体(motif)数据库 PROSITE。

一个数据库记录(entry)一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释(annotation)。不同的数据库的注释质量差异很大,因为一个数据库往往要在数据的完整性和注释工作量之间寻找一个平衡点。数据库记录的注释工作是一个动态过程。在所有的生物信息数据库中总会有一小部分的记录(包括原始序列数据和注释)是不正确的,这是一个无法避免的事实。

2.初级数据库

2.1DNA数据库

DNA 序列构成了初级数据库的主体部分。目前国际上有 3 个主要的 DNA 序列公共数据库:

(1)欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)(位于英国剑桥)
(2)GenBank[美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI),该中心隶属于美国家医学图书馆,位于美国国家卫生研究院(NIH)内]
3)日本 DNA 数据库(DNADatabank of Japan,DDBJ)。

这 3 个大型数据库于 1988 年达成协议,组成合作联合体。它们每天交换信息,并对数据库DNA 序列记录的统一标准达成一致。每个机构负责收集来自不同地理分布的数据(EMBL 负责欧洲,GenBank 负责美洲,DDBJ负责亚洲等),然后来自各地的所有信息汇总在一起,3 个数据库共同享有并向世界开放,故这 3 个数据库又被称为公共序列数据库(Public Sequence Database)。

【读书笔记】生信札记 第二章_第1张图片

DNA 序列数据库的增长是飞速的,当进行生物信息学分析时,分析结果中务必要注明你当时所使用序列数据库的数据状况。

为了有效地管理如此庞大的数据,数据库数据根据物种(species)分为几类,每个记录都被严格地归入某一类中。每一类用了 3 个字母代码表示

【读书笔记】生信札记 第二章_第2张图片

2.2基因组数据库

第二个主要的初级数据源来自各种基因组计划。一些基因组计划已经完成,如 真 核生物酵母( Saccharomyces cerevisiae), 原肠生物( Methanococcus janeschii ) 和 3 个原核生物流感嗜血杆菌( Haemophilus influenzae )、( Mycoplasma genitaliam )和大肠杆菌( Escherichia coli )等。这些计划的大部分信息在 EMBL 中均可找到。

【读书笔记】生信札记 第二章_第3张图片

人类最早(1977)获得的生物基因组全序列是噬菌体(53kb),1987 年自动测序仪问世,随后第一个病毒基因组序列(1990)在自动测序仪上完成;后来是第一个细菌基因组(1995)被完全测序,紧接着是酵母(1996)、多细胞线虫(1998)和果蝇(1999)基因组,最后是人类自身(2000)的遗传密码被解开。

2.3蛋白质序列数据

SWISS-PROTPIR 是国际上两个主要的蛋白质序列数据库。SWISS-PROT 数据库包括了从 EMBL 翻译而来的蛋白质序列,这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT 的序列数量呈直线增长。SWISS-PROT 的数据存在一个滞后问题,即把 EMBL 的 DNA 序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的 DNA 序列尚未列入 SWISS-PROT。为了解决这一问题,TREMBL(Translated EMBL)被建立了起来。TREMBL 也是一个蛋白质数据库,它包括了所有 EMBL 库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。

PIR 数据库的数据由美国家生物技术信息中心(NCBI)翻译自 GenBank 的 DNA 序列。PIR 根据注释程度(质量)分为 4 个等级。

【读书笔记】生信札记 第二章_第4张图片

2.4蛋白质结构数据库

实验获得的三维蛋白质结构均贮存在蛋白质数据库 PDB 中。PDB 是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。PDB 贮存有由 X 射线和核磁共振(NMR)确定的结构数据。NRL-3D 数据库提供了贮存在 PDB 库中蛋白质的序列,它可以进行与已知结构的蛋白质序列的比较。对来自 PDB 中每个已知三维结构的蛋白质序列进行多序列同源性比较(multiple sequence alignment)的结果,被贮存在 HSSP(homology-derived structures of proteins)数据库中。被列为同源的蛋白质序列很有可能具有相同的三维结构,HSSP 因此根据同源性给出了 SWISS-PROT 数据库中所有蛋白质序列最有可能的三维结构。要想了解对已知结构蛋白质进行等级分类的情况可利用SCOP(Structural classification of proteins)数据库,在该库中可以比较某一蛋白质与已知结构蛋白的结构相似性。

【读书笔记】生信札记 第二章_第5张图片

3.初级序列数据的注释

到目前为此,尚没有一个统一的序列注释格式,各数据库间均存在差异。但总的来说,各数据库所提供的注释内容还是相同的。现在比较使人不放心的是针对一个相同基因的 DNA 和蛋白质序列注释之间的差异。

【读书笔记】生信札记 第二章_第6张图片

相关文献数据库 (database cross-reference, DR)需要做进一步的说明。许多二级数据库内容来自初始数据库,例如 OMIM(Online Mendelian Inheritance in Man)数据库是有关人类遗传疾病的数据,如果 OMIM 中的一个记录与 EMBL 中一个已知序列的基因有关,则该基因将与该记录建立联系,则 EMBL库中该序列的 DR 栏中将包括 OMIM 和 OMIM 中相关记录的名称。上述例子的 DR 栏中有该 DNA 序列翻译成蛋白质序列的 SWISS-PROT 记录号等。从此可见,DR 栏内容非常重要,它有助于了解与该原始 DNA 序列相关信息的状况和存贮站点。与 DR 栏可能有关的一些数据库包括 SWISS-PROT、 EMBL、OMIM、PROSITE(保守蛋白质模序数据库)、HSSP、PDB、MEDLNE(与 RL 栏相关的文献摘要数据库)、PIR 等。

大量的 DNA 序列记录包含有一个以上的开放读框(ORF)。主表中的 PID 编号被用于唯一地指定每一个 ORF。这一编号是一个非常重要的注释信息,因为它可以使许多不同的 SWISS-PROT 记录与一个相同的 EMBL 序列相链接,可以精确地知道 EMBL 序列中的 ORF 所对应的 SWISS-PROT 蛋白质记录。

4.数据库信息检索系统

最著名和操作性最强的 2 个系统是 Entrez(由美国建立)和 SRS(Sequence retrieval System)(由 EMBL Theore Etzold 建立。

序列一般可通过记录号(如来自 1 篇发表的论文)或是该序列注释中的一些信息进行检索。SRS 的优势是可以使你通过普通的终端去检索大范围的数据库,并通过 DR 栏链接到在其它数据库

4.1数据库的冗余和偏差

DNA 和蛋白质数据库中的很多记录是属于同一基因和蛋白质家族,或在不同生物体上发现的同源基因。

冗余数据至少可能导致以下 3 个潜在的错误:

一是如果一组 DNA 或氨基酸序列包含了大量非常相关序列族,则相应的统计分析将偏向这些族,在分析结果中,这些族的特性被夸大;

二是序列间不同部分的显著相关可能是在数据样本抽样时是有偏的和不正确的;

三是如果这些数据是被用于预测,则这些序列将使预测方法—如人工智能方法-发生偏离。

序列数据的偏差或错误(artifacts) 主要来自实验过程,这与其它科学数据的情况相同。这些错误主要来自以下几个方面:

(1)载体序列污染:在测序列等实验过程中,载体序列可能造成污染,致使序列记录数据中包含了载体序列;
(2)异源(heterologous)序列污染:有研究表明一些人类 cDNA 测序结果在实验过程中被酵母和细菌序列污染;
(3)序列的重排和缺失;
(4)重复序列污染:cDNA 克隆方法有时会受到逆转录因子(如 Alus)的影响。
(5)测序误差和自然多态性:测序过程存在一定的误差概率。

4.2向数据库发送序列数据及其它

许多学术期刊在发表含有序列数据的论文时,均要求作者先将该序列发送并存贮到某一数据库中。如果该序列是在欧洲完成的,则应储存到 EMBL,如来自美洲,则存到 GenBank,其它地区则应发送到日本的 DDBJ。这些数据库的主页上均有详细的发送说明。数据库往往特别要求发送者要注意去除载体污染,例如EMBL 提供了 EBI 的相关服务(网址见上节)。序列的发送可以通过网上进行。EMBL的发送系统为 WEBIN(http://www.ebi.ac.uk/embl/Submission/webin.html),它除了可进行一般大小的序列数据发送外,还可进行大批量的数据发送(Bulk submission) 。 GenBank 的 发 送 系 统

Sequin(http://www.ncbi.nlm.nih.gov/Sequin/index.html)是由 NCB1 开发的多平台(Mac/pc/unix)工具,适用于 EMBL、GenBank 和 DDBJ 数据库的发送服务。具体发送格式和要求可到这些网站上查获。一旦数据被接收,一个记录号(对应于发送的数据)将产生并送给发送者,该记录号可用于论文发表。

试验结果的可重复性是科学研究的一个重要特征。为了保证生物信息学研究结果的可重复性,准确、全面的“材料与方法”说明比其它学科显得更为重要和严格。一份清楚、准确的“材料与方法”说明应包括:

(1)数据库的名称:SWISSPROT、PIR、GenBank、EMBL、dbEST 等等,不应是以类别(蛋白、核酸、序列等)说明。
(2)数据库的版本(Version):数据库在快速变化,它远快于期刊的发行速度,所以严格注明所用数据库的版本;如果你的检索是实时的,则注明最后检索的日期。
(3)所使用的计算机:这可能是不重要的一项说明,因为算法等不论在何种计算机上均应相同,但如果在使用异地(off-site)计算机系统(如E-mail 和 Internet)服务,那么,科学的态度应是注明其服务器及其管理者。
(4)替换矩阵(substitution matrix):所有的现代搜索程序均使用替换矩阵,选用不同的矩阵会产生完全不同的结果,所以必须注明在搜索和列阵(aligning)中使用何种矩阵。
(5)空位罚值(gap penalty):很多算法使用空位罚值(如 FASTA)。

一般用户可利用的分子数据库服务内容可分为几种:E-mail 服务、匿名 FTP服务、www 服务和序列相似性搜索服务等。通过 E-mail 可向数据库发送相关要求来获取有关数据和服务。匿名 FTP 服务是另外一种进入数据库获取信息的方法,研究者可利用本地的 FTP(file transfer protocol)程序连接到相应的数据库主机上,以“anonymous”(匿名)为用户名和自己的 E-mail 地址为口令进入。www 服务是通过网络直接进入相关数据库网址,进行数据检索、数据传送等。同时各数据库均提供序列相似性检索等序列分析的服务,如 FASTA、BLAST 和 BLITS 等服务分析结果通过 E-mail 发送返回或直接显示在浏览器上。

你可能感兴趣的:(【读书笔记】生信札记 第二章)