计算机算法在生物信息学中的应用,生物信息学在系统发育分析中的应用(自己原创) - 生物科学 - 小木虫 - 学术 科研 互动社区...

摘要:生物多样性的价值越来越被人们所认识与利用。生物多样性的原因是生物进化的过程中,物种和物种之间、物种和无机环境之间共同进化形成结果。对生物进行系统发育分析可以发现它们之间的亲缘关系及进化过程,从而对其的利用更有针对性。本文综述了系统进化的各种研究方法以及生物信息学在其中的应用,并对生物信息学中所采用的研究生物进化关系的方法进行了比较,以及分析了生物信息学的发展趋势。

关键词:系统发育分析; 生物信息学; 分子进化; 系统发育树

引言

自达尔文提出进化论以来,人们普遍认为各种物种之间或多或少都存在某些亲缘关系。科学家们根据进化论分析物种进化的规律并用这些规律进行物种分类,种群及生物类群的演化研究。然而,传统的进化分析只是从物种的形态,生活习性以及重要的指标进行分析,其间并不涉及分子水平下的进化研究。随着现代生物学的发展,特别是基因测序以来,有了丰富的基因序列资源,科学家们更趋向于从序列上进行分子进化分析,这样的分析结果更能反映物种之间的亲缘关系。科学家已经通过人类的基因进行的分子进化分析发现了人类的迁徙路径。生物信息学的发展对系统发育分析提供了有力的研究方法。

1:生物进化的研究发展

当代生物进化的研究存在着生物系统学与生态学进路、理论生物学进路和系统生物学进路,这几种进路的研究范式继承了生物学在历史发展中形成的博物学、哲学和医学生理学这几个主要的研究传统,它们在不同方向上把生物进化的研究推进到一个新的层次。

在进化思想的形成和发展过程中,生物分类学、比较解剖学、胚胎学、古生物学、生物地理学、生态学等学科都做出了一定的贡献,达尔文正是作为一个博物学家、集大成者,在这各个领域研究的基础上于《物种起源》一书中提出了他的进化学说。在达尔文进化论提出之后,各个学科基本上便在达尔文所提出的进化范式基础上来进行研究,并把各个学科的知识推向一个新的境界。

系统生物学是近年兴起的学科,其创始人之一的美国科学家胡德(Teroy Hood)说:“系统生物学将是二十一世纪医学和生物学的核心驱动力”。近年来国内外很多大学和研究院纷纷成立系统生物学研究所或研究中心,一些国际性的系统生物学研究会议也频繁召开。那么什么是系统生物学呢?据我国工程院院士杨胜利教授的定义,系统生物学是“在细胞、组织、器官和生物体整体水平上研究结构和功能各异的生物分子及其相互作用,并通过计算生物学来定量和预测生物功能、表型和行为”的这样一门学科。系统生物学是适应于当前分子生物学的快速发展以及人类基因组计划等大科学工程而提出来的。人们在生命科学的微观领域沿着还原论的思路揭示了生命在微观领域上的众多信息,使生命科学由基因时代推向基因组时代,又继而推向后基因时代。所谓后基因时代就是要从整体上来理解和分析人们在研究中获得的复杂信息,因而基因组学、转录组学、蛋白质组学、代谢组学、相互作用组学和表型组学等高通量的组学实验平台就构成了系统生物学。系统生物学不仅在医学和农学等方面具有重要的应用前景,更重要的是它代表了生命科学理论的重大发展,在生物进化的研究方向上就提出了许多新的发现。如基因平行转移的发现、最小基因组与生命起源的关系、生物体可进化性概念的提出、无尺度网络生物模型的建立、蛋白质网络中与进化有关的各种Hub的发现等等。这些新的概念和进化模型的提出,都揭示了生物系统在分子相互作用下的演化规律,并在不同程度上对其它层次上的演化具有非常重要的启发意义和应用价值。

2:什么是生物信息学及其产生背景

随着基因测序的发展,现在基因数据库里面的基因序列数以万计,其中最著名的基因数据库有NCBI、EBI、DDBJ数据库。这说明基于序列分析的生物学时代已经到来。自从1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命"阿波罗计划"的人类基因组计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学世上又一个里程碑式的事件。它预示着完成人类基因组计划已经指日可待。截止目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。在人类基因组计划进行过程中所积累起来的技术和经验,使得其它生物基因组的测序工作可以完成得更快捷。可以预计,今后DNA序列数据的增长将更为惊人。生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。

生物信息学就是在如此庞大的基因序列数目下发展起来的。生物信息学是把基因组DNA序列信息分析作为源头,然后根据序列信息应用数学与统计学方法计算出不同物种之间的同源序列差异,再根据这些差异构建系统发育树。。因此在基因组研究时代,生物信息学包含三个重要内容,它们是基因组信息学、数据挖掘以及系统发育学。基因组信息学则是生物信息学的源头和基础。

生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今乃至下一世纪自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。该项目的实施不仅有助于认识遗传语言,读懂人类基因组全部DNA序列,认识人类自身,而且必将有助于揭示“信息结构”和“复杂性”的深刻内涵,以及遗传、发育和进化的联系,大大丰富和发展现有的物理学、生物学、化学、数学、计算机科学、信息科学和系统科学的理论和方法,从而推动学科群的发展,成为自然科学中多学科交叉的有活力的、有影响的新领域。

3:应用生物信息学研究系统发育树的方法

生物信息学是系统发育研究中重要的分析手段, 它通过DNA序列间的差异计算出核苷酸多态性, 并由此构建分子谱系树, 推断群体的扩张模式、历史动态,推算群体起源、分歧的大致时间以及群体的进化速率、基因混合程度, 甄别物种序列等, 并可以给出统计学上的量化结果。它可以从分子水平上探讨群体进化的规律, 并可将这些规律以直观、形象的方式表现出来。

进化的实质,在一定程度上可以说是群居遗传构成上或基因频率上的变化和累计,通过计算等位基因频率等指标,可以了解其遗传进化关系。在进化分析时,我们通常要选择一个“进化时钟”,就是在选择序列分析时,要选取不同的物种的同源序列,这样结果才有可比性,这些被选取的序列就成为“进化时钟”。现在科学家们已经发现了各种各样的进化时钟,例如脂肪酸分析,同工酶分析,核糖体RNA分析,免疫分析等等。

小亚基核糖体RNA以其独特优势被较广泛的作为进化时钟。小核糖体亚单位RNA 包括5S Rrna,16S rRNA, 18S rRNA。核糖体RNA具有以下优点:具有重要且恒定的生理功能;普遍存在于真核生物和原核生物中,而且在系统发育上具有适当的保守性;分子量大小适中,在细胞中含量大(约占细胞中RNA的90%);高度保守,中度保守和高度变化的序列区域,适用于进化距离不同的各类生物亲缘关系的研究。不同物种的rRNA基因序列在某些位点会以不同的几率发生突变,它们在种属界等水平上表现出结构与功能的高度保守性,序列的相似性程度可以反映它们的系统发育关系。

特别是16S rRNA由于分子大小适中(1.5kbp左右),既能体现不同种属之间的差异,用能利用测序技术较容易地得到其序列而得到有关系统发育分析的充足信息。故被大多数生物学家所接受。16SRNA的同源性分析最适合于属及属以上的远缘关系。

4:生物信息学系统发育分析的技术及算法

序列比对是构建系统发育树、进行系统发育分析的前提和必要条件,在生物进化研究中, 序列比对的目的是建立起所检测序列与其他序列的同源关系, 提取系统发育分析数据集。如果序列排序不当, 将严重影响后续的系统发育分析。通过序列比对, 可以筛选出变异位点, 对实验数据进行初步估计。N eedlem an 的算法是目前公认的最有效的序列比对方法, 它以相似性指数为标准度量出最好的排列。C lustalX ( C lustalW ) 是进行此项工作的经典程序.

遗传距离的计算是判断个体间、群体间亲缘关系的基础, 也是距离矩阵法构建系统发育树的重要手段. 计算个体间遗传距离的替代模型有很多, 其中最简单的是p 距离模型. 其计算公式为p = nd /n( nd和n分别为所检测的两序列间不同核苷酸数和配对总数)。比较常用的模型还有Jukes-Cantor,Kim ura, Equal-Input和Tamura-Nei 等模型。由于核苷酸替代的实际过程较复杂, 这些模型都存在一些假定, 如Jukes-cantor 模型假定任一位点的核苷酸替代频率都是相同的, Kimura 双参数模型考虑了转换和颠换速率的不同, 而Tamura-Nei些学者提出更复杂的距离测度, 如对数行列式和准线性距离等.对于群体之间的遗传距离, 常用以下公式计算: D = d ij - [ ( di + dj) /2] , 其中dij是指种群i和j间的平均配对差异, 而di 和dj 则分别为种群i和j内的平均配对差异。

对于计算出的遗传距离,我们就要构建系统发育树以直观的方式反映它们之间的遗传进化的关系。系统发育树是表达分类群之间系统发育关系的一种树状图, 它可以推测生物类群系统发育的分支样式, 给出分支层次或拓扑图形, 并能估算类群之间遗传关系的远近。在生物进化研究中, 通过构建系统发育树, 可以推断个体之间以及群体间的亲缘关系, 以及研究对象在系统树中所处的进化地位等。目前构建系统发育树的算法大致有三种:

距离矩阵法,首先获得所有分类群间的进化距离, 之后基于这些距离值构建系统发育树。邻接距离矩阵法( NJ)在系统发育树构建中应用最为广泛, 它基于最小进化原理, 可以较快的构建系统树, 同时也比较适合于分析较大的数据集, 并可以很快地进行自展检验。

最大简约法( MP ,Maximum Parsimony),源于形态性状的研究, 它是一种优化标准,MP法存在如下优点: 它不需要距离法或似然法在处理核苷酸替代时所必需的假设, 因此, 当序列分歧度较低时,无需模型的MP法即可获得比其他方法更可靠的系统树。

最大似然法( ML, Maximum Likelihood),以一个特定的替代模型分析既定的一组序列数据, 得到一定的拓扑结构, 然后通过比较不同拓扑结构的似然函数值, 将具有最大似然值的拓扑结构看作最佳的系统树。与距离矩阵法不同, ML与距离矩阵法不同, ML法试图充分有效地利用所有资料而不是将资料减缩为距离的集合。它与简约法的不同之处在于其进化概率模型采用了标准的统计方法。

构建系统发育树的步骤一般是:先进行序列比对;再利用比对的结构用合适的算法求出遗传距离;最后再根据遗传距离构建发育树。

5:生物信息学系统发育分析展望

随着测序技术的发展,基因数据库里的序列数据越来越多。生物信息学可以利用的资源就是这些序列,说到底,生物信息学就是一门预测性学科,根据已知的东西验证预测未知的东西。对于系统发育树的展望,可以是根据已知序列的比对,找出各种物种之间特别是人类与其他物种之间的联系,以某种生物为研究对象来研究人类的各种生理生化的机理,让人们生活的更好。例如在药物设计中,可以通过系统发育分析找出其他物种与人相近的同源序列,再以该物种为研究对象,研究药物时与靶点相作用的机理。从而避免了在人身上的直接实验,提高了安全性。

结语

在这里还想谈论有关生物信息学的发展问题。生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。这一点必须着重指出。预测生物信息学的未来主要就是要预测他对生物学的发展将带来什么样的根本性的突破。这种预测是十分困难的,甚至几乎不可能。但是人类科学研究史表明,科学数据的大量积累将导致重大的科学规律的发现。例如:对数百颗天体运行数据的分析导致了开普勒三大定律和万有引力定律的发现;数十种元素和上万种化合物数据的积累导致了元素周期表的发现;氢原子光谱学数据的积累促成了量子理论的提出,为量子力学的建立奠定了基础。历史的经验值得注意,有理由认为,今日生物学数据的巨大积累也将导致重大生物学规律的发现。

参考文献

[1]

吴家睿.最小基因组与生命起源.科学,2004,5:18-19.

[2]

鲁辛辛,刘向礻韦,李大为.

微生物基因分类鉴定的方法学进展.中国实验诊断学 2003年6月第7卷第3期

[3]

张晓君,姚檀栋,马晓军.微生物系统发育与进化关系研究方法及其应用.微生物学通报.2001年28(4)

[4]

朱 泓, 张全超. 中国边疆地区古代居民D N A 研究.吉林大学社会科学学报, 2003 ,29(3):86—9 2.

[5]

洪义国,孙谧,张云波,李勃生.16S rRNA在海洋微生物系统分子分类鉴定及分子检测中的应用.

海洋水产研究. 2002年3月23卷第1期

[6]

陈文新,细菌系统发育.微生物学报.l998 38(3):24c

[7]

杨胜利.系统生物学新进展.中国科学院院刊.2004,1:31.

[8]

林 魁. 浅谈微生物基因组的进化研究. 生物学通报.

2008年第43卷第5期

[9]

钱存柔.从微生物角度看生物进化.北京大学生物系

[10]

郑伟国,郭 英.生物信息学的现状与未来.中国民用航空学院理学院

[11]

陈润生.生物信息学.生物物理学报,1999,15(1):5-13

[12]

MarchiE,钟南.基因组学在基因组计划中的作用.生命的化学,1999,(1):9-10

[13]

孙啸,陆祖宏,谢建明.生物信息学基础.清华大学出版社.2005.5

[14]

施季森何祯祥 21世纪的生物信息学评述南京林业大学学报;2001,(3):1-5

[15]

张春霆.生物信息学的现状与展望.院士论坛22卷6期:17-20

[16]

蒋功成. 当代进化生物学研究的三种进路及其传统. 医学与哲学. 2006

年第4期

转载请注明出处及作者

你可能感兴趣的:(计算机算法在生物信息学中的应用)