中国学者张阳最近在第七届蛋白质结构预测技术评估大赛中获得第一名的好成绩。消息传来,他做博士后时的导师欧阳钟灿院士给予高度评价。据欧阳钟灿介绍,由生物大分子的基因序列预测其结构,是当前生物学研究面临的最重要挑战之一,如果能够实现,将在生物技术与药物设计领域产生巨大影响。
2006年11月26~30日,第七届CASP总结大会在美国加州阿萨尔默会议中心举行,在大会公布的测评排列名单上,美国堪萨斯大学的助理教授张阳位居第一。
对此,中国科学院院士欧阳钟灿评价说:“CASP被誉为蛋白质结构预测领域的奥林匹克竞赛,张阳获得第一名,表明他已经走在这个领域的最前沿,这个成就令人兴奋。”
蛋白质结构预测技术评估(CASP)大赛是一个世界性的蛋白质结构预测技术评比活动。1994年,第一届CASP在美国马里兰大学生物技术研究所的约翰·莫尔特(John Moult)倡议、组织下举行,此后每两年举行一次。
张阳在华中师范大学师从刘连寿教授并获得物理学博士学位,1999~2000年在中国科学院理论物理所跟随欧阳钟灿院士做博士后,2001年初到美国。张阳说:“比赛获胜说明我们的预测方法的确行之有效,我很高兴看到这一点。在当今蛋白质结构预测这个竞争激烈的领域,赢得CASP比赛胜利是得到同行尊重和承认的最重要和几乎唯一的途径。”
近日,张阳到北京参加会议并到中科院理论物理所访问,在此期间,他接受了《科学时报》的专访。
结构密码蕴藏在排序中
这是一个复杂但很有意思的生命过程——基因承载了生命的遗传信息,生命的功能则是藉由蛋白质执行的;蛋白质是由20种氨基酸组成的肽链,而DNA中的基因控制了蛋白质中氨基酸种类的排序。蛋白质只有在折叠的状态下才能表现出生命的功能,但折叠是如何自发形成的呢?
氨基酸序列与蛋白质空间结构的关系研究源于美国生物化学家安芬森(C.Anfinsen)。1961年,他研究了核糖核酸酶的去折叠和重折叠过程,发现在相同的环境中去折叠的蛋白质都会恢复到原来的空间结构,认为蛋白质链会以自由能最低的方式形成三维结构,由此推测蛋白质的折叠密码隐藏在氨基酸排序中,即所谓的安芬森原则:蛋白质一级排序决定三维结构。因为“对控制蛋白质链折叠原理的研究”,安芬森获得1972年诺贝尔化学奖。
然而,蛋白质的空间结构极其复杂,该如何确定呢?现在有两种方法:一种是实验测量,包括用X射线衍射和核磁共振成像;一种是理论预测,利用计算机根据理论和已知的氨基酸序列等信息来预测,方法包括同源结构模拟、折叠辨识模拟和基于第一性原理的从头计算。
1913年,劳尔和布拉格父子第一次发现X射线通过晶体可以产生衍射现象从而确定原子在晶体中的位置并因此获得诺贝尔奖。1957年,剑桥大学的肯德鲁用劳尔-布拉格的方法确定出第一个蛋白质(肌红蛋白)的三维结构从而获得1962年的诺贝尔化学奖。此后18年间,人类共测出38个蛋白质结构;至1980年,这个数目增长到184个。
显然,用实验方法测量蛋白质及生物大分子的结构相当繁琐。张阳说:“蛋白质结构的实验测定十分费时费力。多年前测定一个蛋白质的结构就有可能获得诺贝尔奖。如今随着技术的进步,实验测蛋白质结构的时间和花费已经大大地减少了,但测定一个蛋白质结构的平均费用也在100万美元左右。”
自然界有大量种类的蛋白质,实验只能测出其中非常小的一部分,目前“蛋白质数据库”中只有3万多个蛋白质的结构。有没有其他方法可以更快、更经济地测量出大量蛋白质呢?
物含妙理总堪寻
既然蛋白质结构的密码隐藏在序列中,那么解开这个密码就可以通过序列来解开蛋白质的结构。张阳说:“我们的目的就是用计算机从氨基酸的序列来直接预测蛋白质的结构。将序列输进计算机里,设计一套程序,让计算机去计算和确定蛋白质中每个原子的三维坐标。如果这种理论方法经实验数据的验证可行,那么就可能通过计算机自动预测出蛋白质的结构,这几乎是免费的。”
然而,用序列预测结构谈何容易。驱动氨基酸折叠形成特定三维空间的作用诸多,包括氨基酸侧链分子间作用力、水分子表面张力、氨基酸侧链分子间的电偶极距和电磁力以及它与水分子的相互作用等。根据数学计算,由100个氨基酸构成的小蛋白质的空间构象可能会有1050种空间结构。
物含妙理总堪寻。张阳说,一种氨基酸序列只可能有一种蛋白质结构,这就是计算机预测蛋白质结构的意义所在。根据安芬森的热动力学原理,蛋白质在细胞中应该处在它与环境的自由能最低态。这意味着可以根据物理、化学、生物学等知识来设计蛋白质的能量函数,因此寻找这种最低自由能所代表的结构。
科学家们使出十八般武艺来预测序列与结构间的密码,寻找出三种有代表性的预测方法:同源结构模拟(Homology Modeling)、折叠辨识模拟(Fold Recognition)和基于“第一原则”的从头计算方法(Ab Initio)。
张阳说,同源模拟又称为比较性模拟。如果目标蛋白质与已测出结构的蛋白质的序列有30%以上的相似,那么这两种蛋白质可被视为同源,它们也应该有类似的空间结构。因此,若知道同源蛋白质家族中的某些蛋白质的结构,就可利用它们作为模板来模拟目标蛋白质的结构,这种方法速度较快,精度也比较高。但是这种方法有局限性,毕竟已知结构的蛋白质数量很少,而且很多蛋白质没有同源系列。
折叠辨识模拟又称串线指认方法,意思是指把目标蛋白序列与蛋白质数据库中所有的蛋白质结构进行逐一对比。自然界中有些蛋白质的氨基酸序列不大相同,但其结构极为相似。张阳说:“这对我们建立新计算机模型非常有用。在无法进行序列比对的情况下,我们就想办法用目标序列直接与已有的其他蛋白质结构进行比较。具体做法是,设计一个打分系统,让计算机来识别这个序列放在被比较的其他蛋白质上是否‘舒服’,再根据得分高低判断序列是否会折叠成这种结构,评分系统是这种方法的关键。”
“从头计算”方法源于安芬森的“最低自由能构型假说”。张阳说,前两种方法是用已知结构的蛋白质为模板来构建新的结构,而“从头计算”不需要模板,它是以物理为基础来研究蛋白质的折叠方法,怎样设计适当的能量函数,怎样找到相应的最低自由能是这种方法的关键。
蛋白质预测的梦幻项目
欧阳钟灿说,随着人类和其他动物基因组测序工作的完成,生物学研究面临的最重要的挑战之一,就是如何由这些生物大分子的基因序列预测它们的结构。如果能够做到这一点,将在生物技术与药物设计领域产生巨大的影响。
DNA测序技术的突飞猛进让科学家们可以由此推导出大量的蛋白质序列,各类学者也在你追我赶地预测蛋白质结构,许多人声称自己的理论模式与实验测量结果最吻合,有没有一种更公正的评价方式呢?
约翰·莫尔特倡议举行的CASP大赛,是一种大规模的实验,旨在对当时的蛋白质结构预测技术水平有一个深入客观的了解,掌握当前的方法能够做什么,存在的困难以及将来的发展方向。
测评工作分三步:从实验研究协会收集并确定预测目标蛋白,请X射线晶体检测学家和核磁共振光谱学家在限定时间内测出结构;公布目标蛋白质序列,要求结构模型研究协会在限定时间内提交预测结果;再组织独立的讨论和测评。
从1994年的33个目标蛋白质、35个参加小组,到2006年100个目标蛋白质、207个参加小组与98个服务器,CASP进行到了第7届,成为代表着蛋白质结构预测领域的世界前沿水平竞争。最近在纽约科学院的一次演讲中,莫尔特将CASP形容为梦幻项目,他说,蛋白质结构一定蕴含奥妙,等待我们去寻找,创建CASP的初衷就是跨越科学和人类的障碍,确定最先进的技术,解开最重要的瓶颈问题。
博采众家之长,脱颖而出
张阳从2002年开始与人合作参加CASP,但在2006年,他独立参加比赛。他感谢过去的经历给自己的帮助。
1999年,在德国做完洪堡学者后,张阳跟随中国科学院理论物理研究所郝柏林院士和郑伟谋教授做理论物理研究。在此期间,他偶然读到欧阳钟灿一篇细胞膜的文章,觉得特别有意思。他说:“我原来的研究领域是高能物理,研究对象是电子质子夸克等看不见摸不着的基本粒子。观测这些粒子需要高能碰撞,然后对末态进行间接研究;欧阳老师的文章让我觉得生物和我原来的研究领域完全不同。研究对象可以是看得见、摸得着的东西。”于是,他就转到欧阳钟灿的研究小组,与博士生周海军共同研究DNA分子的弹性和伸长间的关系。
2001年初,张阳到美国布法罗大学师从Jeffrey Skolnick教授。“Skolnick教授是世界上最权威的结构生物信息学家之一。我很有幸能在Skolnick实验室工作。从他那里我得到了关于蛋白质结构方面系统的学习和训练。实际上在到美国之前,我甚至连蛋白质长什么样都不知道。”张阳说。
2002年,张阳和Skolnick合作参加CASP5,他们应用切割模板结构的方法设计了一种名为Tasser的软件。在这种方法中他们综合应用同源模拟、折叠模拟和“从头计算”三种方法的优点,将类似的结构片段剪切出来,然后再按最低自由能法让计算机将片断组合起来。他说:“设计Tasser的关键是找出自由能最低的态。”
2005年底,张阳成为堪萨斯大学的助理教授,建立了自己的实验室。他独立开始做的第一件事就是参加2006年5月开始的CASP。这一次,他根据经验重新制作了新的软件——I-TASSER。张阳介绍说,这个软件对已经组合的蛋白质片断进行再切割和组合,使预测的精度大大提高。当第10个目标蛋白质的预测结构与实验结构公布后,他的服务器就在自动组位居第一,而且一直遥遥领先。
为什么会有这样好的结果呢?张阳说:“主要是我们的算法设计得好。一是要正确定义能量函数,二是设计一种精确的计算机搜寻引擎来寻找能量最低值。因为这个能量函数有无穷多个局域网的极小值,怎样快速找到这个总体最小值是关键的一步。”
还有很长的路要走
欧阳钟灿说:“近40年来,科学家们一直在探讨蛋白质序列与结构间关系,一直没有确切的结论,但结果一次比一次好,张阳的胜利说明理论物理学家做这种事情很有长处。”
黎明在中科院理论物理所获得博士学位,现在是中国科学院研究生院老师,他说:“参加比赛的都是各路的神仙,张阳能够取得这样的成绩当然是很大的成就,这个第一远不只是一个新算法就能做到的。他把以前别人做过的‘棋局’全都做了统计归纳,做成这样的东西非常费事,对国内的科学家来说,很多人不愿意去做费事的东西,坐不下来,能做到这一步需要花费很多的努力。”
张阳说:“现有的从头计算方法只能预测氨基酸数量在100左右的蛋白质结构,解开序列与结构之谜还有很长的路要走。”CASP的网站上有这样一段话:“目前,虽然蛋白质结构预测问题还没有完全解决,但是至少有了希望。”莫尔特也曾讲过:“与同源模拟法相比,了解蛋白质结构的物理原理更为困难,但我们相信最终我们还是要回到物理学上。”
comefrom: 科学时报,版权属于此处