蛋白质对生命来说不可或缺,它们支持生物体的几乎所有功能。这些复杂的大分子由氨基酸链构成,而蛋白质的功能很大程度上决定于它的3D结构。显然,了解蛋白质的结构和形状对医药研究的进步至关重要。生物医学领域的众多挑战,包括开发治疗疾病的创新疗法,都依赖于对蛋白质结构和功能的理解。
但是,由于蛋白质结构极其复杂,到现在为止,医学上也只研究出少数蛋白质的构造。但是,这一情况随着用人工智能确定蛋白质的结构方向取得了突破性进展。现在,随着AlphaFold2的开源,人工智能正被用来预测人体产生的几乎每一种蛋白质的结构。
蛋白质结构成为终极难题
人类生命得以运转离不开生物学里的“中心法则”。
一方面,上一代生物会把自身携带的遗传物质,也就是DNA分子,照原样复制一份,传递到后代体内,一代代传递下去。另一方面,在每一代生物的生命过程中,这套遗传信息又可以从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程,执行各种各样的生物学功能。
其中,不论是从遗传信息到DNA,还是从遗传信息到蛋白质,都离不开4种不同碱基的排列组合。
对于遗传信息到蛋白质来说,这4种不同碱基的排列组合,翻译出64种密码子。这60多个密码子又对应着整个地球生命系统中仅有的20多种氨基酸,而20多种氨基酸的排列组合,则构成了数万至数亿种不同的蛋白质。
所有生物都是由蛋白质构成的,蛋白质是一切生命系统的物质基础,密切参与着从触发免疫反应到大脑思考的每一个生理过程。蛋白质的结构,又决定了蛋白质的功能。其中,蛋白质的结构,除了包括不同氨基酸的排列组合,更重要的则是氨基酸链的3D结构。
氨基酸链扭转、弯曲构成不同的蛋白质,因此,具有数百个氨基酸的蛋白质可能呈现出数量惊人的不同结构,比如,10的300次方个。
值得一提的是,蛋白质只有正确折叠为特定的3D构型,才能发挥相应的生物学功能。而蛋白质四级结构结构的折叠,受到大量非共价相互作用的影响,想要从分子水平上了解蛋白质的作用机制,就需要精确测出蛋白质的3D结构。
在这样的认知下,半个多世纪以来,医学研究人员们开发了各样的技术来预测蛋白质的结构。1959年,佩鲁茨和肯德鲁对血红蛋白和肌血蛋白进行结构分析,解决了三维空间结构,并因此获得1962年诺贝尔化学奖。这也是人类历史上第一次彻底看清蛋白质分子机器的细节。
之后,豪普特曼和卡尔勒建立了应用X射线分析的以直接法测定晶体结构的纯数学理论,在晶体研究中具有划时代的意义,特别在研究大分子生物物质如激素、抗生素、蛋白质及新型药物分子结构方面起了重要作用,因此而获得1985年诺贝尔化学奖。
2017年,诺贝尔化学奖有授予发明了冷冻电镜技术的三位科学家,以奖励其对探明生物分子高分辨率结构的贡献。然而,对于想要更深层次理解生命现象过程以及更复杂的药物研发而言,仅靠这种“观察”的手段来研究蛋白质的结构,却难以满足需求。
对于一种复杂蛋白质结构的测定,往往需要耗费大量的时间和成本,甚至还不一定准确。历史上,动辄有科学家耗费几年、几十年时间才能得到一个清晰的蛋白质三维结构。比如,因为基因测序技术的高速进步,人类掌握的基因序列已经有1.8亿条,但其中三维结构信息被彻底看清的只有17万个,还不到0.1%。
这也成了一直以来在生物学领域蛋白质三维结构难以突破的瓶颈所在。
从AlphaFold到AlphaFold2
好在人类社会总是在前进的,解决蛋白质折叠问题,明晰蛋白质分子的三维结构,作为生物学里悬而未决的几大终极难题之一,终于随着人工智能的发展,特别是深度学习方法的应用而曙光初现。
1994年发起,美国科学家约翰·莫尔特(JohnMoult)发起全球蛋白质结构预测竞赛(CASP),每两年举办一届,竞赛的举办正是为了吸引计算机科学、生物物理学等不同领域的专家参与到蛋白质三维结构预测这一极具挑战性的生物信息学问题中来。
2018年,人工智能也正式参与到了蛋白质三维结构的预测中。由DeepMind开发的AI程序“AlphaFold”首次大显身手,在98名参赛队伍中排名第一,其预测的43种蛋白质中有25种蛋白质的结构最准确,而排名第二的团队中只有3种。事实上,为了开发AlphaFold,DeepMind用数千种已知蛋白质训练神经网络,直到它可以独立预测氨基酸的3D结构。
对于新蛋白质,AlphaFold使用神经网络预测氨基酸对之间的距离以及连接它们的化学键之间的角度。接着,AlphaFold调整结构以找到最节能的氨基酸布置。该程序花了两周时间预测它的第一个蛋白质结构,但现在只需几个小时就能将其预测出来。
需要指出的是,AlphaFold虽然拿了第一,但是比第二名的优势并不明显,也没有表现出比传统思路以及什么革命性的差异。并且,AlphaFold并不能算是人工智能完全体,它还借鉴了不少学术研究的成果,特别是DavidBaker教授的Rosetta程序和芝加哥大学徐锦波教授的RaptorX-Contact程序。
用人工智能来预测蛋白质结构的真正突破,还在于AlphaFold2的问世。和两年前的上一个版本相比,AlphaFold2的主要变化是直接训练蛋白质结构的原子坐标,而不是用以往常用的、简化了的原子间距或者接触图。这也使得AlphaFold2在解析蛋白结构的速度上有了进一步的提高。
传统上,蛋白质结构预测可以分成基于模板和从头预测,但是AlphaFold2只用同一种方法——机器学习,对几乎所有的蛋白质都预测出了正确的拓扑学的结构,其中有大约2/3的蛋白质预测精度达到了结构生物学实验的测量精度。
当然,和所有科技进步一样,AlphaFold2也不是十全十美的,比如它的表现并不是非常稳定。AlphaFold2这次只有2/3的蛋白预测做到实验精度,还有1/3并未做到。并且,AlphaFold2对于超级巨型的蛋白质复合体,对于蛋白质和DNA/RNA/小分子结合形成的复合物,预测能力也还有待检验。
生物认知还将飞跃
AlphaFold2的研究进展自然不会止步于此。今年7月15日,《自然》杂志一篇论文被接收的消息再次引发了人们的关注。谷歌旗下人工智能公司DeepMind宣布,研究人员首次发现了一种通过计算来预测蛋白质结构的方法。
在文章中,DeepMind表示AlphaFold可以周期性的以原子精度预测蛋白质结构。在技术上,AlphaFold利用多序列对齐,进行深度学习算法的设计,还结合了关于蛋白质结构的物理和生物学知识提升效果。
具体来看,AlphaFold网络由两个主要部分组成。首先,网络的主干通过一个称为Evoformer的新神经网络块的重复层来处理输入,产生一个Nseq×Nres阵列(Nseq:序列数,Nres:残差数),它表示一个处理过的MSA和一个表示剩余对的Nres×Nres阵列。
Evoformer块包含许多新颖的基于注意力和非基于注意力的成分,它的关键创新是与MSA交换信息的新机制,并能直接推理空间和进化关系的配对表征。
网络的主干之后是结构模块(StructureModule),该模块以蛋白质的每个残基的旋转和平移的形式引入了显式的3-D结构。这些表征在微不足道的状态下初始化,所有旋转设置为同一性(identity),所有位置设置为原点,但能够快速开发和完善具有精确原子细节的高度准确的蛋白质结构。
这部分网络的关键创新包括打破链原子结构,允许同时局部细化结构的所有部分,一个新的“equivarianttransformer”允许网络隐式地推理未表示的侧链原子,以及损失项可对残基方向的正确性赋予重要权重。
通过此方法,即使在不知道相似结构的情况下,人工智能也可以在原子层面上精确预测蛋白质结构。这也意味着,AlphaFold2终于开源了。
值得一提的是,与AlphaFold2同进步的并于同日在Science上发表的,还有华盛顿大学医学院蛋白质设计研究所的研究者们,他们联合多个实验室等机构研发出基于深度学习的蛋白质预测新工具RoseTTAFold,其在预测蛋白质结构上取得了媲美AlphaFold2的超高准确率,而且速度更快、所需要的计算机处理能力也较低。
可想而知,随着人工智能预测蛋白质结构的成熟,人类关于蛋白质分子的理解还将经历一次革命性的升级。这些海量的结构信息,能让人们把对生命现象的理解再次往前大大推进一步。
也许有一天,人们只需要测定一个物种的基因组DNA序列信息,就能相应地预测这个物种生产的全部蛋白质分子机器的三维结构,然后再猜测出这些分子机器到底是执行什么生物学功能的。
而那个时候,人们不光能根据DNA信息凭空想象出一种生物的样貌和生物学特征。甚至,未来人类还能反过来根据想要的生物学特性,设计出需要的蛋白质分子,再到一个物种的遗传物质,真正做到从无到有的人造生命。