Nature杂志近日发文说:“从今天起,预测几乎所有已知蛋白质的结构,都如同使用搜索引擎一样简单。”
7月28日,谷歌DeepMind公司与欧洲生物信息研究所(EMBL-EBI)的合作团队公布了生物学领域的一项重大飞跃。他们利用人工智能(AI)系统AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。这一突破将加速新药开发,并为基础科学带来全新革命。
▲AlphaFold 工具预测的卵黄原蛋白(蛋黄的前体)的结构
2020年年底,当人们对AlphaFold的印象还停留在那个打败全人类的围棋高手时,这个AI系统在结构生物学领域的亮相带来了新的惊喜。当时,AlphaFold成功破解了生物学持续50年的重大难题——蛋白质折叠问题,能够根据蛋白质的氨基酸序列预测蛋白质的三维结构。
仅仅半年后,DeepMind和EMBL-EBI合作,在一篇《自然》论文中发布了由AlphaFold预测的蛋白结构数据库。这个数据库涵盖了人类和20种常用模式生物的35万个蛋白质结构,并且对98.5%的人类蛋白质结构进行了准确预测——要知道在此之前,科学界解析的蛋白质结构只覆盖了人类蛋白序列17%的氨基酸。人工智能预测蛋白质结构领域的一系列突破,也被《科学》评选为2021年的年度科学突破。
现在,DeepMind与EMBL-EBI的合作团队更进一步。AlphaFold对蛋白质结构的预测不再局限于人类与模式生物,而是拓展至涵盖了动植物、细菌等的100万个物种,预测的蛋白质结构数量也提升了数百倍。
▲AlphaFold预测的蛋白质结构,涵盖了大量动植物及微生物物种
“这个数据库涵盖了整个蛋白质宇宙,我们迈入了数字生物学的全新时代。”DeepMind的CEO Demis Hassabis博士点评道。
早在1972年,诺贝尔化学奖得主Christian Anfinsen博士就在诺奖颁奖典礼上提出,蛋白质的氨基酸结构应该能完全决定其三维结构。但由于氨基酸可能形成的蛋白质构象是个天文数字,通过计算预测蛋白质结构难度极高。而利用传统的实验手段(例如X射线晶体学)解决该问题,时间消耗以及价格都十分惊人。
对于今日公布的全新数据,DeepMind与EMBL-EBI团队表示,在超过2亿个蛋白质结构预测中,大约35%的结构具有高精度,达到了实验手段获取的结构精度;80%的结构可靠性足以用于多项后续分析。
▲在此前发表的研究中,AlphaFold预测的部分蛋白质结构
不过,目前的AlphaFold仍有提升的空间。伦敦大学学院的Tomek Wlodarski 博士提出,如何开发模型来预测蛋白质如何折叠,而不仅是预测最终的结构,是研究团队接下来要解决的问题。
DeepMind的科学团队主管Pushmeet Kohli博士也指出,现阶段他们正在提升AlphaFold的准确性与性能:“我们试图理解这些蛋白质的行为、它们如何与其他蛋白质互作。”
一年前的《自然》论文发表时,研究团队就向科研人员免费公开了AlphaFold的源代码以及数据库。目前,已有来自190个国家和地区的50多万位学者访问数据库。这些数据已经在疟疾疫苗开发、对抗抗生素耐药性与塑料污染等场景中得到应用,并且帮助研发人员加速新药研发。
此次,团队再次免费公开了最新的数据库,所有2亿多个蛋白质结构都能通过数据库下载。这份前所未有的丰富数据,将帮助我们探索生命科学的无尽奥秘,并对生物学、医药领域产生持久影响。
数据库中几乎所有已知的蛋白质也将有助于开展新的研究。 英国伦敦大学学院的Orengo 的团队已经使用 AlphaFold 数据库来识别新型蛋白质家族,他们现在将在更大规模的范围内进行这项工作。她的实验室还将使用扩展的数据库来了解具有有用特性的蛋白质的进化,或者令人担忧的物质,例如那些可能导致癌症的物质。在数据库中识别这些蛋白质的远亲可以查明它们特性的基础。
首尔国立大学的计算生物学家 Martin Steinegger 帮助开发了基于云的 AlphaFold 版本,他很高兴看到数据库的扩展。但他表示,研究人员可能仍需要自己运行网络。人们越来越多地使用 AlphaFold 来确定蛋白质如何相互作用,而这样的预测不在数据库中。通过对来自土壤、海水和其他“宏基因组”来源的遗传物质进行测序,也没有鉴定出微生物蛋白质。
Steinegger 说,扩展的 AlphaFold 数据库的一些复杂应用程序可能还依赖于下载其全部 23 TB 的内容,这对许多团队来说是不可行的。基于云的存储也可能证明成本高昂。 Steinegger 与人共同开发了一个名为 FoldSeek 的软件工具,它可以快速找到结构相似的蛋白质,并且应该能够大大压缩 AlphaFold 数据。
即使包含了所有已知的蛋白质,AlphaFold 数据库也需要随着新生物的发现而更新。随着新的结构信息可用,AlphaFold 的预测也可以改进。 Hassabis 表示,DeepMind 已承诺长期支持该数据库,他可以看到每年都会发生更新。
他希望 AlphaFold 数据库的可用性将对生命科学产生持久的影响。 “这将需要对思维进行相当大的改变。”