谷歌DeepMind团队近几年在生命科学领域不断创造新的奇迹。该团队创造这些奇迹的最主要利器就是人工智能和深度学习。这可能要从他们在围棋领域的开创性工作说起。
2016年1月,DeepMind团队在国际著名杂志《Nature》发表了基于人工智能的围棋新算法(AlphaGO)。同年3月,AlphaGO 以4:1的比分,完美击败韩国职业九段棋手李世石,从此掀开了围棋历史的新篇章,彻底改变围棋训练和竞赛的模式。
随后,DeepMind转战生物科学领域。2018年,DeepMind利用卷积神经网络技术,训练出第一代AlphaFold(俗称 AlphaFold1)。AlphaFold1于2018年5月参加第13届国际蛋白质结构预测(CASP)大赛,并且取得不俗战绩。此时的AlphaFold虽然超出了人们的预期,但是与其他顶级研究团队(包括密歇根大学张阳教授团队)相比,并没有明显的优势。在不同的评价指标和范畴下(比如基于模板的TBM蛋白组),其他团队甚至超过AlphaFold1的成绩。AlphaFold1论文于2020年1月在《Nature》上发表。
2020年,DeepMind发布第二代AlphaFold(也称AlphaFold2),并参加2020年的第14届CASP大赛。AlphaFold2引进新的Transformer网络,实现端到端的机器模型训练。在CASP14上,AlphaFold2在所有的结构模型范畴,甚至是在几乎所有的单个蛋白目标,都大大超过其他参赛团队。这也是DeepMind在生命科学领域,第一次惊艳所有科学家的眼睛,真正的显示了人工智能在解决复杂生命科学上的巨大威力。尽管如此,此时的AlphaFold仅限于蛋白质单链的结构预测,对更加复杂、也更加重要的生物大分子复合物的结构预测尚未涉足。AlphaFold2论文于2021年7月发表在《Nature》期刊上。
2021年10月,DeepMind团队将AlphaFold2进一步推广到AlphaFold-Multimer,对蛋白质-蛋白质复合物的结构进行预测。尽管突破了该领域的传统,但是AlphaFold-Multimer在复合物的精度只达到了23%(即可以对23%的复合物产生高精度预测结构,改进后版本达到36%),比它在单链蛋白质上所创造的2/3左右的高精度蛋白预测成功率仍然逊色不少。显示出,蛋白质复合物的结构在当时仍然是一个远没有被解决的问题。AlphaFold-Multimer于同期发布在bioRxiv预印本网站上。
2023 年 10 月 31 日,DeepMind研究团队分享了最新一代 AlphaFold 的最新进展(论文称之为AlphaFold-last。我们在此称其为AlphaFold3,因为AlphaFold将来可能会继续更新)。其最新的模型现在可以对蛋白质数据库 (PDB) 中的几乎所有分子类型进行预测,通常达到原子精度。新版模型极大地扩展了应用范围,能够预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的联合结构。这些不同的结构类型和复合物对于理解细胞内的生物机制至关重要。
AlphaFold3论文目前在Googleapis.com网站以博客形式发表。该论文并没有提供关于算法原理以及代码的任何细节。本文主要是来介绍一下AlphaFold3的模型预测精度的结果,让我们能够感知人工智能和生命科学最前沿的进展。
AlphaFold2 是单链蛋白预测的根本性突破。AlphaFold-Multimer 随后扩展到具有多个蛋白质链的复合物,随后是AlphaFold2.3,它提高了性能并将覆盖范围扩大到更大的复合物。
2022 年,AlphaFold 与 EMBL 的欧洲生物信息学研究所(EMBL-EBI)合作,通过 AlphaFold 蛋白质结构数据库免费提供了几乎所有科学界已知的已编目蛋白质的结构预测。
迄今为止,已有 190 多个国家的 140 万用户访问了 AlphaFold 数据库,世界各地的科学家已经使用 AlphaFold 的预测来帮助推进各种研究,从加速新的疟疾疫苗和推进癌症药物的发现,到开发用于解决污染的塑料食用酶。
在这里,研究人员展示了 AlphaFold-latest 在预测蛋白质折叠之外的精确结构方面的卓越能力,可以在配体、蛋白质、核酸和翻译后修饰之间产生高精度的结构预测。
图1:AlphaFold 最新功能和性能;蛋白质-配体复合物 (a)、蛋白质 (b)、核酸 (c) 和共价修饰 (d) 的性能。
AlphaFold3 将生物组装的描述作为输入,其中包含聚合物序列和配体 SMILES,以及可选的共价键合配体的序列位置,并输出每个重原子 3D 位置的预测。水和氢被排除在外。用于训练模型的所有实验结构均来自 PDB,发布日期截至 2021 年 9 月 30 日。模板仅过滤为 2021 年 9 月 30 日之前发布的模板。
输入被「标记化」以获得模型输入,每个标准聚合物残基有一个标记,配体和非标准聚合物残基的每个重原子有一个标记。Token 的数量是不同硬件上计算时间和预测大小限制的主要驱动因素。为了便于计算,该团队在最多 5,120 个 token 的复合体上评估系统性能,但系统能够在具有大量内存的加速器上运行更大的复合体。
每个输出结构都带有每个原子、每个 token 对和聚合结构级置信度度量。此外,结构内的每个实体以及结构内实体之间的每个接口都具有关联的置信度度量。
研究人员主要展示了四个类别的性能:
图 2: AlphaFold3在不同的分子类型中结构预测的例子显示。 预测的蛋白质链以蓝色显示(预测的抗体以绿色显示),预测的配体和聚糖以橙色显示,预测的 DNA 以粉色显示,预测的 RNA 以紫色显示,真实实验结构以灰色显示。
早期研究表明,AlphaFold3模型在一些与药物发现相关的蛋白质结构预测问题(如抗体结合)上大大优于AlphaFold2.3。此外,准确预测蛋白质配体结构是一种非常有价值的药物发现工具,因为它可以帮助科学家识别和设计可能成为药物的新分子。
目前的行业标准是使用「对接方法」(Docking)来确定配体和蛋白质之间的相互作用。这些对接方法需要一个严格的参考蛋白结构和配体结合的建议位置。
AlphaFold3通过优于报道的最佳对接方法,为蛋白质-配体结构预测设定了新的标准,而不需要参考蛋白质结构或配体口袋的位置-允许预测以前未被结构表征的全新蛋白质。
它还可以联合模拟所有原子的位置,使其能够代表蛋白质和核酸与其他分子相互作用时的全部固有灵活性-这是使用对接方法无法实现的。
例如,图3显示了AlphaFold3对最近发布的三个与治疗相关的蛋白质的结构预测结果。其中,AlphaFold3预测的结构(以彩色表示)与实验确定的结构(用灰色表示)非常吻合:
图3:案例研究展示了 AlphaFold-latest 在治疗相关结构上的性能;PORCN (a)、KRAS (d) 和 PI5P4Kγ (e)。
该论文的共同作者之一,Isomorphic Lab, 正在将新一代 AlphaFold 模型应用于治疗药物设计,帮助快速准确地表征许多类型的大分子结构,这些大分子结构对治疗疾病很重要。
通过解锁蛋白质和配体结构以及核酸和含有翻译后修饰的结构的建模,AlphaFold3 为检查基础生物学提供了更快速和准确的工具。
其中一个例子涉及到 CasLambda 与 crRNA 和 DNA 结合的结构,这是 CRISPR 家族的一部分。CasLambda 具有 CRISPR-Cas9 系统的基因组编辑能力,通常被称为「基因剪刀」,研究人员可以用它来改变动物、植物和微生物的DNA。CasLambda 更小的体积可以更有效地用于基因组编辑。
图4:与 crRNA 和 DNA(CRISPR 子系统的一部分)结合的 CasLambda (Cas12l) 的预测结构。
AlphaFold 的最新版本能够模拟如此复杂的系统,这表明人工智能可以帮助我们更好地理解这些类型的机制,并加速它们在治疗应用中的应用。
AlphaFold3 在结构预测精度和预测范围上的巨大飞跃表明,人工智能有潜力极大地增强对构成人体的分子机器的科学理解——以及更广阔的自然世界。
虽然该研究仍在积极开发中,但谷歌 DeepMind 和 Isomorphic Labs 的研究人员相信,一般生物分子的计算结构预测可以通过 AlphaFold 等机器学习模型来实现,并为理解生物学开辟了许多令人兴奋的未来研究途径。
正如DeepMind团队在博客中所说的那样,“谷歌新一代 AlphaFold 模型为科学领域带来了无限的潜力,将在更广泛的自然界中提供更深刻的科学认识。这一巨大的进步预示着 AI 在生命科学中的前景广阔,为未来的科学探索提供了强大的支持。”
参考文献
Google DeepMind AlphaFold Team and Isomorphic Labs Team. "Performance and structural coverage of the latest, in-development AlphaFold model". Oct 31, 2023.
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/a-glimpse-of-the-next-generation-of-alphafold/alphafold_latest_oct2023.pdf