NEWS|AI增强的蛋白质设计制造从未存在过的蛋白质

NEWS|AI增强的蛋白质设计制造从未存在过的蛋白质_第1张图片

​NEWS来源:AI-enhanced protein design makes proteins that have never existed,nature biotechnology Volume 41 | March 2023 | 303–309 | 303

蛋白质工程师正在利用快速发展的机器学习工具、深层数据库和 AlphaFold2 的结构预测火力来追求更复杂的从头蛋白质设计。

1月9日,Profluent退出隐形模式,获得了50万美元的种子资金,以支持该公司应用机器学习(ML)来设计新型功能蛋白的努力。这只是该领域一系列持续投资中的最新一项。去年 1 月,Generate Biomedicines与安进签署了一项价值 9 万美元的药物开发协议,该协议可能使该公司的总净收入超过 33 亿美元,几个月后,Arzeda 获得了 5 万美元的 B 轮融资,以支持其正在进行的蛋白质设计计划。其他初创公司也开始涌入该领域,例如计算公司Cradle,该公司于5月以25万美元的种子投资退出隐形,以及Monod Bio公司在8月获得了2500万美元的种子投资。

NEWS|AI增强的蛋白质设计制造从未存在过的蛋白质_第2张图片

基于人工智能的算法可以指导具有多种不同对称性的蛋白质的设计,从简单的球形形式到复杂的二十面体设计。

ML和其他基于人工智能(AI)的计算工具已经证明了它们在预测真实世界蛋白质结构方面的实力。AlphaFold 2 是由 DeepMind 的科学家开发的一种算法,可以纯粹根据氨基酸序列自信地预测蛋白质结构,自 2021 年 2 月推出以来,它已成为家喻户晓的名字。今天,AlphaFold 200被许多结构生物学家常规使用,预测了超过2亿个结构。

这个ML工具箱也可以生成定制的蛋白质,包括那些具有自然界中不存在的功能的蛋白质。这是一个吸引人的前景,因为尽管天然蛋白质具有广泛的分子多样性,但仍有许多生物医学和工业问题从未被进化强迫解决。科学家们现在正迅速走向一个未来,在这个未来中,他们可以应用仔细的计算分析来推断控制现实世界蛋白质结构和功能的基本原则,并将它们应用于构建具有用户设计功能的定制蛋白质。Cyrus Biotechnology的首席执行官兼联合创始人Lucas Nivon认为,这种在计算机设计的蛋白质中的最终影响将是巨大的,并将该领域与1980年代刚刚起步的生物技术行业进行了比较。“我认为在30内,30%、40%或50%的药物将是计算设计的蛋白质,”他说。

迄今为止,在蛋白质设计领域运营的公司主要专注于重组现有蛋白质以执行新任务或增强特定特性,而不是从头开始真正的设计。例如,Generate Biomedicines的科学家利用有关SARS-CoV-2刺突蛋白及其与受体蛋白ACE2相互作用的现有知识,设计了一种合成蛋白,可以始终如一地阻止病毒进入各种变体。“在我们的内部测试中,这种分子对我们迄今为止看到的所有变体都具有很强的抵抗力,”联合创始人兼首席技术官Gevorg Grigoryan说,并补充说,Generate 的目标是提交研究性新药文件,为今年第二季度的临床试验扫清道路。更雄心勃勃的项目即将到来,尽管向从头设计的飞跃(其中新蛋白质完全从头开始构建)将在多长时间内到来还有待观察。

人工智能辅助蛋白质设计领域正在蓬勃发展,但该领域的根源可以追溯到二十多年前,由David Baker等学术研究人员及其同事在现在的华盛顿大学蛋白质设计研究所工作。从1990年代后期开始,贝克(Baker)在该领域共同创立了包括Cyrus,Monod和Arzeda在内的公司,他监督了Rosetta的开发,Rosetta是用于预测和操纵蛋白质结构的基础软件套件。从那时起,Baker和其他研究人员开发了许多其他强大的蛋白质设计工具,这些工具由ML算法的快速发展提供动力,特别是通过称为深度学习的ML技术子集的进展。例如,去年九月,Baker的团队发布了他们的深度学习ProteinMPNN平台,该平台允许他们输入他们想要的结构,并让算法吐出可能产生该从头骨架结构的氨基酸序列,实现>50%的成功率。

深度学习世界中一些最令人兴奋的事情与生成模型有关,这些模型可以创造全新的蛋白质,这在自然界中从未见过。这些建模工具属于同一类算法,用于在Stable Diffusion或DALL-E 2等程序中生成令人毛骨悚然且引人注目的AI生成艺术品,并在ChatGPT等程序中生成文本。在这些情况下,软件会根据大量带注释的图像数据进行训练,然后使用这些见解来生成新图片以响应用户查询。蛋白质序列和结构也可以实现同样的壮举,其中算法利用丰富的真实世界生物信息存储库,根据自然界中观察到的模式和原理来构想新的蛋白质。然而,要做到这一点,研究人员还需要为计算机提供关于生化和物理限制的指导,这些限制为蛋白质设计提供了信息,否则最终的输出将只提供艺术价值。

理解蛋白质序列和结构的一种有效策略是将它们作为“文本”处理,使用遵循生物“语法”和“句法”规则的语言建模算法。“为了生成一个流畅的句子或文档,算法需要了解不同类型的单词之间的关系,但它也需要学习有关世界的事实,以制作一个有凝聚力和有意义的文档,”前Salesforce Research的计算机科学家Ali Madani说,他最近创立了Profluent。在最近的一篇出版物中,Madani及其同事描述了一种语言建模算法,该算法可以产生新的计算机设计的蛋白质,这些蛋白质可以在实验室中成功生产,其催化活性可与天然酶相媲美。语言建模也是Arzeda工具箱的关键部分,据联合创始人兼首席执行官Alexandre Zanghellini说。在一个项目中,该公司使用多轮算法设计和优化来设计一种具有更高降解稳定性的酶。“在三轮迭代中,我们能够从四周后蛋白质完全消失到有效保留95%的活性,”他说。

Generate 研究人员最近的预印本描述了一种名为 Chroma 的基于生成建模的新设计算法,该算法包括几个提高其性能和成功率的功能。其中包括扩散模型,这是许多图像生成AI工具中使用的一种方法,可以更轻松地操作复杂的多维数据。Chroma还采用算法技术来评估蛋白质氨基酸骨架上相距很远的残基之间的长程相互作用,但这对于适当的折叠和功能可能是必不可少的。在一系列初步演示中,Generate 团队表明,他们可以获得被预测折叠成一系列自然发生和任意选择的结构和子域的序列——包括字母表字母的形状——尽管有多少会在实验室中形成这些折叠还有待观察。

除了新算法的强大功能外,生物学家捕获的大量结构数据也使蛋白质设计领域得以腾飞。蛋白质数据库是蛋白质设计师的重要资源,现在包含超过200,000个实验求解的结构。AlphaFold 2算法在为设计算法提供培训材料和指导方面也被证明是游戏规则的改变者。“它们是模型,所以你必须对它们持保留态度,但现在你有了大量的预测结构,你可以在此基础上进行构建,”Zanghellini说,他说这个工具是Arzeda计算设计工作流程的核心组成部分。

对于 AI 引导设计,训练数据越多越好。但现有的基因和蛋白质数据库受到物种范围有限的限制,以及对人类和常用模式生物的严重偏见。Basecamp Research正在建立一个超多样化的生物信息存储库,这些信息是从17个国家的生物群落中收集的样本中获得的,从南极到热带雨林再到海底的热液喷口。首席技术官Philipp Lorenz说,一旦这些标本的基因组数据被分析和注释,他们就可以组装一个知识图谱,可以揭示不同蛋白质和途径之间的功能关系,而这些关系在基于序列的分析的基础上并不明显。“这不仅仅是产生一种新的蛋白质,”Lorenz说。“我们在原核生物中发现了被认为只存在于真核生物中的蛋白质家族。这意味着人工智能引导的蛋白质设计工作有更多的起点,Lorenz说,他的团队自己的设计实验在生产功能性蛋白质方面取得了80%的成功率。

但蛋白质不能在真空中发挥作用。Hummingbird Ventures的投资者Tess van Stekelenburg指出,该公司资助的公司之一Basecamp捕获了其识别蛋白质的各种环境和生化背景。伴随每个蛋白质序列产生的“元数据”可以帮助指导在特定条件下表达和最佳功能的蛋白质的工程。“它让你有更多的能力来约束pH,温度或压力等因素,如果这是你打算看的,”她说。

一些公司也在寻求用自己的数据来增加公共结构生物学资源。Generate 正在构建一个多仪器冷冻电子显微镜设施,这将使他们能够以相对较高的通量生成近原子分辨率结构。与来自公开资源的数据相比,这种内部生成的结构数据更有可能包含有关单个蛋白质的相关元数据。

内部湿实验室设施是设计过程的另一个关键组成部分,因为实验结果反过来用于重新训练算法,以便在未来的轮次中获得更好的结果。格里戈里安指出,尽管Generate 喜欢关注其算法工具箱,但其大部分员工都是实验主义者。洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne)的计算生物学家布鲁诺·科雷亚(Bruno Correia)表示,蛋白质设计工作的成功取决于算法专家和经验丰富的湿实验室从业者之间的密切协商。“这种关于蛋白质分子如何以及它们如何表现的概念在实验上建立了很多限制,”Correia说。“我认为将生物实体仅仅作为一条数据来处理是错误的。

对于该行业的投资者来说,生物验证是一个极其重要的考虑因素,van Stekelenburg说。“如果你正在做从头,真正的黄金标准不是你使用哪种架构 - 而是你设计的蛋白质中有多少百分比具有最终期望的特性,”她说。“如果你不能证明这一点,那就没有意义了。因此,大多数追求计算设计的公司仍然专注于调整蛋白质功能,而不是彻底改变它,从而缩短了预测和性能之间的飞跃。

Nivo说,Cyrus通常使用在特定参数上不足的现有药物和蛋白质。“这可能是一种需要更好疗效,更低免疫原性或更好毒性的药物,”他说。对于Cradle来说,主要目标是通过优化稳定性等特性来改善蛋白质疗法。“我们已经根据实证研究对我们的模型进行了基准测试,以便人们可以了解这在实验环境中的效果如何,”创始人兼首席执行官Stef van Grieken说。

Arzeda的重点是工业应用的酶工程。他们已经成功地创造了具有新型催化功能的蛋白质,用于农业、材料和食品科学。这些项目通常从一个相对完善的核心反应开始,这种反应在本质上是催化的。但是为了使这些反应适应不同的底物,“你需要显着重塑活性位点,”Zanghellini说。该公司的一些项目包括一种可以分解广泛使用的除草剂的植物酶,以及可以将相对低价值的植物副产品转化为有用的天然甜味剂的酶。

Generate的第一代工程项目专注于优化。在一项已发表的研究中,公司科学家表明,他们可以“重新表面”来自大肠杆菌的氨基酸代谢酶L-天冬酰胺酶,改变其外部的氨基酸组成,大大降低其免疫原性。但是有了新的Chroma算法,Grigoryan说Generate 已经准备好开始更雄心勃勃的项目,在该项目中,算法可以开始构建具有用户指定的结构和功能特性的真正从头设计。当然,Chroma的设计方案必须通过实验测试来验证,尽管格里戈里安说“我们对所看到的感到非常鼓舞。

Zanghellini认为该领域已接近拐点。“我们开始看到真正创造一个复杂的活性位点,然后围绕它构建蛋白质的可能性,”他说。但他补充说,还有更多的挑战在等着你。例如,具有优异催化性能的蛋白质可能非常难以大规模生产或作为药物表现出较差的特性。然而,在未来,下一代算法应该能够生成经过优化的从头蛋白质,以勾选科学家愿望清单上的许多框,而不仅仅是一个。

-------------------------------------------

欢迎点赞收藏转发!

下次见!

你可能感兴趣的:(NEWS,人工智能,大数据)