2022-12-01

Nat Methods | AlphaFill:配体和辅助因子加强AlphaFold模型

原创 风不止步 图灵基因 2022-12-01 09:19 发表于江苏

收录于合集#前沿生物大数据分析


撰文:风不止步

IF=47.99

推荐度:⭐⭐⭐⭐⭐

亮点:

文章提出了AlphaFill,一种利用序列和结构的相似性将“缺失”的小分子和离子从实验确定的结构中“移植”到预测的蛋白质模型中的算法。该算法针对实验结构成功地进行了验证。

2022年11月24日,荷兰癌症研究所的Robbie P. Joosten博士等人在《 Nature Methods》上发表了一篇“AlphaFill: enriching AlphaFold models with ligands and cofactors”的文章,文章通过“移植”在同源蛋白质结构中观察到的小分子和离子来丰富AlphaFold数据库中的模型。提出的AlphaFill程序已经针对实验结构进行了验证,并应用于所有AlphaFold模型,以创建一个新的资源,即AlphaFill数据库,旨在帮助生命科学家轻松产生新的蛋白质功能假设,并制定相关的研究问题。

几十年来,仅根据蛋白质的氨基酸序列来预测其三维(3D)结构一直是一个重大的科学挑战。最近,人工智能方法,如AlphaFold和RoseTTAfold方法所实现的,已经使蛋白质结构预测变得可靠。这两种方法都能以令人印象深刻的准确度预测结构域,但蛋白质的灵活部分(如环路或内在无序区)的预测准确度和置信度较低。对48种不同生物体的蛋白质组的预测,以及所有SWISS-PROT的预测,在AlphaFold蛋白质结构数据库中已经公开。这些预测的模型已经提供了关于蛋白质功能的宝贵的新的生物学见解。

许多蛋白质在自然界中没有它们的辅助因子就不会出现:肌红蛋白或血红蛋白需要血红素才能折叠;锌指结构域没有锌离子就不稳定,许多蛋白质只能以同型或异型多聚体的形式存在。AlphaFoldMultimer和RoseTTAFold的开发解决了多聚体的问题,它们可以预测复杂的蛋白质组合。然而,预测的结构模型只考虑了20个典型的氨基酸残基,并没有预测通常与蛋白质相关的小分子、配体和辅助因子的坐标。

分析蛋白质与辅助因子、配体和离子的接触,有助于了解蛋白质的功能和结构完整性。它们也有助于设计下游的实验,无论是在计算上还是在实验室。到目前为止,AlphaFold数据库不包括这些化合物,但认识到这一需求,因为每个预测模型都通过PDB-知识库提供实验结构的链接。文章提出了AlphaFill算法,以创建一个进一步的资源:不限制“移植”到完全相同的蛋白质上,而是将其扩展到这个模型的同源物。

目前的AlphaFill数据库包含了2,694个不同配体的移植,而PDB中的配体超过了30,000个。这些配体代表了最常见的配体以及CoFactor数据库中的所有辅助因子,并涵盖了PDB中配体累计出现次数的95%左右。注意到AlphaFill软件是免费提供的(在BSD许可下),它允许用户“提交”任何结构模型进行评估,也有可能考虑PDB中所有>30,000个非聚合物配体。一个API允许用户上传和“填充”他们自己的模型或AlphaFold数据库中的额外结构,也提供了访问PDB中额外非聚合物化合物的机会。目前AlphaFill并不处理聚合物配体,如肽、核酸或糖类。它也不处理翻译后修饰,特别是糖基化。其他的翻译后修饰,如磷酸化,经常会引起构象变化,AlphaFill也同样没有处理。

图1:AlphaFill算法的验证。

AlphaFill算法中的一个重要决策参数是最小序列同一性阈值,以允许将信息从实验结构转移到AlphaFold模型中。将所有显示出25%以上序列同一性的实验结构与AlphaFold模型进行叠加,这些模型的排列长度至少为85个氨基酸。这个阈值接近于结构同源性的最小序列一致性要求。根据在同源性约束和基于同源性的实验结构注释方面的经验,对于局部残基相互作用等结构细节来说,接近70%的阈值要可靠得多;这个阈值也反映在验证分析中(图1c)。为了让用户探索各种可能性,在网络界面中引入了一个选择器,可以在每个结构的基础上将显示内容设置为所需的特征水平。

对AlphaFill模型与实验结构100%的一致性进行验证,表明局部r.m.s.d.和TCS是衡量移植可靠性的良好指标。根据这两个标准的统计分布,使用清晰的颜色编码,以引起用户对潜在错误移植的注意,表明中等和低置信度的移植。为用户提供了运行即时的能量最小化,以优化感兴趣的特定复合体。用户将检查选择,进行选择,然后优化并下载与他们的研究最相关的优化结构。

图2:AlphaFill有助于理解Abl激酶AlphaFold模型的激活状态。

全局r.m.s.d.不是移植质量的一个很好的指标,但对于感受供体和受体结构之间的相似性是很有用的:一个全局r.m.s.d.较低但身份相同或相似的结构,表示有相似的构象。这在激酶的例子中得到了反映(图2)。对于多结构域的蛋白质,序列比对可以跨越所有的结构域,但是每个结构域的相对位置可能在实验结构和模型中是不同的。在这种情况下,由于结构域的相对位置不同,结构比对可能会夸大全局r.m.s.d.值。在锌指蛋白的锌转移中观察到了这一点(图3c)。

图3:移植的锌离子(紫色球体)的例子。

AlphaFill结构模型并不意味着是准确的、精确的或完整的代表某种蛋白质结构的全部配体。它们是作为非专业人员的工具,帮助探索常见配体的复合体。结构生物学或结构生物信息学专家会发现,选择、叠加和“移植”一个功能或结构辅助因子或离子,并将这些信息通过分子动力学模拟和诱变研究加以验证,或者根据新的生物化学或生物物理学见解来讨论一个模型的结构。

除了使用几个优化的和稳健的默认值外,AlphaFill软件的设计是灵活的,因此使用的设置和截止点可以很容易地根据任何用户自己的目的进行调整。根据定义,AlphaFill依赖于高质量的结构同源物作为转移配体的第一和主要标准。然而,正如DALI3和PDBeFold所显示的那样,某些结构域可以在广泛的序列相似性的背景下出现。因此,AlphaFill可以通过基于深度学习概念的基于结构的转移算法来补充,类似于用于AlphaFold结构预测革命的算法。

教授介绍

Robbie P. Joosten博士

研究重点是开发新的计算方法来验证和提高大分子结构模型的质量。在PDB-REDO项目(pdb-redo.eu)中,从晶体衍射实验中获取实验数据和初始模型,并改善与数据的拟合,消除模型误差。这种方法为下游研究提供高质量的结构模型,如药物(铅)的发现和蛋白质的结构功能分析。


参考文献

Maarten L. Hekkelman, Ida de Vries et al.AlphaFill: enriching AlphaFold models with ligands and cofactors.(2022)

你可能感兴趣的:(2022-12-01)