基于AlphaFold2进行蛋白质结构预测的文章解析

01 蛋白质结构基础

基础介绍^[1]

蛋白质是一切生命系统的物质基础，密切每一个生理过程。
每个蛋白质因基酸链的组成、扭转、弯曲等等构成不同具有特异的结构，决定了蛋白质的功能。
一般情况下，蛋白质只有正确折叠为特定的3D构型，才能发挥相应的生物学功能。而蛋白质四级结构结构的折叠，受到大量非共价相互作用的影响。
想要从分子水平上了解蛋白质的作用机制，就需要精确测出蛋白质的3D结构。

图片41.png

形成稳定分子结构所参与作用的力

骨架链：连续的肽键
侧链：R基团
α螺旋/β折叠/β转角/无规则卷曲
氢键/范德华力/二硫键/残基的带点性质（盐桥）/疏水性

目前观测蛋白质空间结构的方法

实验观测：

X-ray
冷冻电镜
核磁共振
中子散射

实验观测的局限：

没有同源蛋白的结构信息，很难预测结构
测定成本过高
需要结晶，但可结晶的蛋白质只占少数

结构预测

物理相互作用（从头计算法）
序列共进化
拓扑结构重构
综合法

结构预测的局限：

没有同源蛋白的结构信息，很难预测结构
准确性

总结：核磁共振的精度比较低，分辨度和灵敏度都不足

02 Alphafold预测蛋白质结构

一般深度神经网络building model过程 – 以卷积神经网络为例

一般以数据处理，构建初始模型，训练模型优化参数等过程为主，以MINIST手写体识别为例。

图片1.png

Alphafold中使用deep Learning方法的介绍

Transformer^[2] 一种基于 encoder-decoder 结构的模型，Transformer使用注意力机制兴起于NLP领域，用于处理一连串的文本序列。并加入self-attention能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义，增加解码效果，而氨基酸序列正是和文本类似的数据结构，AlphaFold2利用多序列比对，把蛋白质的结构和生物信息整合到了深度学习算法中。
如下图展示Transformer的多头自注意力模型^[3]

图片2.png

self-attention可以不同参数下形成多注意力头，增加模型泛化能力。

图片4.png

在氨基酸文本中，序列上的所有位置的残基对单一残基的注意力来表示如下：

图片18.png

Alphafold工作流水线介绍^[4]^[5]

AlphaFold2里使用目标氨基酸序列、MSA、模板作为输入，直接end to end的预测了目标的三维结构，使用了Transformer进行预训练。
名词解释：

MSA指的是Multiple Sequence Alignment，多序列对齐，指的是把同源的多个氨基酸序列进行对齐之后进行序列对比，对于任意两个氨基酸序列，可以通过补空位，左右移动位置等等，使得匹配的全局得分达到最高，此时我们就得到了两条氨基酸序列的对齐，这样的目的在于通过共进化分析找到保守区域和其他特征，相似性90%以上的氨基酸序列的MSA没什么意义，因为太像了，留一条就够了；相似性30%以下的氨基酸序列MSA也没什么意义，因为太不像了很可能不是同源的。
Evoformer块，比对后的两组信息会组成一个48block的Evoformer块，然后得到较为相似的比对序列，Evoformer 模块的关键创新是在 MSA 内交换信息的新机制和允许直接推理空间和进化关系的配对表示。蛋白质的每个残基的旋转和平移形式（全局刚体框架）。这些表示在微不足道的状态下初始化，所有旋转设置为身份，所有位置设置为原点，但快速开发和完善具有精确原子细节的高度准确的蛋白质结构。这一部分的关键创新包括打破链原子结构以允许同时对结构的所有部分进行局部细化，一种新颖的等变变换器允许网络隐式推理未表示的侧链原子，以及一个损失项残基的方向正确性的重要权重。在结构模块和整个网络中，通过反复将最终损失应用于输出，然后将输出递归地提供给相同的模块来强化迭代细化的概念。使用整个网络的迭代细化显着提高了准确性，而额外的训练时间很少。
pairwise features：每个残基之间都有一个隐状态

图片5.png

搜索同源模板

通过各类数据库比对软件在各大主流数据库中搜索同源模板。

图片7.png

特征构造

特征描述，包括对氨基酸的描述，蛋白质序列的描述，氨基酸之间空间位置的信息描述表示等。

图片9.png

通过热编码的方式将氨基酸的文本序列转化成热图矩阵。

图片10.png

特征表示

这一步骤定义MSA中的信息向Pair representation转换的过程，主要通过横向和纵向的self-attention的方式进行实现。

横向attention就是每个氨基酸序列里的self-attention
纵向attention是相同位置的去看其他氨基酸序列里是否被替换了氨基酸还是大家都相同

图片12.png

MSA表示残基对、信息相互转换

这个模块主要就是基于上一步定义的两个特征对象，在信息从MSA提取到Pair representation，不过实现的方式稍显复杂，大致流程如下：

图片14.png

从MSA中提取蛋白质共变信息
主要包括横向和纵向的self-attention，更新原有的MSA representation，不过在横向的self-attention过程中，加了使用pairwise features作为后attention上的一个bias。

图片42.png

将蛋白质共变信息加入到Pair representation中
取任意一对残基（i，j）的特征，计算外积均值以后更新到残基对表示中，这里已经将MSA representation转化为初始的Pair representation。

图片16.png
通过周围残基对当前残基的信息更新，这里其实也是采用了attention的方式进行实现的

通过两个残基共起点或共终点的边来更新边

图片17.png
通过某个残基出发或者终止的所有边来更新边

图片19.png

抽象到具象

将残基间的转角信息等加入，比对序列进一步组合8 blocks的结构模型，从而直接构建出蛋白质的3D结构，最后两步过程还会进行3次循环，可以使预测更加准确。

Invariant point attention (IPA)
single repr是指初始的MSA，去掉同源模板只有目标序列的的，以及把所有残基都从坐标原点初始化然后再去计算更新的backbone frames，最终预测出具体的3D原子坐标。。
这些旋转和平移，代表 N-Cα-C 原子的几何形状，优先考虑蛋白质骨架的方向，以便每个残基的侧链位置在该框架内受到高度限制。相反，肽键几何形状完全不受约束，并且在应用结构模块期间观察到网络经常违反链约束，因为打破此约束允许对链的所有部分进行局部细化，而无需解决复杂的闭环问题。在微调过程中，通过违反损失项来鼓励满足肽键几何结构。只有在 Amber力场中的梯度下降结构的预测后松弛，才能实现肽键几何形状的精确执行。
backbone frames：将每个残基表示为一个自由浮动的骨架（蓝色三角形）和侧链的卡角（绿色圆圈）。相应的原子结构如下所示：

图片21.png

在计算中，每一层都去更新single repr和backbone frames（每个残基一个backbone frame，每个backbone frame记录了从局部坐标系到全局坐标系的欧几里得变换），而计算得到的pair features只在更新single repr的attention层中计算成一个bias。

图片22.png

Backbone update - 全局坐标系的欧几里得变换

图片23.png
模型预测准确性评价指标
这两篇文献里提及了诸多的模型准确性的评价指标，有针对局部模型最优化、有全局最优化等指标。

图片44.png
构建损失函数
损失函数的构建是为了知道模型优化时的方向，文章里提出了真实模型到预测模型的很多损失值，如下：

图片43.png

03 结果简述

预测结果评价

与其他参赛的预测模型准确率进行一致性评价

RMSD95：95%残留覆盖率下的α均方根偏差
RMSD95-Cα：组成蛋白质主链骨架的叠加原子之间的距离中位数

图中，AlphaFold：0.96 Å（CI = 0.85 Å - 1.16 Å），Last best G009：2.8 Å（CI = 2.7 Å - 4.0 Å），AlphaFold预测效果远远好过其他参数模型。

图片45.png

有无共进化模板对模型准确性的影响
蛋白质中两个碳原子的距离1.4Å，可见AlphaFold基本实现了亚原子层面的高精度建模，由于部分蛋白质N端氨基酸折叠无序，所以结构无法预测；无共进化模板情况下，仍旧可以高精度的进行结构预测。

图片26.png
全局与局部预测准确性的相关性、主链与侧链准确性的相关性

pTM 和全链 TM 分数之间的相关性。最小二乘线性拟合 TM 分数 = 0.98 * pTM + 0.07 (Pearson r=0.85)。 (N=10,795 蛋白质链)。TM-score应能更好地反映全局而不是每个单独结构域的准确性。
主链精度和侧链精度之间的相关性。过滤到具有任何观察到的侧链和分辨率优于 2.5 Å 的结构（N=5,317 蛋白质链）；侧链进一步过滤到 B 因子 < 30 Å2。如果预测的扭转角在 40 度以内，则旋转异构体被归类为正确的。每个点汇总了一系列 lDDT-Cα，箱大小超过 70 lDDT-Cα 2 个单位，否则为 5 个单位。点对应于平均准确度；误差线是基于每个残差的平均值的 95% 置信区间 (Student-t)
与链上的真实准确度相比的置信度得分。最小二乘线性拟合 lDDT_Cα = 0.997 * pLDDT - 1.17 (Pearson r=0.76)。 (N=10,795 蛋白质链)。

图片27.png

全链主干 RMSD 的直方图（Cα RMSD 覆盖率 95%）；误差线是 95% 的置信区间（泊松）。总体中值为 1.46 Å。请注意，此度量将对域打包和域准确性高度敏感；对于某些包装不确定或包装错误的链条，预计较高的 RMSD。

不同蛋白质链长度预测结果准确性评价
结果中可以发现，肽链的长度对结果的准确性有实质性的影响，且存在临界点；另外，蛋白质不同的异构形式对结果的预测结果也有较大的影响。

图片31.png

MSA 深度和跨链接触的影响 - 模型缺陷
当平均比对深度小于~30 个序列时，准确度会大幅下降; MSA 深度超过约 100 个序列的改进导致小增益的阈值效应
对多亚基的蛋白质复合体的精准度有较大误差
(a) 在我们的训练数据截止后，PDB 的冗余减少集的主干精度 (lDDT-Cα)，仅限于蛋白质，其中最多 25% 的远程接触位于不同的异聚体链之间。我们进一步考虑了基于 30% 序列同一性的模板覆盖率的两组蛋白质：覆盖超过 60% 的链（N=6,743 个蛋白质链）和覆盖少于 30% 的链（N=1, 596 个蛋白质链） . MSA 深度是通过计算 MSA 中每个位置的非间隙残基的数量来计算的（使用 Neff 加权方案，详见方法）并取残基的中值。曲线是通过高斯核平均平滑获得的（窗口大小为 log10 Neff 中的 0.2 个单位）；阴影区域是使用 10,000 个样本的 bootstrap 估计的 95% 置信区间。
在没有输入化学计量和只有弱模板的情况下正确预测了交织的同源三聚体（蓝色被预测，灰色被预测）

图片32.png

04 技术总结与未来展望

方法总结

展示了一种联合嵌入多序列比对 (MSA) 和成对特征的输出和损失估计新架构，可实现准确的端到端结构预测

训练神经网络来对regression target进行逐步迭代精化（Iterative refinement）
广泛运用了Attention架构。一个二维的表可以横着做再竖着做attention，一个图可以在各种局部结构上做attention，从而不断精化embedding的结构。
用带标签数据（氨基酸序列与三维坐标的对应）先训练一遍网络，然后用训练完的网络在无标签数据（仅有氨基酸序列）上预测一遍生成新的数据集，只保留预测得好的部分，然后把这两者混合拿来再进行训练
类似BERT的masking操作，对各种输入信息加噪音要求输出稳定，提高了鲁棒性和泛化能力。

实际价值

糖代谢 – 血糖平衡 -葡萄糖-6-磷酸酶
从预测来看,在葡萄糖-6-磷酸醃的结存在一个保守的谷氦酸袋稳定在闭的构象他残基成盐桥。该位点也是推定的活性位点中溶剂暴露最多的残基,表明可能具有门控功能残基以前从未被讨论过。

aa
WFS1基因 - Wolfram综合征是（神经退行性疾病）- 蛋白质招募

图片34.png
脂肪的生成与代谢 – 脂肪肝 - 二酰基甘油O-酰基转移酶2

现阶段局限性

蛋白质预测本身局限

能量最小化
能量最小化计算依据是：蛋白质折叠是一个自发过程，最终会达到一个内部势能的低点，不一定是真的全局“最小”，但至少应该是局部“最小”。
有些蛋白质需要的是“坚固”，往往会直接以能量最小化的状态出现；但更多的蛋白质是分子机器，需要运动，需要有改变结构状态的余地，因此不会处在能量最小化的状态。
严重依赖已有结构信息
逻辑：序列相似，结构就该相似
相似只是整体上的，不代表细节上也一样
结构未知的蛋白质没有共进化信息结构不好预测
无法做到百分之百准确
通过大量的训练所得到的模型，能够更准确地表征序列与结构之间的已知关系。
如果有一种全新折叠形式的蛋白质结构，则无法预测，靶药设计看重细节，结构预测结果错误导致给药无效

参考与引用

为什么说 AlphaFold 2 足以改变全人类 ↩
Transformer模型详解 ↩
The Illustrated Transformer ↩
Jumper J , Evans R , Pritzel A , et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021:1-11. ↩
Tunyasuvunakool, K., Adler, J., Wu, Z. et al. Highly accurate protein structure prediction for the human proteome. Nature 596, 590–596 (2021) ↩