标题:Predicting locations of cryptic pockets from single protein structures using the PocketMiner graph neural network
期刊: Nature communictions
团队:华盛顿大学生物化学与分子生物物理系
DOI:https://doi.org/10.1038/s41467-023-36699-3
靶点的成药口袋是药物研发的起点,而除了在自然状态下显而易见的”显式口袋“外。还存在一类由于蛋白结构的动态变化而形成的"隐式口袋"。靶向隐式口袋提供了新的药物研发可能,比如说:
虽然隐式口袋是诱人的的药物靶标,但定位和靶向他们仍然非常具有挑战性,大多数已知的隐式口袋的发现都是通过筛选或者优化命中化合物的时候偶然发现。此外,动力学模拟通过计算模拟了蛋白质在溶液中动态结构变化,并提供了蛋白结构的集合,这些结构中所揭露隐式口袋可以作为药物设计的模版。但动力学模拟所需要的计算资源较高,使得其难与用于大规模的隐式口袋筛选。
因此本篇文章提出训练了一个图模型PocketMiner用于预测蛋白中哪一块区域有可能在分子动力学模拟过程中打开,从而形成隐式口袋。
模型框架采用的是GVP-GNN。相较于传统的GNN,其创新点就是加入了如下图所示的GVP模块:
GVP的输入包含标量s和向量V,首先对向量V做了一个线性变换得到Vh,之后对Vh进行L2正则化并将之与s拼接到一起。从而使得向量信息和标量信息之间形成一个信息交互。
有兴趣的可以去看看原文:https://arxiv.org/abs/2009.01411
对16个已知具有隐式口袋的蛋白进行了动力学模拟,首先每个蛋白口袋进行了10次并行40ns模拟,并基于Fast算法对模拟轨迹进行聚类,取所有轨迹的聚类中心作为下一次模拟的起始构像,并再进行10次并行的40ns模拟。上述过程一共循环了5次,基于LIGSITE计算口袋的体积,如果大于或等于结合态的口袋体积即认为口袋已打开,具备了容纳配体的能力。以下是模拟的结果:
A和B图是一个简单的case展示,可以看到相对于apo态,隐式口袋的体积在经过模拟之后明显扩张了。
图C展示的是GluR2蛋白体系在模拟过程中的隐式口袋体积大小分布情况,横坐标是迭代的次数,纵坐标是口袋体积,结果显示在第一次的迭代后,隐式口袋就已打开。
D图是多个蛋白体系的C图的集合,橙色的小提琴图代表的是第一次迭代后的口袋体积,而白色则代表的5次迭代后的口袋体积。横坐标代表的与Holo态相比的口袋倍数。即大于等于1就可以认为隐式口袋已打开。可以看到在15个蛋白体系中(有一个蛋白体系中的口袋在apo情况下比holo态还大,舍弃掉了),有13个体系在第一次迭代口袋就已经打开。另外的两个体系中国中AMPA在第五次迭代中口袋打开了,只有Niemann-PickC2
Protein体系的口袋一直没打开。
总而言之,对于大多数较小的蛋白质,只要有短暂的模拟就可能足以发现隐蔽的口袋。
这一发现表明,识别APO态上隐式口袋的任务可以简化为训练一个模型去预测在短暂的分子动力学模拟时间窗口内(如40ns),口袋能否能够形成。
模型的训练数据集一共包含37个蛋白。其中16个蛋白是来自上一节种所整理的数据;其余蛋白来自课题组之前关于隐式口袋的动力学模拟数据,包括15个SARS相关蛋白和6个Ebolavirus VP35蛋白。和上一节一样,这些动力学模拟的数据全部由40ns的片段组合而成,一共2400个40ns的片段。从中提取了每个片段的初始构象,共941550个氨基酸标注数据用于模型的训练。
图A展示的是数据标注的方式。训练的标签为氨基酸是否能够在接下来40ns的动力学模拟任意时刻中参与形成隐式口袋的2进制标签。判断的标准基于ligsite计算每个氨基酸周围5A的网格点参与组成的口袋相对于apo状态的体积变化大于或等于40 A 3 A^3 A3d。
图B和图C展示的是,模型训练采用的五折交叉验证(基于37个蛋白而非MD轨迹)中的最优模型的PR曲线和AUC曲线。可以看到GVP-GNN模型要强于3D-CNN模型,且AUC达到了0.83。这些结果说明,当给定蛋白质的天然折叠状态结构时,无需计算中间状体(例如,使用MD模拟)也可以识别分子动力学模拟中隐式口袋形成的位点
从PDB数据库和已公布的数据集中提取了38个apo-holo蛋白结构对,包含39个隐式口袋。通过检视这些蛋白结构对,作者发现许多隐式口袋的形成是通过closing motion形成的,而非openning motion。closing motion的蛋白结构在apo态下相隔甚远,因此在apo态下几乎没有口袋,而在holo态下蛋白结构聚拢而成壁(wall)或盖子(lid),从而形成了一个可以供配体结合的空腔 (图D)。作者将这样的口袋命名为“reverse”口袋, 大多数的隐式口袋都由单一的motion形成。而在forward和reverse的口袋中,总共观察到了4种常见的结构重排,如下图所示:
图A,loops可以移开为进入的配体创造空间,或夹紧在配体上方形成壁(wall)或盖子(lid)
图B,二级结构可以发生偏移或者旋转
图C,二级结构和loops之间可以发生相互转换
图D,interdomain可以创造一个可供配体结合的空腔
鉴于GVP-GNN能够准确预测模拟中的结合口袋位置,作者接下来进一步研究了这种网络架构是否能够用于预测实验结构中的隐式口袋形成的位置。模型的训练数据就是第二节中的的37个蛋白的apo态,但这次除了ligsite的数据方法,还引入了fpocket的口袋成药性打分。最终的模型经由ligsite标注的数据训练了20个epoch,由经fpockt的标注的数据refine了一个epoch。
模型的测试集由三部分组成,首先是第三节中所获取的正集,以及中这样的高度刚性的蛋白(如下图1B),还有已经经过了大量实验的蛋白。作者认为如果一个蛋白已经有了大量的Holo态,那当这些Holo态聚合到一起时,没有ligand结合的区域就可以认为是无法形成隐式口袋的,可作为训练的负集使用(如下图2)。测试集之后又经历了两次过滤:
最终测试集一共包含35个蛋白:23个能形成隐式口袋的正集,4个超刚性蛋白,以及7个经过了大量实验筛选的蛋白。总计563个正集氨基酸和1283个负集氨基酸。下图1是模型的性能情况:
residues that do not form cryptic pockets in our test set.
图1:
A:PocketMiner图形神经网络准确地检测了隐藏口袋形成的高的可能性区域(红色),其中就包括ligand的结合区域。该区域有一个loop在Holo态下打开了,形成了一个隐藏口袋。
B:高刚性蛋白结构的展示
C和D:模型性能的展示,可以看到相对于以前的监督学习方法,PocketMiner的AUC稍有提升。但PR曲线在高回收率(0.6~0.8)下预测的假阳性更少,这说明模型的预测错误率是相对下降了的。特别是针对超刚性蛋白,PocketMinder相对于CryotoSite有一个整体的提升。下表为来给那个算法的准确率:
图2
将所有的holo态结合到一起,如果周围5A内不含ligand。则认定该氨基酸无法形成隐式口袋(灰色),反之标红。
之后作者利用上述模型去预测了超过10000个人体基因组蛋白进行了预测,将预测结果分为了三类:Groud state pocket,Criptic pocket 和No cryptic pocket。 分别对应着同时包含显示口袋或隐式口袋的蛋白,仅包含隐式口袋的蛋白以及未找到相关口袋的蛋白(图A), 可以看到有近百分之三十的蛋白仅仅包含隐式口袋,这说明即使在一个蛋白在自然状态下没有显示出明显的小分子口袋下,对其进行进行药物筛选依旧是有意义的。为了证明这一观点,作者将PocketMiner应用到了癌症相关通路Jak/Stat的几个蛋白上,包括下图中所示的PIM2,PIM2已经有经过drug筛选的正构口袋。
图A: 人体基因组蛋白的口袋类型比例,Groud state pocket,Criptic pocket 和No cryptic pocket。 分别对应着同时包含显示口袋或隐式口袋的蛋白,仅包含隐式口袋的蛋白以及未找到相关口袋的蛋白
图B: Jak/Stat 信号通路
图C:PIM 2 激酶的Holo态结构
图D:PocketMiner预测的隐式口袋分布
图E:PIM 2的MD结果,显示在PocketMiner预测的隐式口袋处确实出现了相应的口袋
1. Pocket Miner能够基于Apo态的蛋白结构去精准预测其中的隐式口袋位置(AUC: 0.87), 并且实现了相对于传统监督学习方法CryptoSite实现了1个数量级的速度提升(>1000)
2. 基于MD能够有效发现已知的隐式口袋,并且并不需要长时间的模拟,400ns的模拟即可。
3. 在人体基因组蛋白的PocketMiner预测中发现了大量的仅含隐式口袋的蛋白,说明目前的药物发现的靶标范围是能进一步扩充的。