作者:清华大学的曾坚阳老师团队
期刊:Nature Communication
时间:2021.9.15
1)模型中,三个分类通道有一个分支将输出结果给与数字通道,目的是什么?
多肽通过与多种蛋白质相互作用并参与许多细胞过程,如程序性细胞死亡、基因表达调控和信号转导,因此,多肽在人类生理中发挥着至关重要的作用。由于其安全性、良好的人体耐受性,以及良好的灵活性和构象刚性之间的平衡,目前,肽已成为设计新的其他药物的良好起点,而准确识别肽蛋白相互作用(pepis)对这类疗法的发明至关重要。尽管如此,大多数现有的预测方法严重依赖于高分辨率的结构数据,通过实验来确定PepPIs通常是费时和昂贵的。为了缓解这个问题,提出了CAMP,一种深度学习框架,用于同时预测多肽-蛋白相互作用(pepPIs)和识别多肽序列的结合残基。
1)提出了用于多级肽蛋白相互作用预测的深度学习框架——CAMP,包括二元相互作用预测和肽结合残基预测。
2)根据肽和蛋白质的一级序列构建它们的综合特征图谱,包括二级结构、疏水性、亲水性和极性、内在的无序趋势,以及由序列比对获得的进化信息,以增强肽蛋白相互作用预测。
3)设计了一个多通道特征提取器,从物理化学和生物化学特征中学习潜在的信息。
1)从RCSB PDB和DrugBank中已知的药物靶标对中提取多肽蛋白复合物结构;
2)利用蛋白质配体相互作用预测因子(PLIP)识别每个PDB复合物中肽与蛋白质之间的非共价相互作用,仅保留具有非共价相互作用的肽蛋白对作为阳性样品;
3)从PepBDB中获得肽结合残基标签,PepBDB是由RCSB PDB 衍生的肽蛋白复合物结构数据库;
4)基于多肽和蛋白质的一级序列,生成多肽和蛋白质的残差级结构和物理化学固有联系、内在无序倾向和蛋白质进化信息;
5)整合多级标签,即肽-蛋白对的二元相互作用标签和肽结合残基标签进行训练过程。
a. RCSB PDB 是一个可以直接连接蛋白质的数据库
b. PLIP:蛋白质配体相互作用预测器
c. RSCB产生的是蛋白质-肽对,DrugBank产生的是具有相应靶点的肽药物,是蛋白质-肽药物对,肽药物也是肽,所以(蛋白质,肽)+(蛋白质,肽(药物))à通过PepPIs丰富了蛋白质-肽的数据库。
d. 鉴定肽相互作用残基的模型。原论文参考文献28
CAMP利用两个多通道特征提取器分别对它们进行处理。
每个提取器包含一个数字通道和三个分类通道。该数值通道用于提取预定义的密集特征(即蛋白位置特异性评分矩阵(PSSM)和蛋白和肽序列中每个残基的内在无序趋势)。每个分类通道包含一个自学习的单词嵌入层,它采用输入肽或蛋白质的分类特征之一(即原始氨基酸、二级结构、极性和亲水性)。
在这里,设计了这样一个多通道架构,是因为输入配置文件包含了不同尺度的多方面特征,如果只使用简单的编码器,这可能会带来不一致。
接下来,CAMP利用两个卷积神经网络(CNN)模块分别提取多肽和蛋白质的隐藏上下文特征。此外,CAMP采用自我注意机制-来了解残基之间的长期依赖关系以及蛋白质和多肽个体残基对最终相互作用预测的贡献。
然后,CAMP结合所有提取的特征,使用三个完全连接层来预测给定的肽蛋白对之间是否存在相互作用。
CAMP取每个位置具有sigmoid激活功能的肽CNN模块的输出,预测每个肽残基是否与伴侣蛋白结合。在问题中,二元交互预测是我们的基本任务,我们的目标是通过提供多级监督信息来解决这个问题。在这里,额外的结合残基标签不仅可以提供额外的信息,以提高的主要任务的性能,而且还可以通过识别肽中的关键残基来为pepPIs带来新的见解。
采用以下实验证明模型的优越性。
CAMP在二进制交互预测方面优于baseline方法à模型体系结构和特征选择方案是我们预测任务的最优方案。
肽结合残基表征的新见解à能够准确预测结合残基,为进一步理解肽与伴侣蛋白的相互作用机制提供可靠的证据。
CAMP在附加基准数据集上的通用性à进一步说明在二元相互作用预测和肽结合残基鉴定方面的通用性
CAMP在三个相关任务中的扩展应用à进一步研究了CAMP在预测多肽PBD相互作用预测、结合亲和评价和多肽虚拟筛选等方面的应用潜力
1) 对pepPIs进行二元分类是CAMP的主要目标。在这里,比较了CAMP与其他最新基线方法的分类性能,包括基于相似度的矩阵分解方法NRLMF,基于深度学习的PPI预测模型PIPR,以及基于深度学习的CPI预测模型DeepDTA。所有的预测方法都在一个基准数据集上进行了交叉验证。采用特性曲线下面积(AUC)和精确查全曲线下面积(AUPR)来评价各模型的性能。此部分将蛋白质和肽分成不同簇,使得来自同一簇的实体不会同时出现在训练和测试集中,分别是下图的Novel Protein 和Novel Peptide,而Novel Pair是来自同一簇的蛋白质或多肽不会同时出现在训练集和测试集中
下图显示,CAMP始终优于最先进的基线方法,AUC和AUPR分别增加了10%和15%。在“Novel Peptide setting”下的模型性能似乎比其他的要好。
这可以通过以下事实来解释,即基准集中的肽彼此之间的相似性比蛋白质小,因此在基于相似性进行聚类之后,肽在训练和测试集中的分布没有太大变化。这样的测试结果表明,在所有交叉验证设置下,CAMP可以获得比基线方法更好和更健壮的性能。
2) 进行了综合消融研究,以证明CAMP的单个成分的重要性,消融研究(如下图)表明,当前的模型体系结构和特征选择方案是预测任务的最优方案。
作者设计了一个监督预测模块来识别肽序列中的结合残基。首先利用来自PepBDB的相互作用信息构建了一组肽结合残基的合格标签的全面结构数据库,包含从RCSB PDB已知的相互作用肽蛋白复合物,以及涉及氢键和疏水接触的肽结合残基信息。在这种监督信息的支持下,使用五倍交叉验证程序进行肽结合残基鉴定时,CAMP获得了0.806的平均AUC和0.514的马修斯相关系数(MCC) (下图a,b)。
为了进一步证明CAMP在结合残基预测中的性能,还选择了四个有代表性的案例(根据预测的肽结合残基的平均AUC分数分别排名约1%、35%、50%和85%),并将预测的残基与真实的相互作用残基进行比较。图c显示了第一个例子,HIV-1特异性细胞进入抑制剂和HIV-1 GP41三聚体核心的复合物(PDB ID: 1FAV)。肽抑制剂有33个氨基酸,其中12个是结合残基。CAMP鉴定了所有这些结合残基,没有任何假阳性。这样的预测是我们预测任务中最理想的情况,我们发现30.2%的结合残基鉴定像这种情况一样完全准确。
图d显示了第二个例子,HIV-1 gp120包膜糖蛋白和CD4受体的复合物(PDB ID: 4JZW),其平均AUC排名在前35%左右。该肽有28个氨基酸,其中13个是结合残基。我们预测的结合残基沿着肽序列覆盖了11个真正的结合残基,遗漏了两个真正的结合残基(已经用红点标出)。
图e显示了第三个例子,来自组蛋白脱乙酰酶的肽和锚蛋白重复家族A蛋白的复合物(PDB ID: 3V31)。在我们的预测中,这一对在AUC方面排名中位数,CAMP成功识别了11/13的真结合残基,其中有一个假阳性。
图f显示了最后一个例子,t淋巴瘤侵袭和转移诱导蛋白和8个残基磷酸化的syndecan-1肽(PDB ID: 4GVC)的复合物,在我们的预测中排名~85%,平均AUC为0.571。所有8个残基(包括1个假阳性)都被CAMP预测为结合残基。
总的来说,测试结果表明,CAMP能够准确预测结合残基,从而为进一步理解肽与伴侣蛋白的相互作用机制提供可靠的证据。
作者在来自PDB的额外独立数据集上评估了CAMP,并遵循与构建之前的基准数据集相同的策略。为了证明CAMP对二元交互预测的鲁棒性,评估了CAMP和基线模型对测试数据集的几个变化的正-负比率的性能。每个模型首先在完整的基准数据集上进行训练,然后使用集成版本(即五个模型的平均预测)对额外的测试数据集进行预测。图a和图b显示CAMP在所有场景下取得了最好的结果,表明CAMP优于基线方法,具有相对稳健的性能。还观察到,随着正负比从1:1下降到1:10,所有方法的曲线下面积(AUC)均略有增加。这可能是因为样本量的增加给模型带来了更多需要学习的信息。随着阳性与阴性比值的增加,所有方法的AUPR均明显低于AUC。这主要是因为AUPR通常更受阳性与阴性样本比例的影响。
还评估了CAMP对肽结合残基识别的预测结果。从PepBDB29中获得了注释的肽序列结合残基。从测试数据集来看,总共有208种peppi具有这样的肽结合残基标签。图c和d显示CAMP能够维持其对上述附加数据集的预测能力。
进一步研究了CAMP在预测多肽PBD (protein binding domain)相互作用预测、结合亲和评价和多肽虚拟筛选等方面的应用潜力。
HSM专注于一个相当相关的问题,即预测多肽和球状PBD之间的相互作用。
在预测肽PBD相互作用方面,将CAMP与HSM的两种报告模型进行了比较,即HSM- id(其中针对每个PBD酶家族训练了8个单独的模型)和HSM- D(其中针对所有家族训练了一个统一的模型)。在这里,比较了CAMP和HSM模型预测肽PBD相互作用的性能。特别是,使用相同的数据集和HSM论文中使用的8倍交叉验证设置来评估CAMP的性能。下图显示CAMP在除PDZ外的所有域家族中都显著优于HSM-ID和HSM-D。还注意到,HSM-ID和HSM-D在不同的家庭中有很大的预测差异。正如HSM的论文所解释的,这可能是由于数据的偏态分布(即,来自不同家庭的对的数量是不平衡的)。对于像PDZ这样的数据量大的家族,HSM模型可以学习得很好,但对于那些数据量相对较小的家族,如磷酸酪氨酸结合家族的域,HSM模型的性能明显下降。CAMP的性能更稳健,受波动数据大小的影响更小。这些结果表明CAMP也适用于解决相关肽PBD相互作用的预测问题。
接下来,研究了CAMP是否也可以用来评估肽蛋白对的结合亲和力。在这里,将CAMP与几种基线方法进行了比较,包括random forest(一种传统的基于机器学习的框架),DeepDTA(一种基于深度学习的框架),Auto Dock CrankPep(一种基于结构的对接方法),如下图所示,与所有基线方法相比,CAMP具有更高的Pearson相关系数和更小的RMSE预测误差。考虑到CAMP并不是专门为亲和预测而设计的,且训练数据有限,比较结果令人满意,进一步说明CAMP在预测肽和蛋白质结合亲和方面的巨大潜力。
此外,评估了CAMP和各种对接方法的能力,包括cab - dock, MDockPeP, Auto- Dock CrankPep v1.0,和GalaxyPepDock,虚拟筛选的肽。我们观察到本模型拥有更好的性能 (见下图)。因为这些小对接方法最初是专为绑定姿势预测而不是虚拟筛选。基于以上事实,认为CAMP比基于结构的对接方法在肽虚拟筛选中提供了更合适、更强大的工具。
1)优势:在本研究中,提出了CAMP,一个用于多级肽蛋白相互作用预测的深度学习框架,包括二元相互作用预测和肽结合残基预测。首先生成了一系列基于序列的特征来构建肽和蛋白质的特征图谱。与传统的肽或蛋白质特征表征(如k-mer)相比,综合特征图谱结合了信息结构注释特征、进化信息和内在紊乱倾向评分,以增强肽蛋白相互作用预测。然后利用多通道特征提取器分别处理数值特征和分类特征,避免了多源特征的不一致性。综合交叉验证评价表明,CAMP在二元相互作用预测方面优于目前最先进的基线方法。此外,试图通过识别肽结合残基来破译肽蛋白相互作用的潜在机制。发现CAMP可以准确地检测出肽序列中的结合残基。还提出了具有代表性的案例来可视化肽结合残基识别任务的结果,并检查了Semaglutide及其类似物的预测靶点。验证了CAMP在肽PBD相互作用预测、肽蛋白对结合亲和评价、肽虚拟筛选等方面的应用潜力。所有这些结果表明CAMP可以提供准确的肽蛋白相互作用预测,并有助于理解肽结合机制。
2)局限性:不能直接从给定的肽蛋白对中的蛋白质序列预测结合残基;蛋白质结合残基预测的结果相对不令人满意;利用PLIP从共晶复合物结构中提取蛋白结合残基的正标记时,可能会出现一定的不确定性