Nat Biotech | AI从测序数据中预测蛋白质-配体的结合力
原创 苏安 图灵基因 2022-06-14 07:03 发表于江苏
收录于合集#前沿生物大数据分析
撰文:苏安
IF:54.908
推荐度:⭐⭐⭐⭐⭐
亮点:
1. 作者描述了一种灵活的机器学习方法,称为ProBound,它可以量化平衡结合常数或动力学速率来准确地实现序列识别,并且在量化转录因子(TF)模型中预测结合力的效果大大超越其他资源。
2. 当ProBound与KD-seq方法结合分析时,可以预测蛋白质-配体的结合亲和力;ProBound也可以应用于激酶-底物相互作用的动力学研究。ProBound为解码生物网络和量化蛋白质-配体相互作用开辟了新的途径。
生命由细胞构成,细胞中的重要过程(比如细胞调控和信号转导)高度依赖序列特异性的蛋白质-配体的相互作用,因此,全面定量地分析序列识别对解码这些分子网络至关重要。虽然大规模并行测序提高了序列识别的速度,但是目前并未精确量化分子之间相互作用的生化物理参数。
近期,在Nature biotechnology杂志上发表了一篇名为“Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning”的文章,本文的研究人员通过建立一种“ProBound”的机器学习框架,以平衡结合常数和动力学速率来定义序列识别,实现了对蛋白质-配体结合亲和力的预测,并且ProBound在激酶-底物相互作用的动力学中也得到了应用,这项方法为解码生物网络和量化蛋白质-配体相互作用开辟了新的途径。
首先,作者向我们展示了ProBound的框架。ProBound使用三层对多库测序数据进行系统建模(图1):结合层使用序列识别模型预测序列的结合自由能或酶效率;分析层编码生成文库的选择步骤,并预测所有配体的频率;测序层对测序过程中文库的随机采样进行建模。这些层被合并成一个函数,该函数被优化以推断识别模型。每一层都具备可扩展性,可以联合多种分析方法,实现复杂现象的解析(如酶修饰和甲基化)。图1.ProBound方法的概述
为了在更广泛的范围内量化TF的序列识别,作者利用已经发表的SELEX数据库对算法进行训练,得到了1632个绑定模型(图2a)。为了评估模型的性能,作者将每个TF与已发表的蛋白结合微阵列(PBM)、染色质免疫沉淀测序(ChIP-seq)和非训练SELEX数据联系起来,并计算了三个互补的性能指标:有意义的亲和折叠范围(MAFR),模型解释的信号方差的比例r2,精度召回曲线下的面积(AUPRC)。结果显示,ProBound在所有指标上都优于当前的资源(图2b)。图2.TF绑定模型性能的验证
除了序列本身影响TF的序列识别之外,辅助因子的相互作用和DNA甲基化也会影响TF的序列识别。为了量化在辅助因子作用下TF的特异性和协同性,作者团队利用三个高度保守的果蝇同源结构域蛋白形成的复合物:同胸(Hth)、胞外膜(Exd)和超胸(Ubx)来建模分析。为了表征Hth:Exd:Ubx,作者首先对所有三个因素进行了SELEX-seq,然后将这些数据与之前的单体和异质二聚体数据结合进行分析(图3a)。结果显示,当Hth结合Exd:Ubx上游的8-13个碱基对(bp)时,模型具有显著的协同性(ΔΔGconfig≈2RT)(图3b)。为了量化甲基化对模型的影响,作者同时学习了所有三种二聚体的甲基化感知结合模型(图3c),作者使用ChIP-seq数据来估计体内这些位置特异性甲基化敏感性的影响,发现甲基化显著影响了模型预测的结合方向(图3d),并且其他的DNA修饰方式如6mA、5hmc也会对TF产生影响(图3e)。图3.互补分析的综合建模量化了甲基化和辅助因子对TF结合的影响
当前测试方法的局限性是仅能用于蛋白-配体相对亲和度的分析,为了能够实现蛋白-配体绝对亲和度的分析,作者开发了名为KD-seq的检测方法。KD-seq使用一个和规则关联的三个库的相对配体频率来推断绝对结合概率,然后以一种修正结合饱和的方法转换为KD估计值(图4a)。作者首先在低DNA和TF浓度(分别为100nM和20nM)下使用果蝇同源结构域蛋白远端无端(Dll)测试KD-seq,以实现强富集和避免过度结合饱和。所得到的模型(图4b)准确地预测了KD中束缚库和自由库中超过三个数量级的富集情况(图4c)。为了验证,作者使用标准电迁移率测定法测量了最优模型预测的结合位点和三个次优序列的KD值,发现了很好的定量一致性(图4d),尽管在几种条件下,最高亲和序列的KD估计值是相似的,但当TF浓度比KD极高或DNA浓度远高于TF时,它就发生了变化(图4e)。图4.ProBound推断绝对KD值。
为了从ChIP-seq数据中了解它们在体内的影响,作者使用ProBound发现了驱动IMR90细胞系中糖皮质激素受体(GR)ChIP-seq数据选择的因素。研究发现了4种结合模型:一种与GR序列一致,另外3种与已知的GR辅助因子AP-1、FOXA1和TEAD一致(图5a)。多浓度模型是建立在每个文库被有意下调到105次或0.03次基因组序列的数据上(kb)构建的。因此,即使在极低的覆盖率下,ChIP-seq数据也明确地包含了足够的信息来可靠地推断TF结合模型,并量化具有生物学意义的细胞状态参数。两种GR结合模型的自由能参数与体外数据(r2=0.97和r2=0.92;图5a,b),表明体外和体内结合特异性的观察实际上是高度一致的。
图5.ProBound使用无峰ChIP-seq分析学习定量结合模型和样本特异性TF活性
为了探究激酶-底物相互作用的动力学,作者在一个固定的中心酪氨酸周围随机化10个氨基酸残基,并将该文库暴露在c-Src中(图6a),将推断出的效率模型可视化为一个序列标志(图6b),显示了与早期研究一致的有利残基的位置特异性模式。该模型还准确地捕获了所有三个时间点在keff的100倍范围内观察到的磷酸化肽的部分(图6c),为了验证该模型,作者使用高效液相色谱(HPLC)测量了11个多肽的磷酸化率,它们的归一化初始磷酸化速率的测量值在ProBound模型预测的方向上有显著差异(图6d)。图6.ProBound定量了酪氨酸激酶c-Src的序列依赖性动力学
本文作者向我们展示了,通过明确地建模分析过程,我们可以使用机器学习准确地量化生物物理参数。作者预计ProBound能够实现的序列识别的准确和无偏分析将在生物技术领域有许多应用,其中配体或底物的合理工程设计至关重要。
教授介绍:
Harmen J. Bussemaker
Harmen J. Bussemaker是是生物科学系的主席和教授。Bussemaker博士以其通过整合有关基因组序列,转录因子结合和基因表达数据的信息来理解基因调控网络的开创性努力而闻名。Bussemaker实验室使用高通量测序和基于亲和力的选择,旨在以前所未有的分辨率量化转录因子的DNA结合特异性。他还使用生物物理模型从全基因组mRNA表达水平推断转录因子调节活性的细胞状态特异性变化。
参考文献:
Rube, H.T., Rastogi, C., Feng, S. et al. Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning. Nat Biotechnol (2022).https://doi.org/10.1038/s41587-022-01307-0