基于结构的药物设计决策:对接结果的目测决策(Visual Inspection)
作者:jimzz, 来源:微信公号:“药研小木子”
摘要:分子对接是药物开发中广泛使用的计算机技术,因其简单的采样和打分函数使得其结果变得不精确,常需要药物化学家通过经验判断结果的可靠性。虽然分子对接对于药物化学家来说是非常重要的工具,鲜有相关文献提出对接结果分析的指南,本文通过总结药物化学相关文献,试图寻找目测分析对接结果的通用规则,并着重分析这一规则使用的成功案例和其使用的局限性。本文收集了来自学界和工业界的93个专家关于如何目测分析对接结果并据此作出决策的观点,希望对指导年轻的药物化学家在鉴别他们的化合物的时候起到帮助。
前言:基于结构的大型数字化合物库的虚拟筛选和配体结合模式分析已成为现代药物开发的计算流程中关键内容。其不仅仅可以发现靶向特定靶标的潜在化合物,同时也帮助解释实验观测到的构效关系(SAR),故而基于结构的计算机技术被运用于药物研发的各个阶段。虚拟筛选因为成本低廉,具有发现潜在先导化合物的潜力和能分析配体蛋白作用机制而广受欢迎,其关键技术是分子对接。这一技术通过配体对接构型(pose)鉴别那些可以很好结合蛋白的配体,并且通过打分函数评估其相互作用的强度。通常为了提高效率,打分函数被设计得较为简单,其无法正确对合理的pose进行排序和无法有效的预测相对或者绝得结合自由能限制了分子对接技术的运用。而且,还因为诱导契合现象的存在导致了分子对接结果的不可靠性增加,因为分子对接中常将配体和蛋白视为刚性的对象,基于此的对接打分并不精确。此外,配体分子内的相互作用也存在病态模式,如扭曲的酰胺基团、分子内结构碰撞或者不合理的3D构型,都是分子对接无法合理处理的问题。另外一个影响分子对接性能的重要因素是初始的输入结构,涉及配体的质子化态和旋转异构体处理,受体的酸性和碱性氨基酸的质子化态的处理,以及谷氨酰胺、天冬氨酸和组氨酸的侧链在结合态时的翻转情况。基于上述各种情况,虚拟筛选常常伴随着大量的假阳性hit。因此研究者提出了一系列改进技术,包括分子动力学模拟(MD)后进行MM/GSBA结合自由能计算,炼金术结合自由能计算(ABFE)或者现代机器学习计算,但药物化学家目测分析对接结果才是提高成功寻找先导化合物的最为重要的一环。最近一篇综述提出他们分析的250篇虚拟筛选的文章中有一半都进行对接结果的目测分析,并且认为结合了任何的合理的经验判断的结果分析都优于仅靠对接函数得到的结果。当前,也有一些工具被开发出来用于辅助决策,这些工具采用相互作用指纹、骨架对接或者通过多个同类化合物结合模式比较来辅助对接结果的分析和决策,例如PlayMolecule,但是这些方法都是新近才被提出来,其可靠性有待检验。
目测决策在对接研究中有很多成功案例,以及评估重对接(redock)和交叉对接可靠性分析,如RMSD分析中目测决策也常被使用,但是这些案例的使用标准较为含糊和特异性。最近一篇综述着重分析了药物化学家根据亲和力、选择性、药代动力学、结构生物学和计算机结构多方面的大量数据进行决策判断,最后作者提出基于这些数据分析得出的结果可能因为分析的药物化学家本身的经验、背景知识和训练的不同而产生差异。这一差异在对接pose的目测决策中同样可能存在,因此详细的概述相关的规则和标准是非常必要的。本文分析了目测决策中通用规则,及其成功运用的案例和局限性,并且还统计了从事计算药物化学的专家们关于对接pose的目测决策的一致性和差异性标准。希望对更为广泛的讨论目测决策的使用和最佳策略打下基础,以及为年轻的科学家们提供指导。
目测决策的标准
目测决策中最常被评估的标准便是化合物和结合位点的空间互补性。等温滴定热力学实验(ITC)表明包埋的非极性表面和配体的结合自由能存在相关性,合理的基于结构的药物优化中发现部分缺失的互补性可以知道配体的扩增和修饰。一些研究提出形状契合可以衍生基于理化性质的为静电的和疏水性的互补,使得这一标准更为具体。
另一个目测决策标准是配体和蛋白间的氢键,由于其相对强度和清晰的几何定义,氢键也最易在目测决策中被识别出来,而且对配体和蛋白结合的亲和力和选择性非常重要。目测决策中与结合位点特定氨基酸的氢键作用常被用于和晶体结构或者具有类似化学结构的化合物进行比较。例如在酶抑制剂的设计中与催化位点的特殊相互作用对于抑制酶活和抑制耐药是非常重要的。氢键的强度和稳定性影响亲和力,由于氢键的去溶剂化效应和静电特性在疏水表面的氢键相比溶剂可及区氢键更有利于提高结合自由能。这一点在盐桥上表现明显,位于溶剂可及区的盐桥通常由于带电氨基酸的去溶剂化效应对结合自由能的贡献变得微不足道。与蛋白质骨架形成的氢键比与侧链形成的氢键更强,且不容易受到突变的影响。主链氢键因为相对刚性,侧链位移引起的焓损失变少,因此在目测决策中这一情况应当不容忽视。除去已形成的氢键,哪些没有满足配对的氢键供体或者受体也应当被考虑目测决策,因为这些基团由于没有去溶剂化的能量惩罚的代偿相互作用,会导致结合自由能的下降。金属蛋白抑制剂与金属的不同的相互作用对其亲和力影响十分重要,如图1A所示,有趣的是弱氢键、卤键、正交偶极相互作用或者酰胺-π相互作用很少在这一环境中被提及,但是越来越多的研究表明这些非经典的弱相互作用是不可忽视的。
溶剂效应是蛋白-配体相互作用的热动力学主要贡献者。结合过程中,水分子被配体从溶剂化的口袋中替换,当水分子被替换时配体与蛋白形成强的相互作用,增强了熵,有时也增强了焓,但是当水分子与蛋白形成较强的相互作用时,被替换可能影响结合自由能,且有些水分子参与到配体与蛋白的结合,形成水桥调节配体与蛋白质的结合,这些情况均需要在目测决策的时候进行充分考虑。对于水分子的多重角色的判断即使是进阶专家也需小心对待。此外对于处于未结合态的蛋白质的结合口袋的溶剂化也应当被慎重考虑。对于水分子替换时对熵和焓的影响的评估,目前有动力学模拟和神经网络等方法对对接结果进行判断。另外,通过判断暴露在溶剂区的配体基团也是目测策略评估的标准之一,一些明显的疏水基团如果突出在溶剂区通常被认为是不利于结合的,除非他们与蛋白质有相互作用。
溶剂效应是蛋白-配体相互作用的热动力学主要贡献者。结合过程中,水分子被配体从溶剂化的口袋中替换,当水分子被替换时配体与蛋白形成强的相互作用,增强了熵,有时也增强了焓,但是当水分子与蛋白形成较强的相互作用时,被替换可能影响结合自由能,且有些水分子参与到配体与蛋白的结合,形成水桥调节配体与蛋白质的结合,这些情况均需要在目测决策的时候进行充分考虑。对于水分子的多重角色的判断即使是进阶专家也需小心对待。此外对于处于未结合态的蛋白质的结合口袋的溶剂化也应当被慎重考虑。对于水分子替换时对熵和焓的影响的评估,目前有动力学模拟和神经网络等方法对对接结果进行判断。另外,通过判断暴露在溶剂区的配体基团也是目测策略评估的标准之一,一些明显的疏水基团如果突出在溶剂区通常被认为是不利于结合的,除非他们与蛋白质有相互作用。
在配体与蛋白形成复合物过程中,均需会调整构象彼此契合,据统计约25%的蛋白质在与配体结合过程中具不同程度的诱导契合现象,也有研究提出90%的蛋白质在这一过程中存在旋转异构变化。配体或者蛋白质在这一过程中的能量变化成为应变能,而典型的对接函数并不能计算这一能量项。如图1D所示,由于对接将蛋白视为刚性,常导致配体无法合理与之契合。因此在对接过程中需要考虑其构象的应变,合理的建议是使用对接时将蛋白质视为柔性的,采用柔性对接和利用动力学模拟处理对接后构象。然而高昂的计算代价不适用于大批量的虚拟筛选任务,一般适用于个别的先导化合物的优化。
蛋白-配体复合物的先验知识可以帮助确定对接pose的质量,最直接的方式是通过观测所研究靶点可获得的晶体结构与已知配体结合模式,来评估对接的合理性。有研究表明利用自带配体的复合物来优化对接程序可以提高性能,也有研究表明同源的靶标在结合配体的模式上具有一些共同特征,这一观点可以用于目测决策中。
计算机辅助药物设计中目测决策的运用
目测决策作为实验测试优势化合物前的最后一步,也是计算机筛选最为关键的一步,表1概况了一些研究在目测决策发现亲和配体中所使用的标准,正如前面提到的最常用的标准是配体与结合位点的互补性、疏水作用和氢键作用。而且与特定氨基酸或者辅因子的作用也经常被考虑,这一标准通常基于具有可观测的晶体结构,或者针对同一靶标的不同配体间的比较。构象的扭曲度也在目测决策的考虑范围内,因为对接采样通常将酰胺键和酯键扭曲至不合理构象,而且也无法正确处理顺反异构。
但是与保守水分子或者晶体水分子的相互作用对于配体的选择性很少被提及,化学多样性、新颖性和可获得性也非目测决策的直接考虑范围之内。运用目测决策的研究鲜有详细阐述其判断标准,接下来本文将着重分析在目测决策标准的可行性。Seeliger等利用计算机库对β-内酰胺酶(β-lactamases)和多巴胺D4受体进行超过17亿化合物的虚拟筛选,研究者分析发现在筛选过程中采用了目测决策得到的化合物亲和力远超未使用目测决策的化合物。在药物设计数据资源(Drug Design Data Resource, D3R)比赛上,那些排名靠前的提交任务中,大部分依赖于人为的干预,如表2所示。
人为干预的局限性
虽然人为干预优势明显,但是目测决策局限性也同样突出。尤其明显的是决策者或者团队的专业素养和直觉对于结果的影响巨大,且在有限的时间内只能观测少数的的构象也限制了目测决策的运用,有研究表明在研究化合物数量在100-300范围时,目测决策少于100个化合物是合理的,也有人说目测决策化合物应当在≤1500个范围内,超过这一限制将非常耗时。
此外对接程序固有的缺陷无法单独通过目测决策修正,尤其是诱导契合现象的存在,大批量的对接往往由于效率的考量而将蛋白设为刚性对象,忽视了结构适配和诱导契合。基于此的目测决策也只是在静态视角进行判断。另外,熵损失和去溶剂化自由能也很难通过目测决策评估。简单的打分函数也无法精确计算熵效应和去溶剂化作用,更别说熵和焓之间的代偿效应。因为目测决策的局限性,常需要结合动力学模拟来进行分析。有研究表明在对接后利用动力学模拟和MM/GBS计算可以提高预测亲和力的准确性,但是这一方法也具有案例特异性,无法体现在所有的体系上。当前自由能微扰(Free energy perturbations,FEP)被认为是计算结合自由能最精确的计算方法。尽管这方面的研究一直在进行,一些研究提出了改善计算溶剂化效应的方法,但是Hou等人评估了10款常见的对接程序发现,即使是最好的打分函数也只能鉴别出60%的合理对接构象。
来自计算药物化学家们的观点
前文提到药物化学家在考虑优势化合物时存在明显差异,并不让人意外,因为目测决策考虑的因素是多维度的,为了更为详细的探讨这一问题,本文统计了93为来自学术界和工业界的药物化学家们的观点,其中71位来自学术界,20位来自工业界,另外两位来自非盈利政府机关组织。主要考虑以下三方面:1)参与者的专业和经验;2)目测决策中使用的工具和标准;3)设定了3个复合物结合模式评估的比赛。均通过邮件或者领英在线调查,参与者均在最近发表过基于结构的药物设计相关的同行评议的文章。参与者最多的是计算化学家,其次是药物学家,最后是化学信息学家,参与者超过半数人具有计算机辅助分子设计十年以上的经验,保守估计加起来超过600年!!!参与者对目测决策在药物设计中的重要性给出了评分(1到5),其中给出4分的占29.0%,5分的占64.5%。下图展示了参与者的相关投票。
本文重点分析了目测决策中评估对接pose质量标准的重要性,下图可知形状契合度排位靠前,目测决策中其最容易做出判断是其作为常用考虑标准的原因之一,预测结合模式与晶体结构结合模式的相似性也排列首位,表明参与者认为其与形状契合度同等重要,其次重要的是配体与蛋白结合位点的特定氨基酸的作用。有趣的是工业界的专家认为相似性标准更为重要,且构象限制和未满足杂原子的考虑优先级也高于学术界的专家。
经验丰富的专家和工业界专家更倾向于认为蛋白质中为满足的氢键供体和受体在目测决策中具有较高的考虑优先级。经验丰富的专家在考虑水分子替换的优先级上也高于其他参与者。有趣的是对接分数在优先级打分中排最低,尤其是来自工业界的专家认为对接打分最不重要。可见工具的准确性似乎影响了它在专家们中的欢迎度。
结合模式预测挑战
给专家提出的预测结合模式的挑战中,第一个是(5-吡啶-3-基呋喃-2-基)-甲胺与P450 2A6结合模式预测,其末端氨基位于辅因子下方与Fe离子形成静电相互作用(图A上),使得配体相比于未结合态是pKa明显下降,处于不带电荷状态,且其质子化态促使它由pH8.5向中性转变。为了预测需要,调整了复合物构象,让吡啶环的氮位于金属离子下方参与相互作用后让参与者进行预测,意外的是一些参与将调整后的构象预测为其正确的结合模式(图A下),只有46.2%的参与者正确识别出了原本结合模式。
可以理解,这中氨基的质子化态不常见,且吡啶环也常常参与到CYP450的辅因子相互作用中,脂肪胺的碱性没有芳香胺的碱性高,从而在特定情况下影响了其结合模式。经验较少的参与者更能选择正确pose的也相对少于经验丰富的专家,选择了正确pose的参与者主要考虑吡啶环的N与其他氨基形成的氢键相互作用,以及质子化氨基不适合放置在疏水性的口袋。而采用了MM/GBSA评估的参与者多能正确识别出原本的pose, MM/GBSA可以很好的区分静电作用和疏水作用造成的能量改变。
另外一个例子为1-(5-甲基噻吩-2-基)-3-吡啶-3-基脲与SARS-CoV-2蛋白结合模式的确定。提供了两种结合模式,一种是原本的结合pose(上图B上),另一种是利用Glide SP对接得到的pose(图B下)。在这一案例中,有63.4%的参与者识别出了正确的结合模式,而36.6%的参与者选择了错误的结合模式。而且这案例中,对接结果的均将错误的结合模式识别为原本结合模式,再一次说明不经过目测决策的对接结果的不可靠性。识别出正确结合模式的参与者主要考虑的是性质切合度和与蛋白质主链氢键结合强度,而未识别出正确结合模式的参与者则认为应当考虑配体构象限制和氨基吡啶的移动。而使用了MM/GBSA计算的参与者均正确识别出了原本结合模式,也说明了使用MM/GBSA的优势。
第三个例子是不可逆抑制剂与RORγ结合模式预测,提供了两种相似结合模式供选择,区别在于末端的芳香环的移动,使得原本结合模式中磺胺基团包埋在结合位点(图C上),用对接制作的模式中磺胺基团部分暴露在溶剂区。意外的是虽然大部分参与者识别出了正确的结合模式,但是仍然有40%的参与者选择了错误的结合模式。正确模式的识别有赖于通过目测决策的氢键作用、疏水作用和结构互补性标准的运用,然而选择错误结合模式的参与者认为应当考虑磺胺基团的亲水特性。在这一案例中,对接程序可以很好的识别出正确的结合模式,但是MM/GBSA预测两种结合模式的结合自由能相近,这或许说明其存在两种合理的结合模式,而只是其中一种模式被很好的解析出来而已。
总结
因为对接程序固有的缺陷,使得目测决策在选择优势化合物中至关重要,本文基于药物化学相关分析提出了目测决策所需考虑的标准,并且通过三个例子考验了93位相关领域的专业人士,认为在多数情况下人为干预筛选优势化合物可显著提升筛选对接筛选的精确性。在目测决策的标准中使用的最多的是结构互补性、氢键作用和疏水相互作用。当然也讨论了人为干预的局限性包括可以被正确评估的构象数量、决策者的经验水平、以及蛋白质柔性和去溶剂化效应评估困难几个方面。同时为了给以后讨论这方面的问题打下基础,本文还统计来自相关领域专家在目测决策中考虑的标准的优先级,希望为年轻的研究者提供一些参考。
参考文献
Fischer A, Smieško M,Sellner M, et al. Decision Making in Structure-Based Drug Discovery: VisualInspection of Docking Results [J]. Journal of Medicinal Chemistry, 2021, 64(5):2489-2500.
Wang Z, Sun H, Yao X, et al. Comprehensive evaluation often docking programs on a diverse set of protein–ligand complexes: theprediction accuracy of sampling power and scoring power[J]. Physical ChemistryChemical Physics, 2016, 18(18): 12964-12975.
更多相关阅读可以关注微信号“药研小木子”~