J. Med. Chem. | 通过负向设计优化筛选化合物库

 


今天给大家介绍的是2020年1月在Journal of Medicinal Chemistry上发表的综述“Application of Negative Design To Design a More Desirable Virtual Screening Library”。在药物研发前期,先导化合物的发现和优化与筛选化合物库的质量息息相关。为了提高研发成功率,降低不必要成本,一系列旨在筛去含有不期望性质或结构的化合物规则或模型被开发并应用,这类设计被称为“负向设计”(Negative Design)。本综述对负向设计的三个方面:类药性(Drug-likeness)、频繁命中化合物(Frequent hitters)和毒性(Toxicity)进行简单介绍,同时对现常用的模型或规则和其未来发展方向进行讨论分析。

J. Med. Chem. | 通过负向设计优化筛选化合物库_第1张图片

简介

在药物研发前期,高通量筛选(HTS)和虚拟筛选(VS)被广泛用于先导化合物的发现;然而大量数据表明,这些筛选方法的最终成功率仅有0.5%。化合物库中存在的低类药性、低选择性和潜在毒性的分子是失败的主要原因,此外,一些通过干扰实验条件,造成假阳性结果的化合物也极大的降低了研发效率。为了提高研发成功率,降低不必要成本,一系列用于设计高质量数据库的模型或规则被开发并应用于研究,这类设计被称为“负向设计”(Negative Design)。

与常用的正向设计方法不同,负向设计主要研究如何有效的删除化合物库中存在的含有不期望性质或结构的化合物或者噪音分子。只有将这些不希望化合物或者噪音分子去除后,剩余的数据才能够根据我们期望的模型预测的顺序呈现规律性。根据负向设计筛选目的和具体性质,可以分为类药性、频繁命中化合物和毒性,其分别和药物分子的潜力、选择性和安全性相关。图1是正向设计及负向设计的概念图。现今最著名的负向设计就是成药五规则(Ro5),由辉瑞公司Lipinski于1997年提出,规则中包括1.分子量小于500;2.氢键给体数目小于5;3.氢键受体数目小于10;4.脂水分配系数小于5;5.可旋转键的数量不超过10个。Lipinski认为若一个分子违反两条以上的规则,则其口服吸收较差,不适用于后续药物研发。Ro5筛选规则与机器模型相比,其概念的简单性及对计算的低要求性使得其在药物研发中广泛应用。相关研究表明,Ro5规则的应用对于药物研发效率提高了20%以上,但与此同时,这些规则也面临不灵活性、非连续性和难决策性的困境。此外,由于类药性和毒性规则来源于对数据的总结,药物研发整体物化性质的改变也影响着规则的适用性。因此,为了更深入的了解负向设计和相关使用策略,本文对现有的类药性(Drug-likeness)、频繁命中化合物(Frequent hitters)和毒性(Toxicity)相关筛选规则和模型进行了一个回顾分析,同时对负向设计未来的发展方向进行了讨论。

J. Med. Chem. | 通过负向设计优化筛选化合物库_第2张图片 图1负向设计和正向设计筛选概念图

 

类药性

类药性主要定义为对药物简单的物化性质和结构特征对于药物在人体中药物动力和药物效益的影响,主要体现在溶解性,渗透性,代谢稳定性和运输效率。除了分子类药性,类先导化合物性和子结构潜力性也是研究重点。先导化合物是指能够与靶点有较好亲和力的配体,其具有一些利于后续发展的分子性质:较为简单的物化性质,一个较好的结构活性关系以及较好的ADMET性质。与药物及药物候选物相比,先导化合物的分子复杂性更低,即分子质量更小,分子中环的数目更少和分子中旋转键的个数和比例更少;脂溶性更低,即脂水分配系数的值更低。对于子结构潜力性,其主要是针对分子官能团、分子核心结构以及分子骨架进行分析。子结构主要运用在基于片段的药物设计中,是现今药物研发的一大重要手段。过去针对药物分子的研究中发现,对于药物分子总结中,大约只有32个不同分子骨架,以上数据表明药物分子具有一定结构相似性。虽然子结构潜力性规则相较类药性和类先导化合物性有着更多的应用限制,但是这类规则对于药物化学家们开发新型药物具有启迪性。现有的类药性规则主要是针对药物的物化性质进行的筛选,而物化性质筛选规则一方面要求对于不同物化性质对药物活性影响具有深刻理解,另一方面也要求对于药物性质的描述选用合适的特征,例如分子质量,脂水分配系数等。事实上,随着时间变化,药物的物化性质分布也发生着巨大变化。以口服药物为例,平均相对分子质量从1950年的300Da增长至2010年的420Da;平均脂水分配系数从1950年的2.5小幅增长为2010年的3.3。为了进一步了解不同时间段规则对化合物筛选要求,作者对不同的类药性规则中相对分子质量、脂水分配系数、氢键供体及氢键受体和旋转键数的范围进行了总结(图2)。

J. Med. Chem. | 通过负向设计优化筛选化合物库_第3张图片 图2不同类药性规则中(A)相对分子质量、(B)脂水分配系数、(C)氢键供体及氢键受体和(D)旋转键数范围的总结

 

2.1相对分子质量

分子大小对于ADME性质有着直接影响。有文献报道称,当相对分子质量持续增加超过400Da后,化合物的生物利用度会显著降低。如图2A所示,子结构规则的上限约为350Da,类药性和先导化合物规则上限约为500Da。

然而,这些类药性规则仅适用于简单口服小分子药物,对于其他给药方式的化合物或者大分子类化合物并不适用。例如天然药物,其与一般小分子不同,具有分子量大,多环,结构特殊等特点。天然药物及传统中药是当代药物研发的重要方向和重要实践,在关于癌症,感染性疾病及免疫系统相关疾病的批准药物中,有65%的药物都是天然药物或天然产物相关药物。抗疟特效药青蒿素及抗癌药康莱特也是分别来自中药薏苡仁和复合花序植物黄花蒿茎叶。鉴于大分子在药物研发的潜力和临床治疗效果,在2016年,Doak首次对分子量超过500大分子进行类药规则研究。研究中发现,在进入临床I期、临床II期、临床III期和已上市批准的280个大分子中,天然产物占总分子数的30%左右,其主要给药途径是通过肠道给药。符合bRo5规则的大分子化合物,其构型及与结合靶点形状都与普通小分子不同,奇异的构型使得它们对于呈现大平面、沟渠状的新型靶点,例如蛋白激酶,转运蛋白和异构酶等更具吸引力。最后总结出的bRo5规则相较于原有的Ro5规则,放大了对物化性质的约束:分子量小于1000 Da,脂水分配系数大于-2小于10,氢键供体数目小于6,氢键受体数目小于15,分子极化表面积小于250 Å 2,选择键数目小于20的分子则认为其具有成药性。bRo5规则是对适用于天然药物的成药性规则研究的重要一步。

2.2 其他重要物理性质

脂水分配系数直接反映了一个分子的脂溶性的高低。脂溶性被普遍认为和药物潜力、选择性及毒性有着密切联系。脂溶性较高的分子易于大量靶点结合从而导致选择性较低,但脂溶性较低的分子在代谢和清除方面会存在障碍。如图2B所示,子结构规则的上限约为2,类药性和先导化合物规则上限约为5。氢键供体和受体对于药物膜渗透和肠道吸收有着重要作用,此外,氢键也是药物与靶点相互作用的重要组成。如图2C所示,对于子结构筛选,氢键供体和受体上限都为4;对于先导化合物筛选,氢键供体和受体上限分别为5和8;对于成药性规则,氢键供体和受体上限分别为5和10。旋转键数目是对分子灵活性的一个重要评价指标。分子中旋转键数目的多少甚至会影响氢键键能。如图2D所示,大部分规则旋转键数上限为20,少部分针对大分子筛选规则的上限为40。

2.3 成药物期望得分

常用的类药性规则只有一个定性判断,对于多因素决策提供依据较少,因此研究者们开始研究针对成药性的定量分析。其中较为常用的就是QED(quantitative estimate of drug-likeness)。在2012年, Bickerton等人建立了一个可以定量描述药物类药性的规则QED,其主要是针对脂水分配系数系数,氢键受体,氢键供体,极性分子表面积,分子旋转键个数,分子脂环数目以及分子中不期望子结构个数六种分子性质建立期望度打分值。这些打分值是对771个已批准上市的药物分子为基准设计的。给出的分数从0到1,从最差类药性到最好类药性,打破了类药规则非黑即白的结果。针对大分子化合物规则bRo5,在2018年,Degoey对其进行了更进一步改进,转化为一个定量的分数。该研究发现,将被查询分子的在PH为7条件下的脂水分配系数,选择键数目和芳香性环数目作为参数,代入算式AB-MPS = Abs (clogD − 3) + NAr + Nrob 算出其相应AB-MPS值,该值越小,则其在体内容易吸收的可能性越大;当AB-MPS值小于14时,则该查询分子能有较高的口服吸收度。类似的打分函数还有ABS score、Qscore、MPO、BBBScore等。

 

频繁命中化合物

高通量筛选方法广泛应用于药物研发,但研究中发现大量化合物在不同类型靶点筛选中都呈现出阳性结果,这类化合物称为“频繁命中化合物”。频繁命中化合物产生机制较多,主要是非特异性成键反应或是对实验试剂的干扰。需要注意的是,并非所有频繁命中化合物都是不期望的(图3)。本文主要介绍PAINS、胶体聚集化合物及混乱化合物。

J. Med. Chem. | 通过负向设计优化筛选化合物库_第4张图片 图3 频繁命中化合物关系图

 

3.1 PAINS

2010年,Baell等人在基于六个不同靶点AlphaScreen高通量筛选实验结果,并将其中频繁出现(≥4次)的化合物和相关结构总结为包含480个子结构的筛选规则PAINS(Pan-assay interference compounds)。这篇文章在Google Scholarship的引用次数已经超过1800次,药学领域权威杂志《Journal of Medicinal Chemistry》要求作者在提交论文时必须附带研究分子通过PAINS筛选规则的结果,对于含有PAINS子结构的化合物需要提供实验数据证明该化合物不是频繁命中化合物。但PAINS规则也有很大局限性,例如,480个子结构主要是来源于六种不同靶点的筛选结果,其中328个子结构(68%)来源于四个或低于四个化合物。另外,由于在实验前将所有环氧化合物、氮杂环丙烷和硝基相关化合物从数据库中删去,PAINS规则对于氮丙啶和硝基烯烃类等亲电集团的筛选能力欠缺。此外,PAINS规则中既包含一些易反应化合物碎片,也包含特定检测技术干扰化合物碎片,这使得如何合理应用PAINS筛选结果成为一个难题。在2014年和2016年,Schorpp等人针对His蛋白和GSK蛋白的AlphaScreen高通量筛选实验结果进行研究,分别发现19个His蛋白频繁命中化合物、6个AlphaScreen干扰化合物、34个GST蛋白频繁命中化合物和53个频繁命中化合物碎片。

 

3.2 胶体聚集化合物

胶体聚集化合物是频繁命中化合物的重要组成。Ferreira et al.在对假阳性背后机制的研究中发现,88%的假阳性结果是由于胶体聚集化合物引起的。而在另一个针对β-lactamase实验中发现,胶体聚集化合物引起的假阳性结果高达95%,而试验中的真阳性结果只占整体结果的5%。胶体聚集化合物是由小分子在溶液中聚集形成的半径60—300 nm的聚集体,其能够与蛋白表面非特异性结合,诱导蛋白质发生部分折叠,从而使得蛋白质失活。常用的实验检测手段是在溶液中加入0.01-0.1% Triton X-100 或其他非离子型表面活性剂,但部分化合物在加入后仍能发生胶体聚集现象。关于现有的计算机筛选模型,Irwin等人收集12,600个胶体聚集化合物并建立一个基于聚集化合物结构相似性和脂水分配系数来预测胶体聚集化合物的规则Aggregator Advisor,但是由于建模方法较简单,这些规则预测结果的准确性受到限制。针对Aggregator Advisor的不足,作者所在课题组采用RandomForest和XGBoost算法结合多种描述符建立一个高效准确的预测模型,并开发成为网页预测工具ChemAGG。

3.3 混乱化合物

混乱化合物指能与许多不同靶点特异性成键的化合物,由于其在物化性质和结构方面都展示出高度变化性,其预测的难度较高。考虑到实验检测方法的限制,一些基于计算机的筛选规则运用于频繁命中化合物的筛选。Hajduk等人通过一种核磁共振技术检测硫醇反应化合物,并将这些易反应化合物中的子结构总结成一套ALARM NMR筛选规则。但在实际应用中,ALARM NMR规则预测中的假阳性结果较高。在2012年,Lilly公司基于多年药物研发数据,结合药物化学家研究经验,总结出共275个子结构筛选规则。这类规则涵盖17种常见易反应结构和干扰机制,并且提供相应的软件包供大众下载使用。在2016年,Yang等人发现:除了子结构,一些FH也具有相同或相似的骨架,例如2-氨基噻唑骨架化合物发现在测试的14个实验中均表现为阳性结果,之后其基于PubChem数据库中大量实验数据开发一种通过分子骨架预测化合物为FH可能性的方法Badapple,并根据预测分数将化合物分为非混乱化合物、低混乱化合物和高混乱化合物。

有趣的是,一项研究关注在高通量筛选中从未击中的化合物,称为DCM(dark chemical matter)。这类化合物与频繁命中化合物相反,在超过100次不同靶点的筛选中都未表现出活性。鉴于这类化合物的高度选择性,DCM常被用作频繁命中化合物建模中的负集或外部测试集。

毒性

由于分子毒性会导致研究费用的上升,研究后续的失败以及药物撤市等不良后果,毒性对于药物研发早期需要考虑的一个非常重要的性质。在临床前研究阶段,与毒性或者安全性相关的失败占总失败的54%以上;对于以及批准上市的药物,在1975年至2009年中,有748个新研究化合物被FDA批准上市,其中15.2%收到超过一次的黑箱警告,4.3%的批准药物由于安全性问题被撤市。因此,以上数据表明在药物研发前期,对于潜在的含有毒性的药物进行筛选淘汰是降低药物研发成本,提高药物研发成果率的重要途径之一。考虑到筛选规则的易解释性和高效性,基于子结构的毒性筛选规则广泛用于药物筛选中。例如,针对药物分子的致癌性,James 和其同事发现那些含有亲电集团,或者容易在反应后成为亲电集团的化合物更容易产生致癌毒性,由此Bailey实验小组在基于对含有致癌性分子结构总结的基础上,提出了33个子结构用于对可能含有致癌毒性分子的筛选。对于皮肤毒性,即药物分子对皮肤有侵蚀、灼伤或腐蚀作用的毒副作用。关于药物皮肤毒性的确认,之前是采用动物实验的方法进行筛选。随着对于实验成本和实验伦理的考虑,皮肤毒性筛选规则逐渐成为了药物化学家们青睐的方法。Barratt实验组基于294个分子的皮肤毒性实验数据,总结出40个结构毒性规则并建立预测平台DEREK。Payne对于低分子的皮肤毒性进行深入研究,发现包含皮肤蛋白烷基化剂、皮肤蛋白芳基化剂、皮肤蛋白酰化/磺化剂、michael加成电泳物和前体、硫醇交换化合物、自由基反应物和代谢反应分子更容易具有皮肤毒性。对于代谢毒性,即由于分子在体内代谢后(例如经过细胞色素P450催化代谢后),分子本不具有毒性却代谢后产生毒副作用的性质。这类毒性也被认为是与现今的特异性药物反应毒性(IADRs)相关联的。特异性药物反应毒性指的是一些预料之外的、能发生在不同剂量下的,难以用常用药理知识解释的分子毒性。因此此类毒性筛选规则具有重要意义。Park等人总结了以前的毒性结构筛选规则,发现有一些结构频频与严重分子毒性作用联系,包括苯胺类和苯胺类、芳基乙酸和芳基脯氨酸酸、肼类和肼类、噻吩类、硝基芳烃类和包含或形成α的结构,β-不饱和烯醛和/或烯酮样结构,包括醌和醌甲酰胺等子结构,这些发现对于预测和避免特异性药物反应毒性具有重要意义。

 

讨论及结论

负向设计是前人根据药物开发经验,结合现今上市药物或临床研究分子数据的高度总结,其相关应用对于后续药物研发具有积极作用。但是需要注意的是,负向设计是针对药物研发前期,对于药物整体的一个性质评价。如果严格按照规则筛选结果,则会大大降低药物结构的特异性和可选择性。因此,在具体实际应用时,负向设计筛选结果更应该看做是一个标记特征,预测较差的化合物如果对于靶点有着较强的活性,则后续研究需要关注相关基团或者分子性质的改善。同时,可以参考一些综合网站的预测结果,例如FAF-Drugs4,Hit-Dexter2 ,ADMETlab,ADMETopt, eToxPred,ToxPi和Protox-II 等,对于提高研发效率,提高研发成功率将有重要作用(表1)。

J. Med. Chem. | 通过负向设计优化筛选化合物库_第5张图片

表1

药物研发是一个漫长、复杂和多因素影响的研究过程。为了实现高效有意义的药物研发和新药合成,一系列计算机辅助药物设计方法及模型广泛应用,并为药物化学家们提供可靠建议。其中,负向设计是一种应用于药物研发前期,除去还有不期望物化性质,快速高效的虚拟筛选方法。根据其筛选目的和具体性质,可以分为类药性、频繁命中化合物和毒性,其分别和药物分子的潜力、选择性和安全性相关。负向设计主要是针对物化性质和(或)特殊子结构进行的筛选方法,其具有简单性和易解释性,同时也拥有不灵活性、非连续性和难决策性的缺陷。因此,为了在药物研发前期将具有不期望性质或毒副作用较大的化合物提前筛除,留下更具潜力和开发价值的药物分子,负向设计还需要进一步发展。我们相信,发展并合理应用负向设计能够使我们的药物研发之路走得更好更远,能够真正实现有效合理研发潜力药物。

 

Manuscript availability

https://pubs.acs.org/doi/10.1021/acs.jmedchem.9b01476

参考资料

Ziyi Yang, Junhong He et al. Application of Negative Design To Design a More Desirable Virtual Screening Library. Journal of Medicinal Chemistry2020.

https://doi.org/10.1021/acs.jmedchem.9b01476

 

你可能感兴趣的:(DrugAI)