今天我们来学习南开大学药学院林建平教授(学科方向:计算生物学)2022年发表在Briefings in Bioinformatics上的新作“用于天然产物靶标预测的机器学习算法的大规模比较”。
摘要
天然产物(NPs)及其衍生物是药物发现的重要来源。已有许多虚拟预测方法被报道,然而,很少有方法能将NPs与合成分子区分开来。考虑到NPs和合成分子在许多特性上有很大的不同,有必要建立专门的NPs靶点预测模型。因此,我们从公共数据库中收集了NPs及其衍生物的活性数据,构建了四个数据集,包括NPs数据集、NPs及其一级衍生物数据集、NPs及其所有衍生物和ChEMBL26化合物数据集。探讨了包括活性阈值和输入特征在内的八种机器学习方法对NPs靶标预测的性能,包括支持向量机(SVM)、极端梯度提升、随机森林、K近邻、朴素贝叶斯、前馈神经网络(FNN)、卷积神经网络和递归神经网络。因此,选择了NP及其所有衍生数据集来建立最佳的NP专用模型。此外,共识模型以及投票模型也被用来提高预测性能。对外部验证集进行了更多的评估,结果表明:(1)与在ChEMBL26的整个化合物上训练的传统模型相比,NP专用模型在NP的靶标预测上表现更好。(2)FNN+SVM的共识模型拥有最佳的整体性能,投票模型可以显著提高召回率和特异性。
引言
大自然是一个新型生物活性化合物的宝库。在过去的30年中,由天然产物(NPs)和相关分子启发的新化合物比例已经上升到约50%,其中74%集中在抗肿瘤领域。总的来说,NPs的发现深刻地影响了生物学的进步,启发了药物的发现和治疗。
进入21世纪后,技术和科学的进步,包括分析技术、基因组挖掘、工程和培养系统等方面的进步,极大地促进了基于NP的药物发现。最大的NP活性数据库(NPASS)只包含446, 552条定量活性记录。
大多数药物的治疗活性取决于它们与靶点的相互作用,而大约95%的靶点是蛋白质。最近的研究表明,FDA批准的NPs或临床调查的NPs往往靶向多个蛋白质,这被称为多向药理学。因此,在人类蛋白质组水平上系统地确定NPs的靶点将为药物重新定位和减少NPs的毒性提供意想不到的机会。使用传统的实验方法可以获得更多的NPs活性数据,但亲和层析和基于活性的蛋白质分析实验将不可避免地产生高的误报率,而且大多数传统的鉴定NPs靶点的实验方法都很昂贵和费时。因此,迫切需要对NPs的活性靶点进行虚拟预测,以提高效率和节约成本。
目前,许多方法可用于小分子的靶点预测,如反向分子对接、网络药理学和相似性集合方法。基于大量的公共生物活性数据,机器学习和深度学习算法也被提出并广泛用于加速小分子蛋白质靶点的识别过程。这些虚拟方法中的许多也已经在NPs的靶点预测中得到了实践。
NPs在许多方面与合成分子有很大的不同,大致可以总结为以下几点。
(i) 手性碳:与合成小分子相比,NPs含有更大比例的sp3杂化桥头原子和手性中心,而且NPs通常具有更高的立体复杂性。
(ii) 环状系统的多样性。NPs中出现的环状系统只有大约20%可以在上市药物中找到。
(iii) 元素类型。药物和组合分子往往含有更多的含氮、含硫和含卤素的基团,而NPs有更多的氧原子。
(iv) 功能团。NPs与合成药物和组合库在芳香环原子的比例、氢键供体和受体的数量上有很大的不同。
(v) 分子特性。与合成药和组合药相比,NP库具有更广泛的分子特性,如分子质量和辛醇-水分配系数。
据我们所知,目前没有一种方法专门区分NPs和合成分子来进行NPs的靶标预测,也没有对NP靶标预测的方法进行过大规模的比较。为此,我们希望利用多种算法,根据NPs及其衍生物的活性数据,建立NPs的特异性模型,NPs被定义为经过化学修饰的天然化合物或受天然化合物启发的纯合成药用化合物的集合。
在本研究中,我们构建了几个特定的NPs数据集和CHEMBL26的所有化合物数据集,以建立各种机器学习分类模型,评估NPs特定数据集与传统混合数据集在NPs靶标预测任务上的差异。这里共使用了8种机器学习算法,包括标准前馈神经网络(FNN)、卷积神经网络(CNN)、递归神经网络(RNN)、支持向量机(SVM)、天真贝叶斯(NB)、KNN、随机森林(RF)和极限梯度提升(XGBoost)。
方法
数据集构建
原始NPs是从COCONUT中提取的。衍生物是从BindingDB[37]、ChEMBL[38]和PubChem Bioassay[39]中挖掘出来的,根据定义,衍生物是由天然化合物化学修饰而成。我们把直接从NPs修饰出来的化合物定义为一级衍生物,其余的由衍生物和一级衍生物一起重新修饰得到的都是NPs的衍生物。更详细的信息可以在数据收集部分和支持信息的图S3中找到。
为了获得高质量的训练数据集,我们只考虑以IC50、Ki或Kd和nM为单位的针对单个靶标蛋白的检测结果[40]。具体来说,我们保留了被注释为置信度≥4的生化实验[41]。之后,根据Mayr等人[21]的描述,将有定量活性记录的分子根据活性阈值分成四类,即活性、弱活性、非活性和弱非活性。标签的活性阈值如表1所示。活性和非活性的数据被用作训练模型的阳性和阴性样本,标记为弱活性或弱非活性的化合物被额外用作弱数据,以讨论活性阈值的影响。为了保证模型的质量,放弃了标签不明确的化合物-靶标对,并进一步删除了分子数小于100或活性/非活性分子数小于3的靶标[42]。
表1 阈值划分标准
按照上述步骤,我们从ChEMBL26中建立了8个数据集作为训练集,为了更好的区分,我们在有弱化数据的数据集缩写中加入了’Weak’标签,以区别于没有弱化数据的数据集。(1)没有弱化数据的NPs数据集(NPs),(2)没有弱化数据的NPs及其一级衍生物数据集(NPs+Der1),(3)没有弱化数据的NPs及其所有衍生物数据集(NPs+DerALL),(4)没有弱化数据的ChEMBL26的整个化合物数据集(ChEMBL26)。(5)有弱化数据的NPs数据集(Weak NPs),(6)有弱化数据的NPs及其一级衍生物数据集(Weak NPs+Der1),(7)有弱化数据的NPs及其所有衍生物数据集(Weak NPs+DerALL)以及(8)有弱化数据的ChEMBL26的整个化合物数据集(Weak ChEMBL26)。
此外,我们还使用ChEMBL29、NPASS、BindingDB和PubChem Assays构建了一个外部验证集,并删除与训练数据集重叠的靶标-化合物对。
分子指纹
在这项研究中,三种二元指纹,扩展连接性指纹(ECFP)、功能连接性指纹(FCFP)和分子访问系统(MACCS)被用作化学描述符。
聚类交叉验证
聚类交叉验证是当今流行的数据划分方案,即在划分训练集和测试集之前,根据化学相似性对化合物进行聚类[45]。在实验中,我们提前对化合物进行聚类,并进行3倍交叉验证,以评估模型的性能。为了防止相似的数据点同时落入训练集和测试集,所有的分子首先通过single linkage algorithm进行聚类。Jaccard距离(使用半径为2的二值化摩根指纹)被用于测量任何两个化合物之间的距离,最小距离被设定为0.3。在下一步中,属于同一聚类的分子被随机分配到3折中的一个。我们还比较了聚类交叉验证和随机交叉验证的性能(见表S12)。
嵌套交叉验证
为了得到公平的评价,对参数的调整进行了嵌套交叉验证。对于嵌套交叉验证,训练数据被分成两部分:内部和外部。在内层循环中尝试了不同的超参数组合,以评估哪个超参数能达到最佳性能。表S1、S2和表S9列出了RF和XGBoost的超参数以及性能比较,具体包括默认参数和选定超参数。然后,选定的超参数被用于外部循环,以获得每个fold的模型,这可以避免性能评估的超参数选择偏差。 这里计算了接受者操作特征的曲线下面积(AUC)来评估模型的性能。对于每个超参数组合,我们从内循环获得AUC值,以两个内循环的平均AUC值为标准,为相应的外循环选择最佳的超参数组合。最后,我们通过计算三个外循环的AUC值的平均值来总结,得到最真实的模型性能评价结果。同时,通过计算嵌套聚类交叉验证法[22]的六个内循环的平均AUC值,确认了最佳的超参数组合,然后用于在所有数据上训练最终模型。
机器学习方法
我们比较了八种机器学习架构对NP靶标鉴定的预测性能,包括三种深度学习方法(FNN、CNN和RNN)和五种传统机器学习方法(SVM、XGBoost、RF、KNN和NB)。
NB已被广泛用于靶标预测,并被列为baseline方法。SVM和KNN是典型的基于相似性的分类方法,RF和XGBoost是有代表性的基于特征的分类方法,而XGBoost实现了梯度树提升。
深度学习方法最近在靶标预测中获得了极大的关注,本研究中考虑了三种代表性的深度神经网络架构。其中,FNN遵循标准的前馈架构,采用矢量输入;CNN在图像处理方面具有优势,并在卷积层中模仿其特征;RNN使用存储块的循环连接来处理序列数据。每种算法的细节都在辅助资料中提供。评估机器学习算法在不同数据集上的预测性能的整体工作流程见图1。
图1. 评估机器学习算法在不同数据集上的预测性能的整体工作流程。
结果与讨论
数据集
我们准备了八个不同的数据集和一个外部验证集来评估NP靶标预测模型。每个数据集的统计数字可在表2中找到。ChEMBL26共有899个靶标蛋白(具有数量不等的数据点)被确定。这些靶标包含100到7086个独特的化合物,平均数为795,中位数为410,第一四分位数为191。最小的数据集,NPs,包含26个靶标。NPs的最小、最大、平均、中位数和第一四分位数的数据点分别为100、592、174、148和122。详细资料见补充材料。
指纹选择
CNN和RNN分别采用了分子图和SMILES字符串,而其余六种算法则采用分子指纹作为输入。
一般来说,分子指纹的选择会影响基于配体的靶标预测模型的性能[47]。在此,我们使用六种机器学习方法(FNNN.SVM、RF、KNN、NB和XGBoost)估计了三种指纹(ECFP6、FCFP6和MACCS)以及它们的组合(ECFP6+FCFP6、ECFP6+MACCS、FCFP6+MACCS和ECFP6+FCFP6+MACCS)。SVM、RF、KNN、NB和XGBoost)对六个数据集进行了研究,包括NPs、NPs+Der1、ChEMBL26、Weak NPs、Weak NPs+Der1和Weak ChEMBL26。我们将NPs、NPs+Der1和ChEMBL26的26个重叠靶标用来比较。相应地,弱NPs、弱NPs+Der1和弱ChEMBL26的37个重叠靶标也被讨论。
表3列出了ChEMBL26的结果,其他五个数据集的结果可以在补充表S3-S7中找到(https://academic.oup.com/bib)。如表3所示,使用ECFP6+MACCS+FCFP6的模型的平均AUC值在六种机器学习方法中的四种中排名第一。 就其他五个数据集而言,ECFP6+MACCS+FCFP6在Weak NPs+Der1(补充表S6,可在https://academic.oup.com/bib)和Weak ChEMBL26(补充表S7,可在https://academic. oup.com/bib)上表现最好。ECFP6+MACCS+FCFP6在NPs(补充表S3可在https:// academic.oup.com/bib)、Weak NPs(补充表S4可在https://academic.oup.com/bib)和NPs+Der1(补充表S5可在https://academic. oup.com/bib)上的表现不佳,可能是由于数据集太小,带来的评价相对不明显、不稳定和有偏差。**此外,无论哪个数据集,不同指纹的组合总是比某一特定指纹的表现更好。**总的来说,使用包含更多分子特性的组合指纹会产生更好的性能。因此,ECFP6+MACCS+FCFP6被选为最佳指纹组合,并被选为以下训练工作的输入特征。
表3. ChEMBL26上不同靶标预测方法的性能比较;该表给出了所比较的算法和特征类别或输入类型的AUC值的平均值和SD;排名第一的AUC值被标记为粗体字
图选择
在CNN的情况下,ConvMolFeaturizer和WeaveFeaturizer作为输入特征被比较,它们分别被称为GC和Weave。详细的比较结果列于表4。根据AUC值,GC在六个数据集上的表现优于Weave。因此,GC被应用于后续工作中。
表4. 有和无weakly数据集的GC和Weave的AUC值的平均值和SDs
活性阈值的选择
在某些情况下,现有的研究使用传统的机器学习来处理去除弱活性的数据,并考虑用深度学习来区分弱活性区域的数据[21, 40, 48]。**由于NPs经常以弱结合的方式与多个靶标相互作用[49-52],所以NPs有必要讨论弱活性数据的影响。**因此,我们采用了两种数据集划分方法,探讨是直接选择某个阈值还是排除weakly数据点更好。八种算法(FNN、GC SVM、RF、KNN、NB、XGBoost和LSTM)的结果在图2中以boxplot显示。**每个boxplot中的橙色线代表八个模型的AUC中值。**从图2中可以看出,排除弱活性数据的模型(蓝色方框)产生的AUC中值(方框中的橙色线条)明显高于包含弱活性数据的模型(绿色方框)。在没有特别说明的情况下,后期评估中的所有模型都默认为使用排除弱活性数据的数据集。
图2. weakly数据和no weakly数据对NPs, NPs+Der1和 ChEMBL26性能的影响
大范围的比较
在确定了小范围的交叉靶标(没有weakly data的数据集有26个靶标,有weakly data的数据集有37个靶标)的输入特征和活性阈值后,我们在四个有整体靶标的数据集(有899个靶标的ChEMBL26、有470个靶标的NPs+DerALL、有150个靶标的NPs+Der1和有26个靶标的NPs)的较大基准上比较了8种算法的训练结果。八种算法在四个数据集中的AUC值的平均值和标准差(SDs)见表5。可以发现,FNN表现最好,在三个数据集中的平均AUC值最高(表5中标为黑体字),这与Mayr等人[21]的工作一致,即深度学习方法明显优于所有竞争方法。此外,我们发现FNN、GC、SVM和RF表现稳定,平均AUC值>0.8,LSTM、XGBoost和KNN在小数据集(NPs和NPs+Der1)中表现不佳,而NB在所有数据集中总是表现不佳。我们还在ChEMBL29基准上用更多的超参数训练模型,结果与使用ChEMBL26数据库构建的模型相似,见表S10,S11。
表5. 八种方法在四个数据集中的AUC值的平均值和SD,排名第一的AUC值被标记为粗体字
我们还讨论了某一算法在不同数据集上的靶标预测结果。**为了公平起见,我们采取了不同数据集的相交数据进行进一步的比较。**例如,ChEMBL26、NPs+DerALL和NPs+Der有26个靶标与NPs相交;ChEMBL26和NPs+DerALL有150个靶标与NPs+Der1相交,ChEMBL26有463个靶标与NPs+DerALL相交。根据AUC值,我们比较了NPs+DerALL、NPs+Der1和NPs与ChEMBL26在每个靶标上的表现,然后将AUC值高于ChEMBL26的靶标数量计算为较好数量,而AUC值较低或相等的靶标则分别称为较差数量和相等数量。 表6显示了FNN、GC、SVM和RF的结果,KNN、NB、XGBoost和LSTM的结果可以在补充表S8中找到,可在https://academic.oup.com/bib。对于FNN,在26个NPs目标中,有2个目标的AUC值比ChEMBL26的高。这个数字在NPs+Der1上从2增加到12,然后增加到15,这超过了26个NPs目标的一半。对于NPs+Der1的150个目标,有更多的目标(50个)呈现出更好的AUC值。而NPs+DerALL的150个目标中有83个超过了ChEMBL26的标准。需要注意的是,在四种稳定的机器学习方法中,NPs+DerALL数据集有三个比ChEMBL26更好的目标。从以上结果可以看出,NPs+DerALL、NPs+Der1和数据量少于ChEMBL26的NPs仍然可以获得更高层次的模型,这说明NP-特定数据集的巨大潜力。
表6. 与ChEMBL26中相同靶标的NPs+DerALL、NPs+Der1和NPs的较好和较差靶标统计数
以前的工作表明,训练集的数量增加,模型的性能就会提高[21, 53, 54]。我们还调查了数据集大小和性能之间的相关性。我们为所有模型绘制了数据大小与AUC值的散点图。如图3所示,从左到右,AUC的分布越来越接近顶部,表明更大的训练集会带来更好的预测结果。这与以前的工作[55-59]一致。特别是当数据量达到103-104时,AUC值集中在0.8∼1的范围内,这是一个相对较高和稳定的水平。总的来说,NPs(绿点)和NPs+Der1(蓝点)很难达到稳定的数据量,而NPs+DerALL(黄点)符合这一要求,因此得到了比ChEMBL26更好的性能。因此,我们认为,当未来的数据集足够时,NP-特定的数据集将有可能得到更好的NP靶点预测模型,而不是用拥有更多数据的所有ChEMBL分子的混合数据集建立的模型。
外部验证
一些研究证明了in-sample和out-of-sample测试对之间交叉验证的性能差异。为了更好地评估模型,我们建立了没有训练样本的外部验证集,并将其用于在所有数据上训练的最终模型。考虑到NPs和NPs+Der1的大多数靶标在训练集和外部验证集的数据都非常少,而且数据分布不均匀,所以只在外部验证集上比较了NPs+DerALL和ChEMBL26的性能。
首先,将基于嵌套聚类交叉验证的内部验证结果与外部验证结果进行比较,以评价我们模型的泛化能力。NPs+DerALL的结果显示在图4中。如图所示,这些模型的内部验证(绿框)和外部验证(蓝框)的结果显示了相当的性能,而且在大多数时候,外部验证拥有比内部验证更高的AUC中值(框中的橙色线)。因此,我们的训练模型具有良好的稳健性。
图4. 模型本身的AUC值与外部验证的对比。
接下来,我们评估了用NPs+DerALL建立的NP特异性模型是否比用ChEMBL26的所有混合分子建立的传统模型在NP靶标预测方面表现更好。由于数据量的限制,一些靶点的AUC值无法计算,因此我们挑选出NPs+DerALL和ChEMBL26中具有完整估计值的交叉靶点。最后选择了192个靶点(表7),这192个靶点的细节可以在补充材料中找到。
考虑到外部验证集的大小对模型的估计也有很大的影响,我们进一步分析了数据分布和AUC值的相关性,这些都显示在图5中。 结果显示,当外部验证集中一个靶标的数据量大于100时,大多数模型的性能可以达到可靠的水平,AUC值大于0.8。相反,结果就非常混乱。因此,在下面的讨论中,只探讨了化合物数量大于100的靶标。
图5. 外部验证集的数据量与八个不同模型的性能之间的关系。数据量为100的蓝色虚线区分了结果稳定或不稳定的模型。
表8显示了数据量大于100的较好、较差和相等靶标的数量图。在这种情况下,NPs+DerALL的靶标相对来说比ChEMBL26表现更好。此外,8种方法对外部数据量大于100的靶标的AUC值的平均值和SD值进行了统计,这些数据列在表9中。FNN和LSTM在NPs+DerALL上获得了更好的表现,NPs+DerALL的FNN模型表现最好,AUC值最高为0.944。 对于其他方法,NP+DerALL上的平均AUC值与ChEMBL26上的结果非常接近。总之,NPs专用模型(NPs+DerALL)能够对NPs及其衍生物的靶标预测产生更好的预测能力。
表8. 基于外部验证集的13个靶标(有100多个化合物)的较好、较差和相同靶标的统计结果
共识模型
通过结合多个学习器的集成方法通常可以获得比单一学习器更好的泛化性能。因此,我们结合了八个不同的模型来建立NP靶标预测的共识模型,并在外部验证集上评估它们的性能。平均概率被用作两种算法组合(共28个)或三种算法组合(共56个)的共识模型的预测分数。 八个性能测量指标,包括AUC、PR曲线下面积(AP)、准确性、精确性、特异性、F1-分数、kappa和召回率,被用来估计不同共识模型在靶标预测工作中的整体性能。部分结果显示在图6中,其余结果显示在补充图S1中,可在线查阅https://academic.oup.com/bib。共识模型的完整评估结果可以在补充材料中找到。
图6. 两个组合模型的AUC、AP、F1-score和kappa值。红色标准线代表单个模型的最佳值。
对于两种算法组合的模型,GC+SVM的AUC排名第一。FNN+SVM在AP和F1分数上排名第一,FNN+GC在Kappa和准确性上排名第一,FNN+KNN在精确度和特异性上排名第一,而LSTM + XGBoost在召回率上排名第一。因此,不同的共识模型有其优势。 但从综合来看,FNN+SVM的8个指标(AP、kappa、准确率、精确度和F1-score)中有5个指标排名第一或第二,这表明FNN+SVM的整体性能最好。 对于三算法组合的模型(补充图S2可在https://academic.oup.com/bib),FNN+GC+XGBoost在五个指标(准确率、AP、精确度、F1分数和kappa)上表现最好。但是,在不包括准确率和AP的六个指标上,最好的两种算法组合的模型要优于最好的三种算法组合的模型。 因此,总的来说,FNN+SVM拥有最好的综合性能,这种共识模型确实比单一模型提高了多种评价方法的得分,从而突出了集合方法在NP靶标捕捞方面的综合优势。
多重投票法
投票法是另一种集合技术。我们使用投票法,通过组合八种算法来预测NP的靶标。结果列于表10。如果我们考虑1次投票(Vote_1方案),只有在一个或多个模型给出正面标签的情况下才会给出正面标签。而Vote_8方案要求所有八个模型都贴上正面标签。 虽然投票模型在大多数指标上表现不佳,但投票_1模型的召回率最高,为0.927,当我们想找到更多的候选靶标时,这是一个不错的选择。 另一方面,Vote_8模型的特异性最高,从0.725(单一模型中最好的)大幅提高到0.923,这表明它在提高真阴性率方面有很大能力。换句话说,如果它的目的是准确地排除对分子没有影响的靶标,则需要更多的投票。
表10. 8个模型在准确度、精确度、特异性、平衡平均数(F1-分数)、一致性检验指数(kappa)和召回率方面的投票结果和单一模型结果;各指标的前1名被标为黑体字
结论
NPs是宝贵的药物资源,对NPs活性的研究,特别是对特定靶点的发现,对NPs的发展非常重要。随着数据的增加,各种算法已成功应用于分子靶点预测,但考虑到NPs与合成分子的特性存在明显差异,构建针对NPs的预测模型具有明显的必要性。因此,我们收集了NPs及其衍生物的活性数据,建立了NPs、NPs+Der1和NPs+DerALL三个特定的数据集。采用多种机器学习方法,包括SVM、XGBoost、RF、KNN、NB、FNN、CNN和RNN,构建了NPs特定的靶标预测模型,然后与ChEMBL26构建的传统模型进行比较。
我们首先讨论了输入特征、活性阈值对不同数据集的影响,并采用多种算法。结果显示,ECFP6+MACCS+FCFP6指纹的组合具有更全面的性能,因为它具有整合不同单一指纹的更多分子信息的优势。对于CNN,ConvMolFeaturizer比WeaveFeaturizer做得更好。而且,排除弱活性数据的模型比含有弱活性数据的模型表现更好。然后,上述获得的最佳条件被用于下一次在不同数据集(NPs、NPs+Der1、NPs+DerALL和ChEMBL26)上对多种算法的大规模比较。首先,深度学习方法FNN表现最好,在大多数数据集上的平均AUC值最高。其次,虽然NPs和NPs+Der1的模型性能较差并且不稳定(受数据量限制),但NPs+DerALL在大多数算法上拥有比ChEMBL26更好的预测能力。然后,我们将基于NPs+DerALL的预测模型作为有代表性的NP专用模型,在外部验证集上评估其性能。 一方面,外部验证的AUC值与内部验证的结果相当,这表明我们的模型具有良好的泛化能力。另一方面,当验证集的数量足够多时(每个靶标的化合物数>100),用NPs+DerALL建立的模型拥有比ChEMBL26更好的分类能力和稳健性。此外,在共识模型中,FNN和SVM的组合表现最好,与单一算法相比,在多个评价指标上的得分都有提高。本工作中还应用了另一种集合方法,即采取不同算法的投票。结果显示,投票数越少,召回率越高,因此可以用较少的票数来获得更多的候选靶标。相反,我们采取的投票越多,我们得到的特异性就越好,表明更多的投票可以排除更多不可能的靶标。
总而言之,针对NP的模型更适合于NPs的靶标预测,而整合方法可以进一步提高预测的各种指标,同时可以根据不同的要求选择不同类型的集合方法。