【ZT】汉堡大学Rarey课题组JCIM发表观点:当虚拟筛选遇上机器学习,我们的初心是啥?

文章来源:微信公众号 - ComputArt计算有乐趣 2019-5-28

近年来大数据和机器学习方面的突破性进展,使得基于机器学习的药物设计成为药物研发领域中追逐的新热点。应用机器学习方法在虚拟筛选中的成功案例也屡见报道。然而机器学习所建立的模型基本是一个黑匣子(black box),大多数情况下人们无法获知数据中的哪些特征是决定性的,也不清楚模型预测的“真实结果”是否有“真实原因”可循,抑或仅仅是由于数据集本身内容的偏重所致?对于基于机器学习方法的虚拟筛选,如何评价其真实的性能?需要建立什么样的标准测试集,发展什么样的评价策略?德国汉堡大学Rarey教授课题组针对这些问题进行了分析,最近在美国化学会出版的Journal of Chemical Information and Modeling杂志"Machine-Learning in Drug Discovery"专刊上发表了观点(J. Chem. Inf. Model. 2019, 59, 947-961)。

作者首先选择三个常用的虚拟筛选标准测试集作为研究对象,包括DUD,DUD-E和MUV。DUD和DUD-E由Shoichet等人基于ZINC数据库发展而来,用于评价基于结构的虚拟筛选方法(如分子对接方法)。MUV则由Rohrer等人基于PubChem数据库构建获得,用于评价基于配体的虚拟筛选方法。以这三个标准测试集的无偏重特征及其组合为描述符,作者采用随机森林方法建立虚拟筛选的预测模型,并通过两种交叉验证实验(如图-1(1)和(2)所示)对模型的筛选性能进行评价。

图-1 三种交叉验证实验示意图。(1)靶标内交叉验证:将每个靶标的配体分子随机分为训练集和测试集进行3倍交叉验证;(2)靶标间交叉验证:随机挑选m个靶标中部分靶标及其配体分子作为测试集,剩余靶标及其配体分子作为训练集进行3倍交叉验证;(3)留一法靶标间交叉验证:随机选择某一靶标及其配体分子作为测试集,选择与该靶标相似度低于某一阈值的靶标及其配体作为训练集进行n倍交叉验证。
图-2 随机森林方法对DUD,DUD-E和MUV三个数据集无偏重特征的虚拟筛选评价结果,横坐标为训练模型所用的特征数目,纵坐标为虚拟筛选的平均AUC值。(a), (b)和(c)分别为靶标内交叉验证实验在三个数据集上的结果;(d)和(e)为靶标间交叉验证实验在DUD和DUD-E数据集上的结果。

三个标准测试集的无偏重特征在活性化合物和非活性化合物中具有近似的均值和方差值。作者认为以无偏重特征作为筛选条件,其筛选效果与随机筛选相当,虚筛富集曲线的AUC值应接近0.5。然而,基于机器学习方法的虚筛结果显示(图-2),即使采用单个特征,随机森林方法仍然能够较好地区分这三个标准测试集中的活性与非活性化合物。特别是当多个特征组合时,在DUD和DUD-E标准测试集上,靶标内和靶标间的交叉验证实验所得的AUC值接近1.0和0.8。这意味着,对于机器学习方法来说,低维度特征已经足够用于区分活性与非活性化合物。作者因此认为:在对采用更复杂特征描述符的机器学习方法进行评价时,应当选择基于低维度描述符的结果作为一个合适的评价基准线。

作者进一步以DUD/DUD-E为标准测试集,对两种基于卷积神经网络的深度学习方法DeepVS和基于格点的三维卷积神经网络进行评价。前者通过配体分子中每个原子的局部相邻原子的基本特征(如原子间距离,原子类型,原子电荷等)来描述蛋白-配体之间的相互作用(图-3(a))。后者则是将配体分子的三维构象置于覆盖蛋白结合口袋的格点盒子中,采用基于格点的三维描述符来表征蛋白-配体之间的相互作用(图-3(b))。

图-3 (a)DeepVS描述符示意图。以N3原子(黄色)为例,配体分子上邻近的原子共有三个:N3,H和C2,蛋白分子上邻近的原子共有CD和OE,分别对应参数kc=3, kp=2; (b)基于格点的三维描述符示意图。每个格点保存原子类型,空间距离等相关信息。

文献报道DeepVS方法在DUD测试集上经留一法交叉验证获得的平均AUC值为0.81。作者摒弃蛋白部分信息,仅基于配体分子的随机构象用于构建DeepVS方法的预测模型,经留一法交叉验证获得的平均AUC值为0.79。这与基于三维描述符所得的结果没有显著差异。与采用配体二维拓扑特征的随机森林方法在相同标准测试集上的预测结果相比(平均AUC值为0.78),DeepVS方法也没有体现出明显的优势。作者采用基于格点的三维卷积神经网络方法在DUD-E测试集上进行类似的对比实验也获得了相同的结论。作者对此给出的解释是:DUD/DUD-E测试集的构建原理表明配体的二维拓扑结构是区分活性与非活性化合物的决定性特征。DeepVS和基于格点的三维卷积神经网络方法的三维描述符中隐式地包含了二维拓扑特征。因此,配体的二维拓扑特征足以用于对活性和非活性化合物进行有效区分。这也表明,DUD和DUD-E标准测试集对于基于配体二维拓扑特征的方法是有偏重的。它们并不适用于评价具有复杂多维描述符的深度学习方法的真实表现。

那么在存在可能偏重的前提下,如何正确设计基于机器学习的虚拟筛选的评价测试?如何有效控制这些偏重对评价结果的影响?作者结合自己的研究及他人经验提出一些参考准则:

  • 验证数据集的适用范围,如DUD/DUD-E偏重于基于配体二维拓扑特征的方法。
  • 深刻理解所使用的机器方法和描述符。
  • 基于简单、可解释的特征定义合适的评价基准线,如采用随机森林方法对单维特征进行训练建模。
  • 设计合理的对照实验来验证无因果关系的偏重(如将高维描述符简化为低维特征),帮助挖掘预测模型中的决定性特征。
  • 尽可能地引入阴性实验数据,提高数据的质量等。

如前所述,机器学习得到了人们的广泛关注,但是其真实能力以及可应用范围仍然需要人们谨慎看待。Rarey教授课题组的研究工作揭示了应用机器学习方法中可能隐含的问题。他们提出的经验准则为客观评价机器学习方法提供了重要的参考。

参考文献:Sieg, J.; Flachsenberg, F.; Rarey, M. In Need of Bias Control: Evaluating Chemical Data for Machine Learning in Structure-Based Virtual Screening. J. Chem. Inf. Model. 2019, 59, 947-961.
DOI: 10.1021/acs.jcim.8b00712

你可能感兴趣的:(【ZT】汉堡大学Rarey课题组JCIM发表观点:当虚拟筛选遇上机器学习,我们的初心是啥?)