[ZT] 阿斯利康Llinas等人JCIM论文：“溶解度挑战”重现江湖

文章来源：微信公众号 - ComputArt计算有乐趣 2019-7-27

溶解度是化合物的一种基本物理化学性质，在药物化学、环境化学等多种研究中有重要的参考价值。作为对实验测量方法的补充，建立快捷、可靠、普适的溶解度预测方法具有重要的理论意义和明确的应用价值。自20世纪九十年代末以来，人们发展了许多种预测方法，应用了多元线性回归（MLR）、主成分回归（PCR）、偏最小二乘法（PLS）、人工神经网络（ANN）、支持向量机（SVM）、随机森林回归（RFR）等诸多算法。这些工作在不同的体系上取得了不同程度的成功，但是距离解决溶解度预测这一目标尚很遥远。

2008年，Llinas等人公开发起了“溶解度挑战”，其最终结果生动地反映了这一情况，在领域中刷了流量。Llinas等人使用CheqSol方法精确测量了结构不同、具有重要生物学意义的132个分子的固有溶解度S₀，以其中的100个分子作为训练集，32个分子作为测试集，要求参赛者根据溶解度实验数据公开的训练集构建模型，对溶解度实验数据未公开的测试集进行预测¹。该挑战的独特之处在于要求所有参赛者基于相同的数据源构建模型。这一挑战吸引了大量参赛者，他们使用了各种预测方法来计算，然而所有的方法表现大致相同，并不能确定谁是赢家²。“溶解度挑战”的结果引发了许多关于溶解度预测方法的有效性及数据质量的讨论。在“溶解度挑战”开展之前，由于溶解度的精确测量比较困难，人们认为不精准的测量数据是预测结果不佳的重要原因。然而，“溶解度挑战”的结果显示也许并非如此，预测结果不佳应当主要归因于预测方法存在的固有缺陷。

弹指一挥间，十年之后人们当然积累了更多化合物的溶解度实验数据。Llinas等人重新审视十年前的“溶解度挑战”，基于包含不同实验室间可重现的实验数据组成的数据库（6355S₀），从中挑选了两组数据集作为新的测试集，发起了新一轮“溶解度挑战”³。第一组数据被小编毫无文采地翻译为“紧密集”（tight set）：由100个类药性强的分子组成。每个分子的log S₀数据来自于至少三个实验室，其标准偏差（SD）在0.11 ∼ 0.22对数单位，平均为0.17对数单位。第二组数据被小编同样毫无文采地翻译为“松散集”（loose set）：由32个分子组成，每个分子的log S₀也来自于至少三个实验室，标准偏差（SD）在0.50 ∼ 0.93对数单位，平均为0.62对数单位。与之前的“溶解度挑战”不同的是：新的“溶解度挑战”不提供一个“标准”训练集，而是允许参赛者使用自己的log S₀（25℃）实验数据作为训练集来构建模型。对于手头没有足够数据的新参与者，作者在文中提供了含有可靠溶解度数据的18篇参考文献。

作者强调：新“溶解度挑战”的目标不在于找出“谁”是赢家，而是希望找出“哪种”方法预测溶解度效果最好。为了鼓励具有不同经验或水平的人员参与，参赛者的身份最终不会透露。参与此次竞赛的具体方法为：填写提交表格中的所有空白字段，其中包含两个测试集中每种化合物固有溶解度值的预测值（以摩尔对数单位表示），并提供预测方法的简要说明（训练集数据的来源、性质以及使用的描述符类型），并将Excel文件发送给JCIM杂志主编Kenneth M. Merz教授 ([email protected])，邮件主题为：Solubility Challenge。提交时间不迟于2019年9月8日，参与者可单独提交不超过三次。此次挑战将由JCIM论文的作者Llinas等人评估预测结果，JCIM将邀请预测结果最佳者提交论文发表。

“溶解度挑战”重现江湖，再次刺激到本领域的兴奋点。新的挑战基于更大规模、高质量溶解度实验数据，提供了标准化的测试集来横向比较各种参赛方法。哪种方法将在此次挑战中拔得头筹，小编拭目以待。改革春风吹满地，中国人民真争气。各位看官还等什么，还不赶紧参与进来！

参考文献：

(1) Llinas, A.; Glen, R. C.; Goodman, J. M. Solubility challenge: Can you predict solubilities of 32 molecules using a database of 100 reliable measurements? J. Chem. Inf. Model. 2008, 48, 1289−1303.
(2) Hopfinger, A. J.; Esposito, E. X.; Llinas, A.; Glen, R. C.; Goodman, J. M. Findings of the challenge to predict aqueous solubility. J. Chem. Inf. Model. 2009, 49, 1−5.
(3) Llinas, A.；Avdeef,A. Solubility Challenge Revisited after Ten Years, with Multi-lab Shake-Flask Data, Using Tight (SD ∼ 0.17 log) and Loose (SD ∼ 0.62 log) Test Sets. J. Chem. Inf. Model. 2019, 59, 3036-3040.

[ZT] 阿斯利康Llinas等人JCIM论文：“溶解度挑战”重现江湖

你可能感兴趣的:([ZT] 阿斯利康Llinas等人JCIM论文：“溶解度挑战”重现江湖)