Molecular Sets(MOSES): A Benchmarking Platform for Molecular Generation Models,AI制药领域,分子生成必读文章

Molecular Sets,MOSES : A Benchmarking Platform for Molecular Generation Models

  • 1 研究背景
  • 2 分子表示方法
    • 2.1 字符表示
    • 2.2 分子图表示
  • 3 评判标准
    • 3.1 valid&unique
    • 3.2 Novelty
    • 3.3 Filters
    • 3.4 Fragment similarity(Frag)
    • 3.5 Scaffold similarity(Scaff)
    • 3.6 Similarity to a nearest neighbor(SNN)
    • 3.7 Internal diversity(IntDiv)
    • 3.8 Fréchet ChemNet Distance (FCD)
    • 3.9 Properties distribution
  • 4 数据集
    • 4.1 初始数据集
    • 4.2 过滤
    • 4.3 最终数据集

Molecular Sets(MOSES): A Benchmarking Platform for Molecular Generation Models,AI制药领域,分子生成必读文章_第1张图片

1 研究背景

深度学习模型在生物医学领域得到广泛应用,目前有很多分子生成模型,但不清楚如何对它们进行排序和比较,因此作者引入了一个称为MOSES的基准测试平台。
文章提出的平台MOSES是一个基准平台,用来标准化分子生成模型的训练过程,并对不同的模型进行比较。MOSES提供了训练集和测试集,并提供了一组用于评估生成的分子质量和多样性的指标,同时MOSES已经实现并比较了几种模型。
文章代码可在github中获得:https://github.com/molecularsets/moses

2 分子表示方法

2.1 字符表示

SMILES:最常用,以深度一阶遍历分子图的生成树,并存储原子和边标记。SMILES还使用特殊标记来表示未被生成树覆盖的分支和边。
DeepSMILES:是SMILES的扩展,通过改变 分支和环闭包 的语法来减少无效序列。
SELFIES:在Chomsky type-2基础上增加了自引用函数。SELFIES通过将分支和环的信息分开保存,可以做到比较好的表现力。
InChI:国际化学标识符,是一种更详细的字符串表示法,明确指定了化学式、原子电荷、氢和同位素。

2.2 分子图表示

在分子图中,每个节点对应一个原子,每条边对应一个键。这样的图可以显式或隐式地指定氢,氢的数量可以从原子的价态推断出来。
机器学习模型从图中提取关于分子的描述,深度学习模型通过GCNN等直接从图中学习。分子图表示如图1所示。
Molecular Sets(MOSES): A Benchmarking Platform for Molecular Generation Models,AI制药领域,分子生成必读文章_第2张图片

3 评判标准

3.1 valid&unique

valid:使用RDKit的分子结构分析器,检查芳香环中 原子的化合价和化学键 的一致性。有效性衡量模型捕捉明确的化学约束的能力,如化合价是否正确。
unique:检查模型不会出现模式崩塌而导致只产生几个典型的分子。

3.2 Novelty

新颖性是指生成原本不在训练集中的部分,新颖性过低意味着过拟合。

3.3 Filters

生成分子的过程中,有一些分子在化学上是有效的,但其中可能包含我们不想要的片段。在构建训练集时要移除这些片段,同时我们希望模型不会生成这些片段。

3.4 Fragment similarity(Frag)

片段相似性比较了BRICS片段在生成集和参考集中的分布,取值为[0,1]。若两组分子中有相似片段,那么frag较大;若某些片段在生成集中表现过度或从未出现,那么frag较低。

3.5 Scaffold similarity(Scaff)

骨架相似性与片段相似性类似,显示生成集和参考集中的骨架有多相似,取值为[0,1]。若模型很少从参考集产生某种化学型,则度量值将较低。

3.6 Similarity to a nearest neighbor(SNN)

最近邻相似性,是指生成集G中的一个分子mG 与它在参考集R中 相距最近的分子mR 之间的平均Tanimoto相似性,值在[0,1]之间,且距离越近值越高。

3.7 Internal diversity(IntDiv)

内部多样性评估生成分子的化学多样性,检测模型是否出现模式崩塌的情况,取值范围在[0,1]。数值高说明有利于发现新结构;数值低说明模型生成的样本种类有限,忽略了化学空间的某些区域,可能发生模式崩塌。

3.8 Fréchet ChemNet Distance (FCD)

使用深度神经网络ChemNet的倒数第二层计算,该网络通过训练来预测药物的生物活性。ChemNet的倒数第二层是激活层,捕获了化合物的 化学和生物特性。FCD值非负,越小越好。作者建议使用FCD进行参数的调整和模型的选择。

3.9 Properties distribution

属性分布用来评估生成的分子的结构,在本文中使用了四个属性:
Molecular weight (MW):相对分子质量,是分子中原子质量的总和,用来判断模型是否偏向于生成较轻或较重的分子。
LogP:辛醇-水分配系数,一种化学物质在辛醇中的浓度与它在水中的浓度之比,用来判断化合物的亲脂性。
Synthetic Accessibility Score (SA):合成可及性评分,启发式地估计合成给定分子的难易程度,用来评估分布式学习模型。
Quantitative Estimation of Drug-likeness (QED):药物相似性的定量估计,取值在[0,1],用来估计一个分子成为候选药物的可能性。

4 数据集

4.1 初始数据集

ZINK Clean Leads,包含约460万个分子。
文章使用了ZINK数据集,这是一个是一个小分子结构的数据库,用于药物的虚拟筛选,为药物研发提供了非常方便的药物性质测试。为了丢弃含有所谓“结构警报”的化合物,作者对数据集进行了过滤:首先过滤掉含有带电原子的分子,然后过滤掉环中分子数大于8的大环分子,最后使用MCFs和PAINS过滤器进行过滤。最终数据集MOSES dataset包含约194万个分子,接着,作者又把数据集分成了train、test和scaffold test,分别有159万、17.5万、17.5万个分子。

4.2 过滤

①含有带电原子的分子(含C, N, S, O, F, Cl, Br, H除外);
②环中分子数大于8的大环分子;
③medicinal chemistry filters (MCFs);
④PAINS filters。

4.3 最终数据集

MOSES dataset,约194万个分子,如图2。
Molecular Sets(MOSES): A Benchmarking Platform for Molecular Generation Models,AI制药领域,分子生成必读文章_第3张图片

你可能感兴趣的:(论文解读,深度学习,计算机视觉,机器学习,人工智能)