本篇文章来自2021年10月发表在Journal of Chemical Information And Modeling上的MolGPT: Molecular Generation Using a Transformer-Decoder Model。文章提出了一个来预测分子生成的SMILES标记序列。该模型利用了掩蔽的自我注意机制,使学习字符串标记之间的长期依赖关系变得更简单。这对于学习满足配价和环闭包的有效字符串的语义特别有用。此外,该模型学习更高层次的化学表示通过分子性质控制。MolGPT能够生成属性值与用户传递的精确值仅略有偏差的分子。它还能够生成包含用户指定支架的分子,同时控制这些特性。
研究背景
据推测,潜在类药物候选分子的总数在1023到1060个分子之间,其中只有约108个分子已经合成。2由于难以筛选实际无限的化学空间,且合成分子和潜在分子之间存在巨大差异,因此生成模型用于模拟分子分布,以对具有理想性质的分子进行取样。此类模型学习大量分子的概率分布,因此能够通过从这些分布中取样生成新分子。生成性预训练变换器模型(GPT),GPT模型可以开发更好的语言嵌入,从而模拟更长距离的连接。因此,当用于多种语言建模任务(如自然语言推理、问答、句子相似性和分类)时,嵌入显示出最佳性能。为了获得这种结构的额外好处,作者训练了一个名为MolGPT的GPT模型来预测分子生成的SMILES标记序列。
数据集
在这项工作中,作者使用了两个基准数据集,MOSES和GuacaMol,来训练和评估模型。
(1)MOSES:来自Zinc数据集190万clean lead-like分子,分子量范围为250至350 Da,可旋转键数低于7,XlogP低于3.5。
(2)GuacaMol:ChEMBL 数据库的子集,包含160万分子。MOSES数据集主要用于表示类药性分子,因此具有理想药物性质的分子分布。然而,为了测试模型对条件生成的控制,我们更喜欢GuacaMol数据集中可用属性值的较大分布,如图1所示。
对模型进行训练,以了解分子的一些性质,以便控制生成和优化。使用的属性如下:
(1)logP:分配系数的对数。分配系数比较平衡时溶质在两种不互溶溶剂中的溶解度。如果其中一种溶剂是水,另一种是非极性溶剂,那么logP是疏水性的量度。
(2)SAS:合成化合物难度的度量。这是一个介于1(容易做出)和10(非常难做出)之间的分数。
(3)TPSA:拓扑极性表面积,所有极性原子的表面积之和。它测量药物渗透细胞膜的能力。TPSA大于140Å2的分子渗透细胞膜的能力较差。
(4)QED:通过考虑主要分子特性,对药物相似性进行量化。其范围从0(所有不利属性)到1(所有有利属性)。
模型概述
MolGPT由堆叠的解码块组成,每个解码块由屏蔽的自我注意层和完全连接的神经网络组成。完全连接的神经网络的最后一层返回一个大小为256的向量,然后用作下一个解码器块的输入。MolGPT由八个这样的解码器块组成。为了跟踪输入序列的顺序,将位置值嵌入分配给每个标记。在条件训练期间,提供段标记以区分条件和SMILES标记。段标记嵌入表示特定输入是一种条件还是一种分子标记,以便于模型区分两者。使用嵌入层将所有分子标记映射到256维向量。类似地,使用单独的可训练嵌入层将位置标记和分段标记映射到256维向量。然后添加这些SMILES标记嵌入、位置嵌入和段标记嵌入,从而为SMILES字符串的每个标记生成大小为256的向量,然后将其作为输入传递给模型。
图1.使用MolGPT模型进行训练和生成的流程
图2. MolGPT模型结构
训练过程和评估指标
3.1 训练过程:
每个模型使用Adam优化器进行10个epoch的训练,学习率为6×10−4,在生成过程中,一个起始token(从训练集中的第一个分子token列表中随机抽样)与条件一起提供给网络。在MOSES和Guacamol进行了训练和测试。大多数模型在10个epoch后收敛并表现出最佳性能。
3.2 评估指标:
结果
(1)非条件分子生成,MolGPT在这些标准上与以前的方法进行了比较。除有效性之外的所有度量都是根据模型生成的有效分子集计算的。
表1 使用MOSES数据集上训练的不同方法比较对应于非条件生成的分子的不同度量
表2 使用在Guacamol数据集上训练的不同方法,比较对应于非条件生成的分子的不同度量
表1和表2中报告了每个数据集在温度为1.0的模型的性能,JT-VAE总是生成有效的分子,因为它在生成的每一步都检查有效性。除JT-VAE外,观察到MolGPT在生成有效且独特的分子方面表现最佳。MolGPT在MOSES数据集上的有效性得分接近完美。然而,MolGPT在数据集上的新颖性得分较低,仅略高于AAE;在Guacamol数据集上,MolGPT在效度、新颖性和KL发散性方面表现出最好的结果,而其FCD比RNN小0.006,这种新颖性的提升是由于Guacamol数据集中分子的更大多样性;但MolGPT生成的分子具有非常高的有效性,这也表明该方法能够很好地处理长期依赖性。
(2)显著性图,在开发机器学习框架和管道以提高任务效率的同时,还需要证明这些模型允许解释。我们使用显著性图来可视化我们模型的分子生成过程。
图4显示了所示生成分子的一些生成标记的输入显著性图。深紫色下划线是用于显著性贴图的标记。每个标记的颜色强度表示该标记对于生成带下划线标记的重要性。输入显著性方法为每个输入标记分配一个分数,该分数指示该标记在生成下一个标记时的重要性。”(”,“C”和“c”分别指链、非芳香族碳和芳香族碳的分支。从图4中,我们可以看到,当在第一个显著性图中生成“O”原子时,该模型关注先前的双键和“N”原子。双键满足氧原子的价态,而“N”原子参与互变异构体的形成,这增加了结构的稳定性。在第二个显著性图中生成“C”原子时,模型注意“(“和”)”检查它们是否平衡,并注意非芳环中的原子。在非芳环中,它主要注意近邻“2”和“N”个原子。生成“2”标记时,它会注意前一个“C”标记和非芳香环中的标记。生成“c”时在显著性图的最后一行和倒数第二行中,模型正确地关注了芳香环中的原子,因为该环仍然是不完整的。因此,这些显著性图提供了对生成过程的化学解释的一些见解。
(3)基于单个和多个属性生成,生物学和化学中的许多过程都要求分子具有一定的属性值以执行某些功能。评估MolGPT生成具有特定性质的分子的能力。
图5 在(a)logP,(b)TPSA,(c)SAS和(d)QED条件下生成的分子的性质分布
表3 基于对Guacamol数据集的训练(使用1.0的温度值)生成单一性质条件下的分子时,不同指标的比较
图5描述了MolGPT生成的分子在控制单一性质时的分子性质分布。表3中报告了每个属性的平均偏差(MAD)、标准偏差(SD)、有效性、唯一性和新颖性值。如图5所示,属性分布以所需值为中心。表3中的低SD和MAD分数进一步说明了这一点。
在为特定目的生成分子时,有必要优化多个性质。例如,人们可能希望分子具有特定的logP和TPSA值。因此,需要检查模型同时控制多个属性的能力。使用SAS、logP和TPSA评估模型一次使用两个和三个属性控件生成所需分布的能力。生成分布分子性质如图6所示。观察到以所需特性值为中心的分离良好的簇。表4中报告的每个属性组合的低MAD和SD值(与属性值范围相比)表明MolGPT对多个属性具有强大的控制能力,以便准确生成。
图6 组合属性为条件的生成分子的性质分布
表4 Guacamol数据集的多属性条件训练
(4)基于骨架的生成
评估MolGPT在保持骨架结构的同时生成具有特定属性值的结构的能力,其结果将在本节和下一节中给出。在MOSES基准数据集上进行这些实验,因为它包含一组与训练集中存在的骨架不重叠的测试骨架。随机选择100个测试骨架,然后为每个骨架生成100个分子,然后计算有效性、唯一性、新颖性和“相似比”。 “相似性比”定义为生成分子的骨架与条件骨架的Tanimoto相似性大于0.8的有效生成分子的分数。
图7 骨架条件化结果评估指标的箱线图
图7显示了每个指标在方框图中的分布。从箱线图可以看出,对于所有100个支架,有效性都大于0.8,约75%的支架具有大于0.7的独特性和新颖性。所有骨架的“相似度”都大于 0.8,这表明大多数生成的有效分子具有与用于训练的骨架非常相似的骨架。
(5)基于骨架和属性的生成
评估模型生成包含所需骨架的结构的能力,同时也控制多个分子特性。从MOSES测试集中随机选择了五种不同尺寸的骨架(支持信息图S1)
图8 以骨架和属性为条件的生成分子的性质分布,生成分子的骨架和用于调节属性的骨架的Tanimoto相似性分布
图10 生成分子的骨架和用于调节属性组合的骨架的Tanimoto相似性分布
从图8中可以看到QED是一个同时依赖于多个分子性质的函数。因此,QED受骨架本身结构的影响很大,因此很难在此类约束条件下进行控制。我们认为,这些相互竞争的目标是QED控制产生的分布之间存在大量重叠的原因。MolGPT向骨架添加不同的功能组,以获得所需的属性值。多属性控制簇如图9所示。即使在使用多个属性时,我们也可以看到Tanimoto相似性分布在图10中的1处达到峰值。可以理解的是,基于属性的集群不像以前那样结构良好。但是,对于两个属性控制,集群之间有很好的分离。分子性质的预期值接近这些团簇的中心。对于三个属性控件,其中一个簇(红色)由于高度约束属性值而格式不好。我们看到,其余的星团基本上是形态良好、相互分离的。
结论
(1)本文设计了一个用于分子生成的称为MolGPT的解码器模型。该模型利用了掩蔽的自我注意机制,使学习字符串标记之间的长期依赖关系变得更简单。这对于学习满足配价和环闭包的有效字符串的语义特别有用。此外,可以使用显著性映射来解释生成过程。因此,MolGPT能够在两个数据集上显示良好的性能,其有效性和新颖性优于以Guacamol数据集为基准的所有其他方法。
(2)还表明,该模型学习更高层次的化学表示通过分子性质控制。MolGPT能够生成属性值与用户传递的精确值仅略有偏差的分子。它还能够生成包含用户指定骨架的分子,同时控制这些特性。尽管存在基于骨架的药物设计的限制条件,但它仍具有良好的准确性。因此,认为MolGPT模型具有强大体系结构。