Molecular Generative Model Based on an Adversarially Regularized Autoencoder

Seung Hwan Hong,Seongok Ryu,Jaechang Lim,Woo Youn Kim
Journal of Chemical Information and Modeling 2019
if = 4.72

简介

基于VAE的模型常常产生无效的分子,原因是VAE使用一个预定义的先验(代理分布)近似后验分布,因此他们可以很容易地估计潜在变量的分布,但真实的后验分布可能不能很好地用一个给定的先验来近似,比如多元高斯分布;此外,VAE使用KL散度衡量分布间的差异,但如果后验分布是多模态的,那么将两个分布之间的KL散度最小化是不合适的。

基于GAN的模型能够产生有效的分子但多样性低,GAN学习分子结构等离散表示会引发低多样性问题,这个缺点促使我们去估计分子在连续潜空间中的分布,而不是在离散的数据空间中。

下表中的结果就体系了基于VAE和GAN的模型各自的缺点。对于同样的训练QM9,文章的方法在除了新颖性以外的其他指标普遍优于其他模型,文章认为这是由于QM9数据集的分子由少于10个重原子组成,其本身的化学多样性较低。


文章使用的ARAE模型基本上仍是一种隐变量模型,采用了编码器-解码器结构,但后验分布是通过对抗训练来估计的(使真实分布和生成的隐变量分布之间的1-Wasserstein距离最小)。


训练阶段,SMILES序列被编码器转换成潜在的变量,生成器通过从一个正态分布中抽取随机变量来生成新的样本,然后通过对抗训练使这两个变量的分布变得尽可能的相似。解码器根据输入分子的潜在向量z和属性信息y重建输入分子结构x。

在推理阶段,指定所需的属性y,调整潜在向量z来由解码器产生新分子。

文章在表1的结果展示了生成的分子的有效性、唯一性和新颖性,验证了模型在估计潜在向量分布方面的高性能。此外,文章还通过在潜空间的两个向量之间进行插值来检验潜空间的平滑性,说明了通过对抗性训练成功建立潜空间模型的可行性。

文章通过对阿司匹林和达菲的两个种子向量进行线性插值得到100个潜在向量,然后对每个采样向量进行解码,生成相应的分子。100个潜在载体均成功生成有效分子,其中有19个新分子。下图显示了从阿司匹林到达菲的平稳变化的6个例子。


你可能感兴趣的:(Molecular Generative Model Based on an Adversarially Regularized Autoencoder)