2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation

2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation

2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation_第1张图片
Paper: https://dl.acm.org/doi/epdf/10.1145/3459637.3482260
Code: https://github.com/chshm/GF-VAE

GF-VAE:一种基于流的分子生成变分自动编码器

分子生成是具挑战性但具有意义的一项工作,他需要遵循化学价规则的同时优化给定的目标。最近比较有效的方法是分子图与生成模型向结合,但是在计算上成本非常高。因此,作者提出了GF-VAE,一种用于分子图生成的基于流的变分自动编码器(VAE)模型。该模型在原来VAE的基础上增加了Flow模型解码器。其中编码器主要是加速解码的训练,而解码器则依次优化编码器的性能。由于流模型的可逆性,生成过程很容易通过反转解码器来完成。因此,GF-VAE继承了VAE和基于流的方法的优点。在分子生成和重建、学习潜在空间的平滑性、属性优化和约束属性优化方面验证了模型。

模型

近年来, 生成模型主要有生成对抗网络(GAN)、变分自动编码器(VAE)和基于流的模型。它们已应用于分子生成,例如基于GAN的MolGAN和GCPN、基于VAE的CVAE和JT-VAE,基于流的GraphNVP和MoFlow模型。

GF-VAE,是VAE和归一化流模型的无缝结合,用于一次性分子图生成。GF-VAE使用流生成器来引导VAE编码器学习更有意义的高级分子表示,同时它采用VAE编码器使流生成器减轻更少权重。如下图所示:
2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation_第2张图片
2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation_第3张图片
L A / L B L_A/L_B LA/LB代表整个模块堆叠 L A / L B L_A/L_B LA/LB次,以实现更好的映射性能, K A / K B K_A/K_B KA/KB代表对应方框内耦合层的堆叠次数,后续实验对比选出了最佳参数组合。

数据

  • QM9
    QM9包含134k分子,最多9个原子,分为4种不同类型。
  • ZINC-250K
    ZINC-250K由250k分子组成,最多38个原子,分为9种不同类型。

基线

基于VAE的模型

  • CVAE
  • GVAE
  • GraphVAE

基于流的模型

  • GraphNVP
  • GRF

评估指标

  • Validity(V)在所有生成的分子中化学有效分子的百分比;
  • Novelty(N)生成的有效分子未出现在训练集中的百分比;
  • Uniqueness(U)唯一有效分子占所有生成分子的百分比;
  • Reconstruction®可以从它们自己的潜在向量重建的分子的百分比。
  • Score(S),它是Validity、Novelty和Uniqueness的乘积

实验

2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation_第4张图片
(a)和(b)是来自QM9的两个随机采样的分子。©和(d)显示了图(a)和(b)中原子-原子余弦相似度的heatmap,它是根据编码器的嵌入向量计算的。(e)和(f)显示了基于来自GF-VAE编码器的原子嵌入向量计算的相似度。

以两种方式定性地检查学习的潜在空间的平滑度。一种是在两个随机正交方向上使用网格搜索方法来查找潜在空间中随机选择的分子的邻域并将它们可视化。另一种是在分子图的两个潜在点之间进行插值。选择Tanimoto指数作为化学相似性指标,并通过heatmap指示它们的相似性值。

2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation_第5张图片
上图(a)显示学习到的潜在空间是平滑的,因为相邻的潜在点对应于具有微小变化的分子。(b)还表明,除了第一步之外,两个潜在点之间的插值仅略微改变了分子图。这可能是因为学习到的潜在空间不遵循均匀分布,相似的分子紧密地聚集在一起,而不同的分子松散地分散在周围。

分子优化

  • 一种是特性优化,它生成具有最佳特性分数的新分子。
  • 另一个是约束性质优化,这意味着找到与给定分子相似但具有更好化学性质的分子。
    选择药物相似性的定量估计(QED)和penalized logP(plogp)作为目标属性。分子相似性是通过摩根指纹的谷本相似性来衡量的。

表4.在ZINC-250K上得分前三的plogP和QED优化分子
2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation_第6张图片
表5.ZINC-250k上的约束plogP优化
2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation_第7张图片
2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation_第8张图片

2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation_第9张图片
约束属性优化。箭头从原始分子指向优化分子。箭头左侧和右侧的值分别表示给定分子对的性质改进和相似性

参考

https://baijiahao.baidu.com/s?id=1729293722854317823&wfr=spider&for=pc

你可能感兴趣的:(DrugAi,人工智能,机器学习,深度学习)