Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第1张图片

原文标题:FraGAT: a fragment-oriented multi-scale graph attention model for molecular property prediction

论文地址:FraGAT: a fragment-oriented multi-scale graph attention model for molecular property prediction | Bioinformatics | Oxford Academic

code地址:GitHub - ZiqiaoZhang/FraGAT: FraGAT: a fragment-oriented multi-scale graph attention model for molecular property prediction

提出了可能是或包含与分子性质相关的官能团的分子图片段的定义,然后开发了面向片段的分子性质预测多尺度图注意网络FraGAT

一、问题提出

现有的大多数模型都将分子视为平面结构。这些模型首先计算分子中每个原子的节点embedding,然后利用readout得到分子的graph embedding。显然,分子的层次结构被忽略了。

几个原子可以形成小原子团,小原子团又可以进一步形成更大的原子团,再由这些更大的原子团组成分子。一个分子可能由许多原子团组成,而某些特定的原子团将决定其一定的分子性质。分子及其任何目标分子本质上是分子的某些特定原子团和目标蛋白质之间的相互作用。这些原子团叫做官能团。官能团是分子性质预测的重要特征。然而,从分子中提取官能团的计算成本很高

基于片段的工作:

FraGVAE:用于小数据集分子性质预测。该模型使用变分自编码器对分子进行编码。每个分子被分成半径为1的圆形组,所有这些小组组成一个碎片袋。然后分别对片段袋和原始分子图进行编码

【N-gram graph: simple unsupervised representation for graphs, with applications to molecules】:引入用于分子性质预测的N-Gram graph。n-gram graph模型将分子图分解为一组n-gram walk,即分子图中长度为n的walk,这些游走被视为片段。然后使用一个词嵌入模型将每个顶点embedding到节点embedding中。最后,在节点embedding的基础上,采用无学习参数的简单GNN进行graph embedding

虽然上述方法将分子分裂成片段,但不能保证它们是化学和药学意义上的真实(或有效)原子团。特别是,这些碎片可能会将芳香环分解成无效的基团 

二、模型方法

1、Molecular fragments

最大问题:如何定义片段和如何从分子中提取这样的片段?

Fragment definition

将原子团分为两类:(一)不含无环单键(无氢)的小原子团,称为碱性原子团,如-OH、-NH2、-X等;(二)碱性原子团通过无环单键组合而成的大原子团,如羧基、托利基等。我们称之为组合原子团。

这两种类型的原子团可能都与分子的性质有关。例如,-X可以影响药物的代谢特性和毒性。而由两个甲基和一个苯环组成的甲苯对分子毒性的影响要比由一个甲基和一个苯组成的甲苯强得多。然而,一甲基和二甲基之间的结构差异不足以解释毒性差异。这表明基本原子团和组合原子团都应该被用来表示分子的片段。

考虑到分子中大多数原子团通过无环单键与其他部分连接,可将无环单键视为原子团的边界。

定义:给定一个hydrogen-depleted分子图,片段包括通过破坏所有非环单键而生成的小子图,以及由原始分子图中连接的小子图组合而成的大子图。称小的子图为基本片段,大的子图为分子图的组合片段。

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第2张图片

Fragment extraction

根据上面的定义,可以列举出一个分子中的所有片段。但是,考虑到有机化学品的结构比较复杂,通常由长骨架和多分支组成,一个分子中非环单键的数量可能非常多,如补充表S1所示。可能的片段数随着非环单键的数量呈指数增长。所以,计算成本很高。

因此:给定一个分子,所有的非环单键都表示为易碎键。在训练阶段,每次将分子输入模型时,随机选择一个可折断的键进行断裂。因此,生成了两个子图。显然,这两个子图符合片段的定义。所以,我们每次得到分子的两个片段,或一对片段。这样可以大大降低模型训练的计算成本和内存消耗。

在评估阶段,如果仍然对每个测试分子使用随机打破策略,预测会太随机。因此采用一种数据增强的方法进行测试。通过打破不同的易碎键,每个分子被扩增为一批“smaple”。所有这些样本都被输入到模型中,结果是一批预测。这些预测结果的平均值作为该分子的最终预测。

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第3张图片

2、模型

三个分支(提取多尺度结构特征)

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第4张图片

  • 将原始分子图输入特征提取器,特征提取器将原始分子图编码为一个嵌入向量,该向量携带该分子的整个结构信息。
  • 原始分子图被分解成片段对,这些片段对被输入到提取器中,得到这两个片段的嵌入向量。
  • 每个片段对被抽象为两个超级节点(每个节点对应一个片段),由断裂的键连接。这样,就生成了一个连接树(片段上的树形结构支架)。在第二个分支中提取的两个片段的嵌入向量作为两个超级节点的初始特征。通过特征提取器对连接树进行编码,获取片段的连通性信息。然后将通过树枝得到的embedding向量串联起来,作为所处理分子的表示向量。

Attentive FP and attentive layers

给定一个分子,可以建模为:

其中V为原子集合、E键集合、Xatom原子性质、Xbond键性质。

性质由RDKit可以测出。

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第5张图片

 the Attentive FP network:
 

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第6张图片

第一部分:将原始Graph输入到Attentive layers得到node embedding

第二部分:将原分子图G缩小为一个超级节点s,因此新的表示为:

超级结点(可视为是bert里面的cls向量)定义为:

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第7张图片

利用T个Attentive layers提取超节点s的node embedding,记为hs,认为是该分子的graph embedding。

Attentive layers结构:

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第8张图片

attention层由两个步骤组成: aggregation 和update。在aggregation 中,目标节点t聚合从其1-hop邻居传播的信息。一个注意机制被用来给消息分配权重,这样模型就会关注重要的消息。第1注意层具有注意机制的聚合步骤可形式化为:

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第9张图片

即ht和hi的节点嵌入初始化:

然后,在update中,使用GRU:

三、Experiments and results

1、benchmark(MoleculeNet)

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第10张图片

2、Ablation study

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第11张图片

对比M1, M12和FraGAT模型,随着模型中考虑更多的信息,预测能力提高了,这表明所提出的多尺度特征提取网络的有效性。M2的结果表明,即使只使用片段对来表示分子,该模型在大多数数据集上仍能取得较好的预测性能,这说明了片段与分子性质之间存在相关性。

3、Case studies

在评估阶段,通过打破不同的易碎键,每个分子被扩增成一批样品。对于不同的样本,模型可能得到不同的预测结果。在预测一个给定分子的性质时,比较所有增强样本的预测,并检验样本的两个片段的最佳结果。

SHP2数据集中3个分子(用a、b和c表示),y^i是由模型得到的最终预测的均值,yi是由模型得到的最终预测。E为最终预测的绝对误差,M为Ei最小的样品的易碎键标签号,ym为该样品的预测,Em为真实的绝对误差:

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第12张图片

图5中可以看出,当5号键断裂时,这个氨基是一个片段,得到的样品预测效果最好,如表4所示。

Bioinformatics2021 | FraGAT+:基于分子原始片段的多尺度图注意力机制的分子性质预测模型_第13张图片

创新性很强!!!

你可能感兴趣的:(分子性质预测,论文阅读--molecule,每日读论文,论文阅读)