Briefings in bioinformatics2022 | FP-GNN+:用于分子性质预测的versatile DL架构

Briefings in bioinformatics2022 | FP-GNN+:用于分子性质预测的versatile DL架构_第1张图片

原文标题:FP-GNN: a versatile deep learning architecture for enhanced molecular property prediction

地址:https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbac408/6702671

代码:GitHub - idrugLab/FP-GNN

(标题中的 + 号是自己标的,表示有代码,原文中并没有)

2022年9月17日,华南理工大学王领老师团队在Briefings in Bioinformatics上发表文章。基于分子指纹(fingerprint,FP)和图神经网络(graph neural networks,GNN)的分子性质预测模型,结合了分子指纹表示和基于图神经网络的分子图表示。

一、问题描述

基于机器学习(ML)的QSAR/QSPR模型严重依赖于适当的分子表示

目前,分子表征可分为分子描述符、指纹和图三大类。分子描述符和指纹源自人类专家领域知识,分子描述符和指纹可用于传统ML(如朴素贝叶斯(NB),SVM,随机森林(RF),XGBoost和深度学习(如深度神经网络)算法的输入,用于QSAR/QSPR建模任务。然而,基于分子描述符的模型在大数据时代面临一个主要挑战:如何从大量预定义的和可计算的分子描述符中选择与感兴趣的属性相关的最重要的描述符(称为手工描述符)。这一步不仅对模型的性能准确性有重要意义,而且直接关系到模型的可解释性。

在分子特性学习任务中,基于图的DL模型是否优于传统的基于描述符的ML模型仍存在争议。

目前,基于graph的DL模型仍然存在建模数据集不足的潜在局限性,图神经网络(GNN)的自动学习机制特性可能难以从不足的数据集中学习鲁棒的图表示。

假设graph或fingerprint捕获的信息是不同的,可能是互补的。因此,指纹中包含的重要的局部化学信息可以帮助模型获得更好的结果。

二、Materials and methods

1、Graph neural networks with attention mechanism

分子是自然的graph结构数据,因此选择spatial-GNN从分子graph中计算信息 。将分子用图表示:G(V, E),V是点、E是边,spatial-GNN通过聚合自身和邻居的信息来更新每个节点:

 其中hi是节点i的向量,N(i)是节点i的neighbors。

最后,模型将总图按聚合到输出:

 上图a,使用注意机制来更新节点消息。图注意机制关注邻居的影响,根据计算节点j到节点i的注意:

||表示concat操作,然后对e进行softmax:

 将注意作为权重,更新节点i如下:

 然后多次计算注意力,并计算出平均值作为最终注意力:

 更新所有节点后,完整分子图的输出为它们的平均值:

2、Initial molecule featurization

在数据导入GNN模型之前,利用分子的性质初始化分子图的节点。

3、Molecular fingerprints

分子指纹大致分为子结构键型指纹、拓扑或路径型指纹和圆形指纹。使用三种互补指纹图谱(MACCS指纹、Pharmacophore ErG指纹和PubChem指纹,因为它们可以互补并全息表达分子特征。

MACCS指纹:使用SMARTS模式的基于子结构密钥的指纹。包含了大多数不同拓扑分离下的原子性质、键性质和原子邻域,1 + 166 bit

PubChem指纹:基于子结构密钥的指纹,长度为881bit。

Pharmacophore ErG指纹:利用扩展约化图(ErG)方法,应用药效团类型节点描述对分子性质进行编码的2D药效团指纹图谱。

4、FP-GNN network architecture

上图B,首先将分子图和三个互补的分子指纹组合成灵活的动态神经网络。将SMILES输入到FP-GNN结构的两条路径上。

在一条路径上,将三个互补指纹(MACCS指纹、PubChem指纹和Pharmacophore ErG指纹)按顺序拼接为混合指纹:

 将指纹向量输入到FCN中,得到如下:

另一条路径是利用GNN模型获取分子图信息。节点表示通过注意机制从其自身和相邻节点聚合而成。最后,将所有节点的平均值作为输出来表示分子图。

然后将从两条路径接收到的结果concat在一起,输入FC层,产生最终输出。

5、Hyperparameter optimization and training protocol

采用Hyperopt Python包对超参数进行贝叶斯优化。选择6个超参数:GNN的dropout_rate、attention heads、hidden_size、fingerprint networks (FPN)的hidden_size和dropout、GNN的ratio

Matrox MGA G200e的SCUTGrid (SCUTGrid超级计算平台)上进行训练。

6、Benchmark datasets and performance evaluation metric

回归任务以均方根误差(RMSE)进行评估,分类任务以受试者工作特征曲线(ROC-AUC)或精确召回曲线(PRC-AUC)下的面积进行评估。

三、Results and discussion

1、Performance of the FP-GNN network architecture on the public benchmark datasets

 建立分子性质预测模型的最终目的是预测具有新型支架的新分子的性质,使其处于所需性质的适当范围内。因此,在BACE、BBBP和HIV数据集上使用基于支架的分裂方法,以确保训练集、验证集和测试集中的支架尽可能不同。其他都是Random split

通常,DL模型在小数据集上表现一般,因为样本不足不能提供足够的信息。FP-GNN在小于1000分子的PDBbind-C和FreeSolv数据集上表现最好,说明FP-GNN在样本不足的数据集上也具有竞争力。

2、Performance of the FP-GNN network architecture on an unbiased and realistic LIT -PCBA dataset

Briefings in bioinformatics2022 | FP-GNN+:用于分子性质预测的versatile DL架构_第2张图片

 如图A所示,与5个Morgan指纹模型和2个graph模型相比,FP-GNN在6个靶标(ADRB2, ALDH1, ESR1_ago, MAPK1, PPARG和TP53)上表现出了最好的性能

与基于混合指纹的模型相比,FP-GNN也表现出了同样出色的性能(图B):

Briefings in bioinformatics2022 | FP-GNN+:用于分子性质预测的versatile DL架构_第3张图片

3、Performance of FP-GNN compared to the advanced graph-based and fingerprint-based models on cell-based phenotypic screening datasets

13个乳腺癌细胞系和1个正常乳腺细胞系的表型筛选数据集用于评估FP-GNN的性能。

4、The ablation experiment of FP-GNN

研究从分子图中获取的局部邻域和全局结构信息,以及从分子指纹中获取的化学子结构信息是否可以相互补充。

FP-GNN消融实验在无偏、真实的LIT -PCBA数据集上进行。将每个目标的整个FP-GNN模型分为具有原始超参数的FPN和GNN模型。FP-GNN也使用相同的超参数,只是FP-GNN模块中GNN的比例设置为0.5。如下图所示,在15个目标中,FP-GNN模型有10个优于FPN和GNN。FP-GNN模型表现中等,略低于GNN,但在其他5个指标(ESR1_ago, FEN1, KAT2A, MTORC1和OPRK1)上明显高于FPN模型。这些结果说明FP-GNN结合了FPN和GNN的优点,捕获了分子图和指纹的互补信息,获得了更好的性能。

Briefings in bioinformatics2022 | FP-GNN+:用于分子性质预测的versatile DL架构_第4张图片

5、The influence of different types of fingerprints

探讨不同分子指纹对FP-GNN结构性能的影响。除了三种互补指纹的混合之外,还将1024位的ECFP-4指纹加入到FP-GNN架构中,然后在公共数据集上对其进行测试。

互补性差异可能与指纹生成的具体算法有关。混合指纹记录了大部分的原子和键的性质(MACCS指纹)、广泛的化学结构和亚结构(PubChem指纹)和药效团特征(pharmacophore ErG指纹)信息,这些信息可能不包含在分子图的特征中。而摩根指纹只记录了原子的局部环境信息,这可能与分子图特征相似。

抗噪能力:

6、The interpretation of FP-GNN

颜色越深的分子部分在预测分子是否能通过血脑屏障方面作用越显著,而颜色较浅的部分作用不那么重要。以活性分子为例(图7A),该化合物的大部分亚结构基团都是疏水的,为穿透血脑屏障奠定了基础。

分子的苯环(C7-C12,用红色标记)极性最小,对血脑屏障穿透的贡献最大。使用ChemBioDraw (v .14.0.0.117)进一步定量分析这些化学片段的ClogP值。定量分析表明,红色标记的化学部分极性较低(ClogP = 2.142),而灰色标记的化学部分极性较高(ClogP = 1.389)。FP-GNN模型非常关注低极性苯环,这也与作为活性分子的预测结果一致。

如图7B所示,对于非活性分子,深色部分(用红色标记)代表一个暴露的取代基氨基,它提供了大部分极性,以防止分子通过血脑屏障。红色化学片段的ClogP值为−0.905,灰色化学片段的ClogP值为0.934。

较低的ClogP表明分子的红色部分更亲水,难以通过血脑屏障。FP-GNN模型中红色部分的高度关注与非活跃预测结果一致。这些实例不仅证明了FP-GNN模型是可解释的,而且也暗示了FP-GNN网络体系结构可以学习这些关系。

Briefings in bioinformatics2022 | FP-GNN+:用于分子性质预测的versatile DL架构_第5张图片

在FPN模型中使用的混合指纹(MACCS指纹、PubChem指纹和Pharmacophore ErG指纹)共有1489位。依次改变每个比特的值,然后将混合指纹输入到训练模型中。不同变化位元所产生的影响表明了指纹在模型中的重要性。修正值与原始预测值的偏差越大,指纹位对预测分子的自由溶剂化作用就越重要。

十个最有效的位显示在table 3中。如Table 3所示,以第4位、第5位、第7位和第10位为代表的亚结构极性强,水溶性高,在分子的自由溶剂化过程中起着至关重要的作用。

Briefings in bioinformatics2022 | FP-GNN+:用于分子性质预测的versatile DL架构_第6张图片

你可能感兴趣的:(每日读论文,分子性质预测,论文阅读)