点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
分子性质预测能够识别具有目标性质的候选分子,在药物发现中发挥着重要作用。由于新药发现研究中已知药理性质的分子(有标签样本)少,分子性质预测本质上是一个小样本问题,很难使用常规的机器学习方法解决。
在已有的小样本的分子性质预测研究中,现有工作常直接使用小样本学习的经典方法,但是忽视了分子性质预测问题的特性,即在不同性质预测任务中起作用的子结构和分子间关系均是不同的。在这篇工作中,我们提出了新的小样本分子性质预测模型--性质感知的关系网络(PAR)。
我们首先引入一个性质感知的表示学习函数,将通用分子表征转换到与目标性质相关的子结构空间。然后,我们设计了一个性质自适应的关系图学习模块来联合估计分子之间的关系图并改进分子表征,使得标签信息可以在相似的分子之间有效地传播。
我们采用元学习策略,在任务中选择性地更新参数,以便对通用知识和目标性质专有知识进行分别建模。在基准分子性质预测数据集进行的大量实验表明,PAR始终优于现有方法,并且可以获得性质感知的分子表征并正确建模分子关系图。
本期AI TIME PhD直播间,我们邀请到百度研究院商业智能实验室资深研究员——王雅晴,为我们带来报告分享《小样本分子性质预测新方法——性质感知的关系网络》。
王雅晴:
百度研究院商业智能实验室资深研究员。于2019年博士毕业于香港科技大学计算机科学及工程学系,师从倪明选教授和郭天佑教授。研究机器学习并聚焦小样本学习的理论研究和产业实践,现有多篇成果发表在ICML、NeurIPS、WWW、SIGIR、EMNLP、JMLR、TIP等顶级会议及期刊。发表在ACM Computing Surveys的小样本学习综述为ESI认证的2021年热点和高被引论文。
Molecular Property Prediction分子性质预测
如下图所示,在药物研发流程中,最终只有很少量的分子能在湿实验中获得属性标签。这使得分子性质预测任务本质上是一个小样本学习任务。
Problem Formulation
我们将这个问题建模成如何从一大堆的分子性质预测任务中学习一个预测器。这个预测器仅需要提供少量的带标签分子,就能够泛化到当前的目标性质上。
具体而言,每一个任务就被建模成了一个2-way分类任务:在每一个任务之中,我们考虑的都是一个分子是否在每个特定性质上是否被激活这样一个二分类问题,即2-way。
如经典小样本学习的设定一样,在这个任务中会有一个训练集support set,里面包含的是有标签的数据。每一个类会有K个带标签分子,即一个任务提供2K个带标签分子作为监督信号。此外,还存与一个测试集query set用来评估模型效果。
Existing Works
已有的分子性质预测方法大多遵循一个固定的框架:把分子看成图,原子为图中的点,化学键为边,将分子送入图神经网络(GNN)之后即可得到分子表征(图表征);之后再通过经典小样本学习方法得到分子性质预测的结果。
IterRefLSTM [Altae-Tran et al., ACS Central Science, 2017]基于Matching Networks [Vinyals et al., NeurIPS, 2016], 而Meta-MGNN [Guo et al., TheWebConf, 2021]则改进了MAML [Finn et al., ICML, 2017]。
Motivation
但是,现有工作均忽略了分子性质预测任务中两个非常重要的点。
第一点是,不同的分子性质其实是由于他们不同的子结构所决定的,这也是很多生化研究人员发现的。
第二点是,如果你考虑不同的性质,分子之间的关系是会发生变化的。比如说,当你考虑性质SR-HSE的时候,分子1和分子4因为有相同的label而比较接近。
而当我们在考虑性质SR-MMP的时候,我们会发现分子1和分子2又接近了。他们的关系其实是和当前我们要考虑的性质是密切相关的。所以,我们提出了Property-Aware Relation networks (PAR)。
PAR Framework
我们首先给出PAR的整体框架图。PAR有两个重要组成部分:Property-aware Molecular Embedding和relation graph learning。接下来,我们分别介绍这两部分。
Property-aware Molecular Embedding
由于不同的分子性质是由不同的分子子结构决定的,我们设计了这个模块来捕捉这个信息。下图以2-way 2-shot任务为例。
针对每个query set里的样本,我们需要预测出它在这个性质是active还是inactive。得到分子之后,我们通过GNN得到其表征,这个GNN可以是预训练得到的。我么的目标是使得通用的分子表征能够转用到跟当前性质相关的空间上。
首先,我们把两个active类的分子表征求一个平均,inactive的类也取一个平均,从而得到两个类的类代表。
在此之后,每一个得到的分子表征和两个类代表通过自注意力机制获得新的分子表征,这样新的分子表征就得到了需要预测的性质的信息。
Relation Graph Learning
在关系图学习的部分,我们采用了动态图学习的策略,旨在利用动态图学习的GNN网络更好地学习分子间关系以及分子表征。
这涉及到迭代的(1)估计分子关系图和(2)更新分子表征。特别的,我们对学到的分子关系图做了个稀疏的操作,比如说我们要求每个分子只能有K个邻居,从而避免选错邻居带来的错误监督信号。
Training and Inference
我们采用了元学习的方式。将模型中的参数分成泛用的参数以及特定性质相关的参数两类:
我们先从大量训练任务中学习一个较好的参数初始值:
随后,在每个任务内部,我们会把θ固定住,而只是去泛化Φ:
通过在训练过程中采用这种部分更新的策略,我们分别获取跨不同任务共享的知识和属性,可以更好的把通用的知识和当前性质有关的知识更好的区分开来,从而提升模型的训练效果。
Setup
实验部分,我们考虑了两组baseline,并使用了4个经典的分子预测数据集。
两组baseline:
Methods with graph- based encoder learned from scratch including Siamese [Koch et al., 2015], ProtoNet [Snell et al., 2017], MAML [Finn et al., 2017], TPN [Liu et al., 2018], and EGNN [Kim et al., 2019], IterRefLSTM [Altae-Tran et al., 2017];
Methods which leverage pretrained graph-based molecular encoder including Pre-GNN [Hu et al., 2019], Meta-MGNN [Guo et al., 2021], and Pre-PAR which is our PAR equipped with Pre-GNN.
四个数据集:
Performance Comparison
实验结果展示,在没有使用预训练GNN时,PAR的表现是最好的。如果使用预训练的GNN,Pre-PAR(带预训练GNN的PAR)达到的效果是最好的。
Ablation Study
我们比较了PAR和Pre-PAR在一些指标上的区别。可以看到,模型的每项设计对最终的预训练结果都是有增益的。
Varying Molecular Encoders
此外,我们还测试了不同GNN抽取分子表征的影响。在本文用到的四个数据集上,GIN的效果是最好的。
• GIN [Xu et al., 2018] (used)
• GCN [Duvenaud et al., 2015]
• GraphSAGE [Hamilton et al., 2017]
• GAT [Veliˇckovi´c et al., 2017]
Case Study on 10 Molecules
特别的,为了验证PAR是否可以给出对分子性质敏感(property-aware)的分子表征,我们选取了固定的10个分子,考察它们的3种性质。
我们的目标是想看一下虽然这10个分子是一模一样的,但是在考虑不同性质的时候是否能真的学到不同的分子关系图呢?以及他们的分子表征是否能真的不一样呢?
提
醒
论文题目:
Property-Aware Relation Networks for Few-Shot Molecular Property Prediction
论文链接:
https://papers.nips.cc/paper/2021/hash/91bc333f6967019ac47b49ca0f2fa757-Abstract.html
点击“阅读原文”,即可观看本场回放
整理:林 则
作者:王雅晴
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了600多位海内外讲者,举办了逾300场活动,超170万人次观看。
我知道你
在看
哦
~
点击 阅读原文 查看回放!