AI+医疗:图表示学习在新药发现中的妙用

⬆⬆⬆              点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近年来,AI技术与医疗健康领域的融合不断加深,已成功应用到语音录入病历、医疗影像辅助诊断、药物研发、医疗机器人和个人健康大数据的智能分析等多个医学场景,为现代医疗技术的发展带来了新的机遇。

药物研发是AI在医疗领域的重要应用场景之一。传统的药物研发不仅周期长、成本昂贵,而且成功率较低。最近几十年以来,科学家们一直在寻求通过现代计算技术来辅助新药发现的过程,特别是人工智能和深度学习在这个领域得到了越来越多的关注。本期AI TIME PhD直播间,我们有幸邀请到史晨策,MILA一年级硕士生,为大家分享他在新药发现领域两个图表示学习工作。

一、背景:新药发现

一款新药的推出,是一个漫长且昂贵的过程,据统计,每个新药的研发大约需要10年以上的时间,平均耗费高达25亿美元,而通过AI可大大加快这一进程。新药发现的流程可大致分为几个阶段,在选定药物作用靶点后,首先需确定先导化合物,然后对先导化合物进行优化,成功完成临床前研究后,再进入最后的临床试验。

AI+医疗:图表示学习在新药发现中的妙用_第1张图片

图1 新药的发现

目前,机器学习在新药发现领域已有多种应用,一些经典任务有分子生成/先导化合物优化、逆合成/反应预测、分子性质预测、药物相互作用研究、药物重新定位等,本次讲者的报告主要涉及分子生成和逆合成预测两大任务。

一)

分子的不同表示

根据不同的维度,分子具有不同的表示形式。一维角度可用SMILES(Simplified molecular input line entry specification,简化分子线性输入规范),是一种用ASCII字符串明确描述分子结构的规范。二维形式,可基于图进行表示。更进阶的有基于分子三维空间中具体坐标的球棍模型,又称为分子的构象。另外,还存在Molecule Fingerprints等其他多种表示方法。

AI+医疗:图表示学习在新药发现中的妙用_第2张图片

图2 分子的不同表示

二)

适用于分子的图神经网络框架

AI+医疗:图表示学习在新药发现中的妙用_第3张图片

图3 适用于分子的图神经网络

二、分子生成

生成模型的应用十分广泛,可用来对图像、文本声音等不同的数据进行建模。例如,最近热门的GPT-3模型可用于文本生成,Glow模型可以生成逼真的图像。那么图结构数据或者分子能否也通过模型进行生成?

AI+医疗:图表示学习在新药发现中的妙用_第4张图片

图4 分子生成

据统计,潜在的药物类化学数据高达,但现有化学数据库中仅有,尚有巨大的探索空间。分子生成希望通过模型,生成真实、新颖、独特的分子,以完善现有数据库。

一)

基于序列的分子生成

若分子是用一维的文本进行表示的,可通过基于序列的模型生成。但这类模型的局限是依赖于SMILES字符串的复杂句法和语义规则,存在因序列导致结构信息丢失的问题。

AI+医疗:图表示学习在新药发现中的妙用_第5张图片

图5 基于序列的分子生成

二)

基于图的分子生成

当分子的表示为二维图像时,也可通过多种方法进行生成。根据方法的性质,可归纳为不同的类型。自回归模型(Autoregressive Model)方法把图形生成描述为一个序列决策过程,使有效性检验器和强化学习自然地结合起来。但其局限性是依赖于特定的节点顺序。

AI+医疗:图表示学习在新药发现中的妙用_第6张图片

图6 基于图的分子生成—自回归模型

联合树(Junction Tree)方法中,将分子看作是由一组子结构组合而成的图。其优势是可以很好的保证分子生成的有效性,但其只适用于树状分子。

AI+医疗:图表示学习在新药发现中的妙用_第7张图片

图7 基于图的分子生成—联合树

流模型是一种比较新颖生成模型,不同于采用优化上界(VAE)或采用对抗训练的方式(GAN)去避开概率计算,流模型选择直接直面生成模型的概率计算,有其独特优势。但现有的基于流模型的图生成模型GraphNVP存在性能表现不够理想、深层结构不稳定、缺乏化学有效性保证等缺点。

AI+医疗:图表示学习在新药发现中的妙用_第8张图片

图8 基于图的分子生成—基于流的生成模型

归一化流的核心是change-of-variable公式,通过变量之间的映射关系,进行建模并求解。

AI+医疗:图表示学习在新药发现中的妙用_第9张图片

图9 归一化流模型

自回归是指向量变量中的每个维度都以先前的维度为条件,如果一个流模型满足自回归约束,则称之为自回归流模型。

AI+医疗:图表示学习在新药发现中的妙用_第10张图片

图10 自回归流模型

三)

基于自回归流模型的分子图生成模型—— GraphAF

从上述分子生成模型的介绍中,可以发现它们大多存在一定缺陷。取其精华,去其糟粕,结合以往模型,史晨策、徐民凯等共同提出了一种新的基于自回归流模型的分子图生成模型——GraphAF。

GraphAF的核心思想是将分子图分解为序列,并将分子图的生成过程看作是一个序列决策过程,使用自回归流对序列建模。GraphAF综合了自回归模型和流模型的优势,具有强大的建模数据分布的能力、数据密度估计高度的模型灵活性,训练时还可以有效地进行并行计算。

AI+医疗:图表示学习在新药发现中的妙用_第11张图片

图11 GraphAF模型

由于流模型只能应用于连续数据,GraphAF中采用反量化方法将离散数据转换为连续数据,具体转换过程如图12。

AI+医疗:图表示学习在新药发现中的妙用_第12张图片

图12 反量化

图13是GraphAF其中一步的生成过程,展现了其具体的计算原理。

AI+医疗:图表示学习在新药发现中的妙用_第13张图片

图13 GraphAF某一生成过程

为了验证GraphAF的性能,在三个标准任务上进行了实验,图14是其中之一。该实验的目的是生成具有所需性质的分子,这里选取penalized logP 和QED作为目标性质。实验结果表明,GraphAF取得了很好的效果。

AI+医疗:图表示学习在新药发现中的妙用_第14张图片

图14 GraphAF的实验结果

三、逆合成预测

计算化学领域的一个基础任务是找到一组反应物以合成目标分子,即逆合成预测(Retrosynthesis Prediction),而这种技术通常用于新药发现。

AI+医疗:图表示学习在新药发现中的妙用_第15张图片

图15 逆合成预测

一)

基于反应模版的逆合成预测

现有的逆合成分析算法主要有两类:基于反应模版的方法和不依赖反应模版的方法。基于反应模版的方法将目标分子与许多反应模版进行匹配,每个反应模版定义了一系列类似的化学反应的子图特征。但目标分子可能存在成千上万与之相匹配的反应模版,如何确定哪个模版可以真正生成所需产物成为了这类方法需要解决的难点。图15给出了基于反应模版的一些具体工作。

AI+医疗:图表示学习在新药发现中的妙用_第16张图片

图15 基于反应模版的逆合成预测

虽然基于反应模版的方法有较好的可解释性,但有很多不可避免的缺陷。首先,在未出现过的结构上泛化能力差,一旦匹配失败,则模型不能给出任何的预测。其次,这类方法需要进行子图同构,而子图同构在计算上非常昂贵。最后,提取或设计模版需要领域知识的支持。

二)

不依赖反应模版的逆合成预测

基于Seq2Seq模型,有研究人员提出了不依赖反应模版的逆合成预测方法。该方法把需要合成的产物看作字符串,将化学反应当作语言翻译的过程,目的是把产物分子的字符串表示翻译到反应物分子的字符串表示。然而,分子的字符串表示往往不能有效地刻画分子中各原子之间的复杂关系,整体性能表现欠佳。

AI+医疗:图表示学习在新药发现中的妙用_第17张图片

图16 基于Seq2Seq的逆合成预测

三)

G2Gs模型

针对以上问题,史晨策等提出了一种新的不依赖反应模版的逆合成预测模型——G2Gs模型。研究动机如下:(1)在化学反应中,只有一部分官能团发生了变化,大部分官能团则保持不变,应该尽可能利用不变部分的信息。(2)有机反应的机理可由代表电子流动的箭头图来表示,每个箭头表示一个键的断裂或形成。因此,可以逐步地在分子上产生或去除键。(3)借鉴化学家逆合成分析的思路,选择合适的化学键进行切断,将目标分子转化成一些稍小的中间体;再以这些中间体作为新的目标分子,将其切断成更小的中间体。

G2Gs(A Graph to Graphs Framework for Retrosynthesis Prediction)是一种新颖的不依赖反应模版的方法,它将每个分子表示为一张分子图,并将逆合成预测抽象为产物图到反应物图翻译的问题。相较于基于Seq2Seq,G2Gs模型在化学层面具有更好的可解释性。G2Gs整个框架包含两个阶段:反应中心识别和变分图翻译。

AI+医疗:图表示学习在新药发现中的妙用_第18张图片

图17 G2Gs模型框架

反应中心识别模块,把反应活性最高的原子对作为反应中心,通过断裂反应中心,将给定目标分子分割成多个合成子,从而使一对多的图翻译任务转换为了多个一对一的翻译任务,降低了问题的难度。

AI+医疗:图表示学习在新药发现中的妙用_第19张图片

图18 反应中心识别

变分图翻译模块基于获得的合成子,通过一系列图变换生成最终的反应物。该模块的整个过程包含4个动作:(1)选取第一个点;(2)选取第二个点;(3)选取两个点之间边的类型;(4)判断翻译过程是否结束。

AI+医疗:图表示学习在新药发现中的妙用_第20张图片

图19 变分图翻译

为了评估G2Gs模型的性能,在标准数据集USPTO-50K上进行实验,它包含5万个原子对应的化学反应。采用top-k(基于规范的SMILES)精确匹配准确性作为评估指标,比较了在反应类型已知和反应类型未知两种情形下各模型的性能。实验结果表明,G2Gs总是大幅优于现有其他不依赖反应模版的方法。和基于模版的方法相比,G2Gs接近或优于当前最好的GLN模型的性能。

AI+医疗:图表示学习在新药发现中的妙用_第21张图片

图20 G2Gs模型实验结果

同期,除G2Gs模型外,其他学者也提出了一些类似的研究成果,如图21展示的两个工作,这也从侧面反映了该话题目前的热门程度。

AI+医疗:图表示学习在新药发现中的妙用_第22张图片

图21 其他类似工作

四、总结

总结来说,本次报告史晨策围绕新药发现中的图表示学习,介绍了两个模型:

1)基于自回归流模型的分子图生成模型—— GraphAF

GraphAF是一种新颖的分子图生成模型,不仅在数据密度估计上具有高度的模型灵活性,而且支持训练高效的并行计算。采取迭代采样,在生成过程中加入有效性检测以保证生成的化学分子真实、有效。

2)可以预测分子逆合成路线的模型——G2Gs

G2Gs是第一个基于图且不依赖于反应模版的逆合成预测方法,在接近或达到最先进方法表现的情况下,避免了反应模版和昂贵的子图同构,且具有更好的可扩展性。

相关文献及链接:

Paper:GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation. , , Zhaocheng Zhu, Weinan Zhang, Ming Zhang, Jian Tang(同为论文一作)

A Graph to Graphs Framework for Retrosynthesis Prediction. Chence Shi,Minkai Xu,Hongyu Guo,Ming Zhang,Jian Tang

Link: https://arxiv.org/abs/2001.09382

https://proceedings.icml.cc/static/paper_files/icml/2020/4152-Paper.pdf

Data: https://github.com/DeepGraphLearning/GraphAF

整理:何文莉

审稿:史晨策

排版:田雨晴

本周直播预告:

AI+医疗:图表示学习在新药发现中的妙用_第23张图片

AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至[email protected]

微信联系:AITIME_HY

 

AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

AI+医疗:图表示学习在新药发现中的妙用_第24张图片

更多资讯请扫码关注

(点击“阅读原文”下载本次报告ppt)

(直播回放:https://b23.tv/j2jvsj)

你可能感兴趣的:(大数据,算法,编程语言,机器学习,人工智能)