人工智能辅助药物发现(3)药物从头设计

目录

  • AI辅助药物从头设计概述
  • 小分子药物从头设计
    • 小分子药物结构合理的生成模型
    • 符合生化性质的小分子生成
    • 基于靶点蛋白结构的小分子生成
  • 大分子药物从头设计
    • 核酸类药物设计
    • 蛋白和多肽设计

AI辅助药物从头设计概述

从头药物设计是根据靶点结构直接构造出形状和性质互补的全新配体(化合物),因其能提出结构全新的具有启发性的先导化合物,在药物研发过程中具有重要意义。

小分子药物从头设计

为满足药物分子的结构合理性,生化性质,靶向亲和力等需求,深度学习在这些问题上进行了针对性的探索。

小分子药物结构合理的生成模型

有机物分子的化学结构可能性数量级达到 1 0 60 10^{60} 1060,但具有结构合理性的化合物空间相对较小。因此,在具有结构合理性的化学空间中探索有机物结构的自然分布(即生成结构合理的新分子)是一个重要问题。

Mahmood等人使用掩码图模型做分子图生成。掩码图模型借鉴NLP中随机掩码恢复的思想,对小分子药物图结构随机掩码,再训练MPNN补全graph中被掩码的部分。此后,从既有数据集中采样分子作为初始样本,每次随机掩码部分原子和化学键,使用训练好的MPNN补全graph,重复多次,可以得到结构合理的新分子。

符合生化性质的小分子生成

药物分子进入人体发挥作用的前提是满足一定的物理化学性质,比如脂水分配系数,类药性等,因此,符合相关生化性质要求的小分子生成是一个问题。

基于药物分子的1D描述是SMILES字符串,多数研究思路是用神经网络序列模型学习分子生成的概率分布。ChemTS用RNN学习分子分布,此过程包含了SMILES语法的学习(括号匹配,环的闭合规则),然后用蒙特卡洛树搜索对特定的优化目标进行化学空间搜索。具体来说,树中的每个节点代表SMILES的一个符号,每个分子的SMILES序列对应一条从根节点到叶节点的路径。树搜索的过程可看作树不断扩展生长的过程,每次搜索从根节点出发,用UTC公式选择性质好的节点,直到选到叶节点,然后用RNN学到的生成模型对叶节点扩展。通过不停搜索,可以找到化学性质符合目标的分子(价值函数根据需要的生化性质设计,从而引导搜索)。


蒙特卡洛树搜索回顾机器学习笔记本第二十八课.AlphaGo实例分析


另外有基于VAE的分子生成,借助VAE将分子编码到隐向量,利用MLP预测性质并优化向量(获得符合生化特性的隐向量),利用解码器生成优化后的分子。

药物的2D描述是分子图,目前普遍利用GNN进行特征表示和分子生成。额外将生化性质融入损失函数训练模型。

基于靶点蛋白结构的小分子生成

目前基于靶点蛋白的药物发现发展迅速,方法一般分为虚拟筛选(在已知化合物分子库中筛选针对靶点的高活性化合物)和基于结构的全新药物设计(根据分子和靶点结合部位从头生成符合要求的化合物)。

NLP在药物生成上起到作用,将任务视为seq2seq,蛋白序列作为蛋白语言,SMILES作为分子语言,每个蛋白质序列可以对应一个分子序列。

随着AI4scince的发展,空间结构是决定药物分子性质和理解其在真实物理世界中进行靶向作用的关键,因此,学习受体和配体的3D空间结构对分子生成是重要的。Fabritiis等人设计LIGANN,网络包括两部分:第一部分以蛋白质口袋作为输入,通过BicycleGAN输出对应配体的形状,输入输出均用三维的体素表示;第二部分将配体形状通过一个网络输出最终的SMILES分子。

大分子药物从头设计

小分子半衰期短,毒性大,特异性差。大分子(比如疫苗)相比之下更安全,且在治疗复杂疾病的系统中更重要。

核酸类药物设计

随着新冠肺炎的蔓延,mRNA疫苗等核酸类药物受到日益关注,在mRNA核酸序列的各个功能模块中,5’和3’端UTR序列可以影响整个mRNA的翻译效率和稳定性,因此成为设计的重点。5’-UTR序列的平均长度为200个碱基,随机探索所有可能的序列会导致爆炸的复杂度,并且湿实验成本高,因此,AI可以为湿实验提供指导。

蛋白和多肽设计

蛋白质和多肽设计是生成与具有所需功能的蛋白质和多肽对应的新氨基酸序列。


目前,AI在大分子生成领域还具有很多未知的探索空间


你可能感兴趣的:(生物计算工具,人工智能,深度学习)