新型小分子药物的开发通常从生物学家确定疾病靶标开始,然后再成千上万的化合物中挖掘出一组可抑制或激活特定疾病靶标的活性分子。之后,再进行一系列的药代动力学,药效学,毒性测试以及结构修改获得苗头化合物(先导化合物)。接着,经过多阶段临床试验后筛选出最佳候选药。经过药监局审批,候选药物上市。
新药研发需要大量实验且具有极高失败率,完成一个新药的研发需要花费10-20年以及5-26亿美元。
高通量筛选(HTS)和虚拟筛选(VS)是获得苗头化合物的两种技术。HTS难以涵盖更多化合物,VS需要众多高质量的三维结构数据。深度学习具有强大的表征能力,可用于苗头化合物筛选中的重要步骤:化合物-蛋白质相互作用预测(CPI,compound-protrin interaction)。
AI加速CPI基于两个方面:
目前,生物实验已经积累了大量CPI数据,不仅包含小分子与蛋白质的相互作用,还包括由IC50,Ki,Kd和EC50等指标度量的结合亲和力。
STITCH是目前最大的CPI数据库,包含16亿对相互作用。BindingDB是第二大CPI数据库,包含200万个结合亲和力数据。PDBbind是中型CPI数据库,提供17000个实验确定的化合物-蛋白质复合物结构和亲和力数据,并额外包含结合位点数据。此外,KIBA,Davis,DUD-E是普遍使用的三个小型数据库。
靶点蛋白相关的数据库为KEGG,DrugBank,TTD。另外,PubChem和ChEMBL是两个综合性化合物数据库。
传统的特征工程将化合物和蛋白质编码为高维特征向量,每个维度反映了化合物和蛋白质的特定属性。根据化学结构的维度,化合物的特征描述包括基于结构的1D,2D,3D表示。
另外,分子指纹是经典的化合物特征表示方法。化合物的分子指纹分为:基于子结构,基于路径,圆环,药效团。
从特征工程衍生出的蛋白质描述符包括基于序列和基于结构的描述符:
目前主要的方法分为三类:经典Y型,基于注意力,基于绑定复合物。
这是最早的深度学习在CPI上的应用。DeepDTA就是Y型架构,其中一个分支使用SMILES编码化合物(1D),另一个使用1D序列作为蛋白质表示编码蛋白质,然后由两个独立的卷积网络分别编码为相应的embedding。再将化合物和蛋白质embedding拼接后输入到一个或多个全连接层。最后输出亲和力预测结果。此外,化合物和蛋白质的更多特征表示也可以被整合到Y型框架。
化合物可以直接表示为分子图,因此GNN在小分子表征方面可以发挥作用。比如GraphDTA使用混合GNN(GCN,GAT,GIN图同构网络)获得化合物的图表征,采用多层1D CNN获得基于序列的蛋白质表示。
关于蛋白质,也可以通过distance map或contact map表示。比如DGraphDTA通过PconsC4从蛋白质序列生成contact map,然后构建蛋白质graph,节点为氨基酸,边表示其相邻关系,最后在小分子graph和蛋白质graph上采用GNN获得embedding。
Y型架构实现了CPI预测,但不能指出哪些因素对相互作用有贡献,以及相应的贡献程度。将注意力整合到Y型架构有利于解释化合物与蛋白质形成的相互作用:蛋白质的关键子序列(残疾或n-gram氨基酸)与化合物的关键子结构的相互作用。
大多数基于注意力的模型分别针对化合物和蛋白质设计注意力模块。DeepCDA将化合物SMILES字符串,蛋白质序列分别传入一个LSTM和一个CNN,然后通过注意力机制表明化合物子结构和蛋白质残疾之间的相互作用强度。
一些研究设计了联合注意力模块(co-attention),AttentionDTA使用两个1D CNN提取化合物和蛋白质的表征,然后应用联合注意力模块捕获化合物子序列和蛋白质子序列,帮助寻找结合位点。
通常,大量的蛋白质结构是难以获取的,但当有化合物-蛋白质复合物时,设计基于复合物的模型有助于CPI预测。
在早期,AtomNet直接采用3D CNN,将化合物-蛋白质复合物离散成三维网格,获得活性复合物和非活性复合物的表征。由于3D网格计算复杂,近期一些工作关注化合物-蛋白质结合口袋的特征表示(蛋白质的结合口袋是指蛋白质表面或内部具有适合与配体结合的空腔),而不是整个复合物的特征表示。
关于CPI预测
我个人认为,结合口袋建模(基于复合物的方式)可能是更合理的方法,因为基于复合物的方法从几何视角描述了化合物子结构与蛋白质子序列的相互作用。
CPI预测分为二元预测任务(分类,区分化合物是否与蛋白质结合)和亲和力预测任务(回归,推断化合物与蛋白质结合的强度)。通常,亲和力预测比二元分类预测更困难。此外,可以注意到一个集成模型DeepPourse。
深度学习在CPI预测上展示了良好性能,但依然存在挑战:
CPI预测是寻找苗头化合物的第一步。为了加快苗头化合物的发现过程,DeepScreening根据结合亲和力针对特定靶标进行大规模化合物筛选。深度学习可以加快发现新的活性化合物,推进药物发现。