关于drug-target interaction

基本概念

首先了解一些概念:

  • 药物再利用(drug repurposing):将现有药物转向新的治疗方法;
  • 虚拟筛选(virtual screening):自动筛选潜在的drug-target pairs,并计算预测的结合分数;

对于药物靶标预测(drug-target interaction),上面两个任务都能节约时间成本,促进药物发现。深度学习在药物再利用和虚拟筛选方面表现出强大的性能。这两个任务都依赖于一项基本任务的准确和快速预测:药物-靶标相互作用预测。DTI 预测任务旨在预测输入药物靶标对(drug-target pairs)的相互作用概率(interaction probability)或结合分数(binding score)。 给定一个强大的 DTI 模型,它能够泛化一个新的看不见的数据集,然后我们可以扩展到药物再利用和筛选(repurposing or screening)。

对于repurposing,给定一个新的感兴趣的target,我们可以先将其与再利用药物库(repurposing drug library)配对。然后这个输入(drug-target pairs)的列表被输入到经过训练的 DTI 模型中,该模型将输出预测的结合分数(binding score)。

同样,对于虚拟筛选,给定我们想要的待筛选 “药物-靶标对” 的列表,DTI 模型可以输出预测的相互作用结合分数。 然后,我们可以根据它们的结合分数对预测结果进行排名,并在人工检查后在湿实验中测试 top-k 选项。

识别药物-靶标相互作用 (DTI) 将大大缩小候选药物(candidate medications)的搜索范围,因此可以在药物发现中发挥关键作用。药物通常与一种或多种蛋白质相互作用以实现其功能。 然而,发现药物与靶标蛋白之间的新相互作用对于新药的开发至关重要,因为蛋白质的异常表达可能会导致药物的副作用。考虑到体外实验极其昂贵和耗时,高效的计算预测方法可以作为药物-靶标相互作用 (DTI) 预测的一种有前景的策略。


DeepPurpose框架:
DeepPurpose 使这些过程自动化。只需要一行代码,聚合了五个预训练的深度学习模型并检索了一个排名潜在结果的列表。在这个框架中,目标是专注于药物-靶标相互作用 (DTI) 预测的深度学习方法。


背景描述

人类历史一直遭受各种疾病的折磨。当一种新的疾病如2019年冠状病毒病(新冠肺炎)爆发时,由于费用和时间方面的巨大成本,从头的药物设计并不是最佳选择。另一种可能的替代方法是进行药物再利用,即从已知药物和分子中筛选药物。

随着计算能力的快速发展,预测药物-靶标相互作用(DTI)以识别候选的活性结合药物的电子药物筛选已成为药物发现中最重要的技术之一。在DTI预测技术中,分子动力学模拟通过应用物理和分子力学分析蛋白质和药物分子的原子运动,从而达到高精度预测。然而,将这种模拟应用于化合物库(compound libraries)的高通量筛选(high-throughput)是非常昂贵的。因此,一种称为分子对接(molecular docking)的替代方法被广泛采用,通过应用启发式和经验分数函数来权衡精确度以获得更高的吞吐量。分子对接实现了更高的吞吐量,但与分子动力学方法相比,精确度较低。

最近,许多深度神经网络模型被提出用于DTI预测,以可承受的成本实现高精度DTI预测。这些算法将DTI预测分为两个二元分类任务,即:

  • 结合活性预测(binding activity prediction),预测化合物(chemical compound)是否能与靶标蛋白(target protein)结合;
  • 结合位姿预测(binding pose prediction),确定预测的结合位姿(binding pose)是否接近天然构象(native conformation,在有机化合物分子中,由C-C单键旋转而产生的原子或基团在空间排列的无数特定的形象称为构象)。

给定一个化合物-受体对(compound–receptor pair),这些深度神经网络模型又大致可以分为两种类型:

  • 第一类模型(称为 I 型方法)首先使用分子对接软件将相关配体(drug)与受体(target)对接,然后从生成的位姿中提取结合位点(binding site)周围的结构,最后将结构输入神经网络。例如,Lim等人将结合位点表示为graph,并使用图形神经网络(GNN)预测结合活性和结合位姿。具体而言,该模型采用了距离感知注意力来处理分子间信息(intermolecular information,坐标和距离)。
  • 第二类模型(称为 II 型方法)对于没有3D结构的受体有更广泛的用途。与I型方法相比,它们首先分别表示受体和配体,然后利用各自的表示进行结合活性预测。例如,MONN使用CNN编码全长蛋白质序列来表示受体(target),使用GNN来编码配体的表示(drug),并使用这两种表示的内积进行预测。

这两种类型的模型可以被视为两种不同但互补的方法来模拟受体和配体之间的相互作用,这是DTI问题的中心。

I 型方法利用分子对接软件生成的位姿的分子间信息(即坐标和距离)。该信息虽然可能不准确,但反映了手工scoring函数中所包含的物理化学知识。然而,这些方法通常将两个分子间的边视为分子内的边,实际上忽略了拓扑信息(即哪些边是两个分子间的边)。

II 型方法选择不使用生成的位姿,而是学习专用网络模块预测蛋白质-配体相互作用。通过这种方式,结合活性的预测被限制为学习相互作用的函数,而不是单个受体和配体,这些模型能够有效地使用分子间相互作用的拓扑信息。

你可能感兴趣的:(生物计算工具)