DTI-CDF:一种基于混合特征预测药物靶点相互作用的级联深层森林模型

1. 摘要

    药物靶标相互作用(DTIs)在靶向药物的发现和开发中起着至关重要的作用。DTIs的计算预测可以有效地补充湿实验室技术对DTIs的识别。然而,现有的DTI预测方法存在精度低、假阳性率高的问题。本文提出了一种基于级联深度森林模型的预测方法,命名为DTI-CDF。在实验中,本文在三种不同的数据集实验设置下构建了5个重复的10倍交叉验证。实验结果表明,本文提出的DTI-CDF方法比传统的基于集成学习的方法如随机森林和XGBoost、深度神经网络以及最新的DDR方法取得了显著的性能提升。此外,有1352个新预测的DTIs被KEGG和DrugBank数据库证明是正确的。数据集和源代码可以在https://github.com//a96123155/DTI-CDF免费获得。

2. 介绍

    药物发现是确定具有潜在治疗作用的新候选化合物的过程,而药物靶标相互作用的预测是药物发现过程中必不可少的一步。由于DTIs的实验测定既费时又耗费资源,因此开发高效的计算方法是很有必要的,可以充分利用已知DTIs的异质性生物学数据来了解药物在人体内的作用机制。

    化学基因组方法是一种用于预测DTIs的有效方法,该方法可分为两大类求解策略:基于网络的方法和基于机器学习的方法。在基于机器学习的方法中,DTI预测问题被表述为预测一个药物靶点对是否为DTI的二分类任务。一方面,药物和靶标的信息被表示为特征,药物和靶标之间的相互作用被表示为类标签。另一方面,利用双核函数将相互作用网络推理问题转化为药物-目标对之间的二分类任务。

    受前人研究的启发,本文开发了基于级联深层森林(CDF)的模型,以进一步提高DTIs的预测性能。在该方法中,首先利用基于DTIs异构图的基于路径分类的多相似度特征(PathCS)。然后,将CDF模型应用于三种实验设置下,在四个具有代表性的数据集中通过5次重复的10折交叉验证,使用AUPR、AUC和F2-score指标及其平均值进行性能评价。此外,使用统计假设检验来评估结果的统计显著性。最后,验证所提出的DTI-CDF方法明显优于传统的基于集成学习的方法,如随机森林(random forest, RF)和XGBoost (XGB),基于深度学习的方法如深度神经网络(deep neural network, DNN),以及现有的先进方法(如DDR[79])。此外,该方法预测了1352个新的DTIs,这些DTIs都得到了KEGG和DrugBank数据库的支持。

3. 材料和方法

3.1 数据集

    使用Yamanishi et al.编译的四组数据集作为基准来评价所提出的DTI- CDF方法在DTI预测中的性能。这四个数据集根据药物的靶蛋白类型进行分离和命名:酶(E)、离子通道(IC)、g蛋白偶联受体(GPCR)和核受体(NR)。为了更实际地模拟,考虑这四个数据集中DTIs的整个空间。已知的DTIs被认为是阳性样本,阴性数据包含所有未知的或不存在的DTIs。值得注意的是,正样本的数量远远小于负样本的数量。因此,这四个数据集严重不平衡,如表1所示。

DTI-CDF:一种基于混合特征预测药物靶点相互作用的级联深层森林模型_第1张图片

3.2 特征构造

    PathCS是一种基于DTIs的异构加权图的混合特征,包含药物、靶点及其相似性或相互作用。在此图中,两个靶点节点或两个药物节点之间的边表示它们的相似性,边的权值为两个链接节点之间的相似性值。目标与药物之间的边为已知DTI,权值为1。

本研究中用于生成药物和靶点相似性图谱的内核有六种,定义如下:

1.蛋白质内核。
2.药物内核(3种)。
3.高斯相互作用剖面(GIP)内核。
4.基于邻域交互-profile推断。

DTI-CDF:一种基于混合特征预测药物靶点相互作用的级联深层森林模型_第2张图片

    得到上述相似性测度后,第一步是将药物(或靶标)的多个相似性测度合并为一个融合矩阵,构建异构DTIs图,然后提取每个药物靶标对的PathCS。路径类别由路径结构定义,该路径结构从药物节点开始,到靶点节点结束,例如将路径长度设置为2或3。路径分类如下:
药物-药物-靶标
药物-靶标-靶标
药物-药物-药物-靶标
药物-药物-靶标-靶标
药物-靶标-药物-靶标
药物-靶标-靶标-靶标

    根据上述六类路径Ch, h = 1,2,···,6,定义了两个归一化矩阵Nh1和Nh2。对于特定药物di和特定靶标tj,将di到tj的一条路径表示为pq,路径集合为Rijh。此外,di和tj之间的路径由中间节点构建,中间节点被限制为di和tj的五个最近邻。Nh1和Nh2分别具有元素nh1(i,j),元素nh2(i,j),他们的计算方式如下:
在这里插入图片描述

3.3 分类算法

    首先,生成PathCS作为每个DTI的输入特征向量。其次,使用CDF分类器来预测DTIs。在这个过程中,使用前一层新的类别概率向量和原始的输入特征向量作为下一层输入,最终的类别概率向量是通过多个学习者的输出。在构建CDF模型时(图2),确定每一层使用的机器学习器是很重要的。在模型中,每一层的学习器数量在2到6之间,学习器的类型为RF和XGB。

由于文章在服务器上,全文详见:
http://bbit.vip/service/main.php?version=1&type=article&id=82

原论文名称:DTI-CDF: a cascade deep forest model towards the prediction of drug-target interactions based on hybrid features

你可能感兴趣的:(计算机辅助药物设计,药物靶点相互作用预测,多标签,深度学习)