基于知识图谱和推荐系统的统一药物靶点相互作用预测框架

基于知识图谱和推荐系统的统一药物靶点相互作用预测框架_第1张图片
本文介绍一篇来自浙江大学侯廷军教授课题组、中南大学曹东升教授课题组、浙江大学贺诗波教授课题组和腾讯量子实验室联合发表在Nature Communications的一篇文章。

基于知识图谱和推荐系统的统一药物靶点相互作用预测框架

药物靶点相互作用 (DTI) 的预测在各个领域的药物开发中起着至关重要的作用,例如虚拟筛选、药物再利用和潜在药物副作用的识别。
目前DTI 预测问题:(1)DTI 数据集的高度稀疏性(2)冷启动问题
本文结合了知识图谱 (KG) 和推荐系统开发了 KGE_NFM,一个统一的 DTI 预测框架:
(1)通过KGE提取异构信息;
(2) 通过主成分分析 (PCA) 自动降维;
(3)通过神经分解机(NFM)进行信息整合和药物/蛋白质协同推荐。

KGE_NFM 在三个场景下进行评估:
(1)热启动场景
(2)蛋白质冷启动场景
(3)药物冷启动场景

注意,在推荐系统中的冷启动问题:推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就称为推荐系统的重要组成部分和先决条件。分3类:1. 用户冷启动 2. 物品冷启动 3. 系统冷启动

四个基准数据集:
(1)yamanishi
Yamanishi_08的DTI数据集由四个子数据集组成:酶(E)、离子通道(IC)、G-蛋白耦合受体(GPCR)和核受体(NR)。
(2)BioKG
BioKG是一个专为关系学习而设计的生物知识图谱,集成了来自 14 个数据库的生物医学数据。包括ATC,BRITE,疾病和pathway等。网络总共包含25487 个节点和95579条边。
(3)hetionet
Hetionet整合了29个不同来源的生物医学数据库,网络总共包含11种不同类型的47031个节点(小分子化合物,蛋白,生物过程、分子功能、细胞成分等)和24种不同类型的2250197条边。
(4)luo
Luo’s dataset由四种类型的节点(即药物、蛋白质、疾病和副作用)和六种类型的边(即药物靶点相互作用、药物-药物相互作用、蛋白质-蛋白质相互作用、药物-疾病关联、蛋白质-疾病关联和药物副作用关联)组成。网络总共包含 12015 个节点和1895445条边。

模型主要由两部分组成。(1) KG的构建和embeddings提取。原始输入包含 DTI 数据和相关组学数据,实体和关系的嵌入由 DistMult 提取。(2)NFM对多模态信息的整合。提取的KGEs代表异质信息,分子指纹和蛋白质描述符代表结构信息。这两种类型的信息通过双向交互层进行组合和优化,并使用前馈神经网络 (FFNN) 来捕获 DTI 之间的内在相关性。如下图所示:
基于知识图谱和推荐系统的统一药物靶点相互作用预测框架_第2张图片

数据构建

热启动(warm start),对于药物的冷启动(cold start for drugs),对于蛋白的冷启动(cold start for proteins)。在三个测试场景下,作者将数据集,即活性数据(正样本)按照 1:10 的比例随机划分为测试集和训练集。

如下图所示:
基于知识图谱和推荐系统的统一药物靶点相互作用预测框架_第3张图片

评价指标

(1)为了最大限度地减少数据可变性对结果的影响,使用 10 倍交叉验证来比较我们的方法和其他最先进方法的预测性能。
(2)每种方法的性能通过受试者操作特征曲线下面积 (AUROC) 和精确召回曲线下面积 (AUPR) 进行评估。

结果

Yamanishi_08

基于知识图谱和推荐系统的统一药物靶点相互作用预测框架_第4张图片
在热启动的场景中,我们观察到异构数据驱动方法,DTiGEMS+、TriModel 和 KGE_NFM,在正负样本之间的不同比例(即平衡和不平衡)下实现了高而稳健的预测性能。具体来说,当数据集平衡时,基于特征的方法 RF (AUPR = 0.901) 和 NFM (AUPR = 0.922),以及异构数据驱动方法 DTiGEMS + (AUPR = 0.957)、TriModel (AUPR = 0.946) 和KGE_NFM (AUPR = 0.961),达到较高的预测性能。在药物冷启动的情况下,我们观察到 KGE_NFM (AUROC = 0.853, AUPR = 0.521) 在 AUROC 方面表现最好,而 RF (AUROC = 0.832, AUPR = 0.561) 在 AUPR 方面表现最好。比较RF和NFM,当药物的结构特征(即Morgan Fingerprints)起主导作用时,基于树的算法似乎比DL模型更合适。在蛋白质冷启动的情况下,与第二好的执行方法 TriModel 相比,KGE_NFM 在 AUPR 方面显着优于所有其他基线,领先幅度为 19%。与RF和NFM相比,NFM大大提高了预测性能(AUROC和AUPR都提高了30%左右)。这一结果凸显了 NFM 捕捉药物和蛋白质相互作用中固有关联的潜在能力,这为 NFM 在蛋白质冷启动的情况下提供了巨大的优势。

BioKG

基于知识图谱和推荐系统的统一药物靶点相互作用预测框架_第5张图片
对于热启动的场景,DeepDTI(AUROC = 0.988,AUPR = 0.907)表现最好,KGE_NFM(AUROC = 0.987,AUPR = 0.898)表现第二。在药物冷启动的场景下,基于分子指纹和蛋白质描述符的传统方法RF(AUROC = 0.971,AUPR = 0.891)优于所有其他方法。在蛋白质的冷启动场景中,KGE_NFM (AUROC = 0.899, AUPR = 0.549) 的表现优于另一种异构数据驱动方法 TriModel,在 AUPR 方面提高了 15.7%。

框架中每个组件对预测性能的影响

基于知识图谱和推荐系统的统一药物靶点相互作用预测框架_第6张图片
与基于特征的方法 NFM 相比,KGE 在 DTI 预测上的直接应用(即在异构图中制定链接预测问题)并没有表现出优势。用 NFM 从异构嵌入中推断药物和蛋白质之间的潜在相互作用。从图中看出 Yamanishi_08’ 数据集和 BioKG 的 AUPR 预测性能分别提高了 21% 和 14%。此外,我们还发现,在Yamanishi_08’ 数据集和 BioKG 上,药物和蛋白质的传统表征的实施也有助于预测性能提高 6% 和 2% 的 AUPR 提高,并进行预测更稳健。这些结果表明我们的框架能够有效地整合和利用来自生物分子结构和组学数据的信息进行 DTI 预测。

从 KG 中提取的异构信息通过与其他分类器的集成有助于 DTI 预测

基于知识图谱和推荐系统的统一药物靶点相互作用预测框架_第7张图片
KGE_RF 使用 KGE 和药物指纹以及蛋白质描述符作为输入特征,并使用 RF 构建分类器。与 RF 相比,KGE 和 RF 的集成可以提高 DTI 预测性能。

在合适的组织中构建KG可以进一步提高DTI的预测性能

基于知识图谱和推荐系统的统一药物靶点相互作用预测框架_第8张图片
a由 DTI 数据和所有 KG 组成的网络的介数中心性分布。度数表示链接到节点的边数。节点的中介中心性反映了该节点对网络中其他节点的交互施加的控制量。b与所选 DTI(D00964 和 has:1553)相关的 KG 的可视化,其中绿点代表蛋白质,蓝点代表异质信息,红点代表药物。c与所选 DTI 相关的 KG 网络的介数中心性分布(D00964 and has:1553)。

参考

A unified drug–target interaction prediction framework based on knowledge graph and recommendation system, Nature Communications, 2021, 12, 6775.
Nat. Commun.|KGE_NFM:基于知识图谱和推荐系统的药物靶标相互作用预测框架

你可能感兴趣的:(DrugAi,自然语言处理,深度学习,机器学习)