以及2个节点分类任务:
通过实验结果证明了目前的图嵌入方法取得了良好的效果,在生物医学网络分析方面具有很大的潜力。
图(又称网络)是一种非线性的数据结构,为了分析图数据结构,研究者提出了大量的图嵌入(又称网络嵌入或图表示学习)的方法去自动学习图中每个节点的低维特征表示。直观上看,图嵌入方法是通过学习低维表示来保留图的结构信息,从而完成像链接预测,社区检测,节点分类和聚类等相关任务。现在图数据结构已经被广泛用于表示生物医学中的实体(节点)及其关系(边)。分析生物医学的图结构对于像药物重定位,非编码RNA的功能检测以及协助临床的决策等重要的医学任务都有重要的意义。到目前为止,大多数的图嵌入方法都是在社会网络和信息网络上进行评价,而在生物医学网络上还没有进行系统的实验和分析。另一方面,各种生物医学网络分析任务,矩阵分解等传统技术(可视为一种图嵌入方法)取得了可喜的成果,因此有必要系统地评估最近的图嵌入方法(如基于随机游走和基于神经网络)在生物医学任务上的可用性和进一步发展为最先进技术的潜力。(图1总结了将各种图嵌入方法应用于生物医学任务中的流程。)
主要贡献
在本节中,将图嵌入方法分为三类,分别是基于MF的方法,基于随机游走的方法和基于神经网络的方法,并对这些方法进行了概述。
1. 基于MF的方法:
- 早期研究:Isomap,Locally Linear Embedding,Laplacian Eigenmaps
- 传统MF方法:Sigular Value Decompositon(SVD),Graph Factorization(GF)
- 最近,研究人员专注于设计各种高阶数据邻近矩阵以保留图结构,并提出了各种基于矩阵分解的图嵌入学习方法:GraRep,HOPE
MF已经被广泛用于数据分析,它的目的是将一个数据矩阵分解为低维矩阵,同时保留原数据矩阵中隐藏的流形结构和拓扑特性。传统MF有许多变体,例如奇异值分解(SVD)和图分解(GF)。近年来,研究人员专注于设计各种高阶数据邻近矩阵以保留图结构,并提出了各种基于MF的图嵌入学习方法。文中介绍了GraRep, HOPE,GraRep方法的特点和区别。
2. 基于随机游走的方法:DeepWalk,node2vec,struct2vec
受word2vec模型的启发,针对图数据结构开发了基于随机游走的方法,即通过随机游走生成“节点序列”来学习节点表示形式,然后再对生成的节点序列进行嵌入。DeepWalk是这种基于随机游走进行图嵌入最早的方法之一。与DeepWalk相比,node2vec采用了灵活的偏差随机游走策略, struc2vec可以更好地识别结构标识。
3. 基于神经网络的方法:分为MLP,autoencoder,GAN,GCN四种类型, LINE,DNGR,SDNE,GAE,GraphGAN
近年来神经网络模型在许多领域成功应用,在图形嵌入领域也引入了多种神经网络,例如多层感知器(MLP),自编码器,生成对抗网络(GAN)和图卷积网络(GCN)。文中具体介绍了LINE,DNGR,SDNE,GAE,GraphGAN这些方法。
在这个部分,作者选择了基于MF的5种,基于随机游走的3种,基于神经网络的3种共11种具有代表性的图嵌入方法,回顾它们在3种流行的生物医学链接预测任务和2种生物医学节点分类任务上的应用情况。
发现新的相互作用(链接)是生物医学领域最重要的任务之一。 已经投入了大量的精力来开发计算方法来预测各种生物医学网络中的潜在相互作用,例如DDA网络(Liang等人,2017),DDI网络(Zhang等人,2018b)和PPI网络( Wang et al。,2014)。 开发此类计算方法可以帮助生成生物网络中潜在关联或相互作用的假设。
链接预测任务可以表述为:给定一组生物医学实体及其已知的相互作用,我们旨在预测实体之间的其他潜在相互作用(Lü和Zhou,2011)*。 生物医学领域的传统方法在特征工程上投入了大量精力来开发生物学特征(例如,化学亚结构(Liang等,2017),基因本体论(Gottlieb等,2011))或图属性(例如,拓扑相似性( 汉密尔顿等人,2017))。 之后,利用监督学习方法(例如SVM,Random Forest)(Hamilton等,2017)或半监督图推理模型(例如标签传播(Cowen等,2017))来预测潜在的相互作用。 这些方法背后的假设是,共享相似生物学特征或图特征的实体可能具有相似的联系。
但是,基于生物学特征的部署方法通常面临两个问题:1)生物学特征可能并不总是可用,并且很难获得且成本很高。 解决此问题的一种流行方法是通过预处理删除那些没有特征的生物实体,这通常会导致数据集被修剪掉,因此在实际环境中并不实用且有用。 2)生物学特征以及手工绘制的图形特征(例如,节点度)可能不够精确,无法代表或表征生物医学实体,并且可能无法帮助建立适用于许多应用的稳健而准确的模型(Hamilton等人 。,2017)。
试图自动学习节点表示的图形嵌入方法有望解决上述两个问题。在生物医学领域中一些最近提出的计算方法中也采用了嵌入思想。
(1)DDA的预测:例如,基于矩阵分解的技术(Yang等,2014; Zhang等,2018c; Dai等,2015)被用于DDA的预测。本质上,将DDA矩阵分解以学习潜在空间中药物和疾病的低维表示。在分解期间,可以添加正则项或约束条件以进一步提高潜在表示的质量。
(2)对于DDI的预测,Zhang等人。 (2018b)提出了流形正则化矩阵分解,其中结合了拉普拉斯正则化以学习更好的药物表示。此外,引入了GCN进行DDI预测(Zitnik等人,2018; Ma等人,2018),直觉与GAE相似(Kipf和Welling,2016)。
(3)PPI预测:通常使用Laplacian和SVD技术预测PPI(Zhu等,2013; You等,2017)。最近,Wang等(2017b)提出了一种基于自动编码器的模型来学习蛋白质的嵌入,其设计与SDNE类似(Wang等人,2016)。
节点分类是图分析中最重要的应用之一,它的目的是预测局部标记图中未标记节点的类别。在这里,作者主要关注两个节点分类的应用。
大规模的实验对蛋白质的功能注释非常昂贵(Kulmanov等人,2017; Gligorijevi´c等人,2018),因此最近提出了一种基于图的计算方法,该方法广泛结合了图嵌入的思想。例如,Lim等(2018)提出了一种基于拉普拉斯核的正则化方法来学习蛋白质的低维嵌入。 Cho等(2016年)开发了Mashup,它首先在PPI网络上执行带重启的随机游走(RWR),然后通过低秩矩阵近似方法(可以通过SVD优化)学习每种蛋白质的嵌入。然后将特征向量输入分类器,以得出有关基因或蛋白质的功能见解。 Kulmanov等(2017)提出了DeepGO,该算法通过卷积神经网络(CNN)和图嵌入方法(Alshahrani等,2017)基于蛋白质序列和PPI网络学习蛋白质的联合表示(类似于 DeepWalk (Perozzi等,2014))。在node2vec中,Grover 和 Leskovec (2016) 测试了在PPI网络上提出的嵌入方法的有效性。此外,Zitnik和Leskovec(2017)开发了OhmNet,它基于node2vec优化了层次依赖目标,以学习多层组织网络中的特征表示以进行功能预测。 Gligorijevi´c等(2018)开发了deepNF,它通过一个深度自动编码器(类似于SDNE(Wang等人,2016))来学习蛋白质的嵌入。
在过去的几年里,临床文献的增加一直在鼓励研究者开发出能够从这些数据中挖掘有用信息的模型,进而来改善患者的个人护理以及帮助临床决策。由于原始临床文本访问的限制,医学术语语义类型的缺失等种种原因,针对医学术语语义类型的分类虽然很有意义,但已有的研究很少。因此,本文作者的研究团队制定了一个节点分类任务(如下图2):给定医学术语共现图,其中的术语和共现统计是从公开的临床文本中提取出来的,对医学术语的语义类型进行分类。在这项工作中,作者假设临床文本已转换为医学术语-术语共现图,其中每个节点是一个提取的医学术语,每条边是一个上下文窗口中两个术语的共现的次数。将图嵌入方法应用于共现图来学习医学术语的表示,然后利用学习到的嵌入表示训练多标签分类器对医学术语进行语义分类。
在过去的几年中,临床文献的增加一直鼓励以数据驱动的模型来改善患者的个人护理并帮助临床决策(Mullenbach等人,2018)。但是,由于隐私和安全问题,原始临床文本的访问通常受到限制(Finlayson等人,2014; Ta等人,2018; Beam等人,2018),针对医学术语语义类型的分类虽然很有意义,但已有的研究很少。为了促进对临床文本的研究,发布原始临床文本的一种流行替代策略是从临床文本中提取医学术语及其共现计数(Finlayson等,2014; Ta等,2018)。但是,这种发布的隐私感知数据集仅包含从临床文本中提取的医学术语(单词或短语),而没有揭示语义信息(例如,语义类型或类别)。通过参考一些医学知识库,例如统一医学语言系统(UMLS)(Bodenreider,2004),我们可以获得医学术语的语义类型(标签)。但是由于UMLS中的不匹配和知识不完整,某些医学术语的语义类型仍然未知。因此,我们制定了一个研究较少但有意义的节点分类任务(参见图2):给定医学术语共现图,其中从临床文本中提取了术语和共现统计,对医学术语的语义类型进行分类。在这项工作中,我们假设临床文本已像(Finlayson等人,2014)中那样被转换成医学术语-术语共现图,其中每个节点是提取的医学术语,每条边是一个上下文窗口中两个术语的共现的次数。我们将图嵌入方法应用于同现图以学习医学术语的表示。然后利用学习到的嵌入表示训练多标签分类器对医学术语进行语义分类。
为了显示在上述生物医学应用中评估图嵌入方法的当前研究现状,我们按三类总结了11种图嵌入技术以及将这些技术应用于某些表1中的现有工作。用于5种代表性生物医学应用的方法主要采用传统技术,例如Laplacian特征图,矩阵分解。另一方面,已经证明,更先进的图形嵌入方法在社交/信息网络中的性能优于传统技术(Tang等人,2015; Cao等人,2015; Grover和Leskovec,2016),但它们在生物医学中的表现网络并非未知。此外,应探索将这些一般的图形嵌入方法与个人预测任务中的最新技术进行比较,以鼓励将来的研究。因此,我们进行了全面的实验,以评估在5种代表性生物医学任务中从三个不同类别中选择的11种图形嵌入方法,并将它们与每个生物医学预测任务中的最新技术进行比较。
我们遵循通用领域中广泛采用的链接预测和节点分类方法(如图1所示)的流程(Tang等人,2015年; Grover和Leskovec,2016年):首先学习图嵌入,然后将其用作特征输入 建立二进制分类器或多标签分类器(例如,逻辑回归,SVM,MLP)以预测未观察到的链接或节点标签。
在本节中,我们介绍7个已编译数据集的详细信息,包括2个DDA图,1个DDI图,1个用于链接预测的PPI图,1个医学术语-共生图以及2个用于节点分类的PPI图。 然后,我们在这些已编译的数据集上对11种选定的图形嵌入方法进行了全面比较。
1.药物-疾病关联(DDA)图。 我们从比较毒理基因组数据库(CTD) 中提取化学疾病关联(Davis等人,2018)。 CTD提供两种关联:策划的(已验证的)关联和推断的关联。 由于我们的任务是推断潜在的化学疾病关联,因此我们仅将策划的关联作为我们的黄金实例。 最后,在此图中,我们获得了12,765个节点(9,580种化学物质和3,185种疾病)之间的92,813条边(称为“ CTD DDA”)。
此外,我们从UMLS中的国家药品档案参考术语(NDF-RT) 构建了另一个DDA网络(Bodenreider,2004年)。 NDF RT是由美国退伍军人事务部(U.S. Veterans Affairs)生产的,可对药物特性进行建模,包括成分,生理作用和相关疾病。 我们使用NDF-RT中的可能治疗方法和可能通过关系治疗的方法提取药物疾病治疗的关联。 该图(名为“ NDFRT DDA”)包含13,545个节点(12,337种药物和1,208种疾病)和56,515个边缘。
2.药物相互作用图(DDI)。 我们从DrugBank收集经过验证的DDI(Wishart等,2017),这是一个全面且可免费访问的在线数据库,其中包含有关毒品和毒品目标的详细信息。 我们获得了2,191种药物之间的242,027个DDI,并将此数据集称为“ DrugBank DDI”。
3.蛋白质-蛋白质相互作用(PPI)图。 我们从STRING数据库中提取Homo sapiens PPIs(Szklarczyk等,2014)。 每个PPI均与一个置信度得分相关联,该置信度得分表明其成为真正的积极互动的可能性。 为了减少噪声,我们仅根据STRING数据库的指南收集置信度得分大于0.7的PPI。 最后,我们获得了15,131种蛋白质之间的359,776种相互作用,并将此数据集命名为“ STRING PPI”
1.医学术语-术语共现图。 自1995年以来,我们从斯坦福医院和诊所(Lowe等,2009)收集的2000万份临床笔记中提取了(Finlayson等,2014)提取的一组公共术语及其共现统计数据。使用现有的词组挖掘工具(LePendu等人,2012)通过与22种临床相关的本体(例如SNOMED-CT和MedDRA)匹配,从原始临床注释中提取术语。根据两个词在同一时间区间内共出现的次数(即某个时间范围,请参阅(Finlayson等人,2014))来计算两个词之间的共现频率。我们选择perBin 1-day数据集,因为与其他相比,它包含更多医学术语。为了过滤可能影响包埋质量的非常常见的医学术语(例如“病史”,“用药剂量”),我们将共现计数转换为PPMI值(Levy和Goldberg,2014年),并删除其边缘PPMI值小于2。我们还采用了二次抽样(Mikolov等人,2013)策略来进一步过滤常用术语并构建包含48,651个医学术语和1,659,249条边的医学术语-术语共现图。
我们保留可映射到统一医学语言系统(UMLS)概念唯一标识符(CUI)的医学术语,并从UMLS收集其相应的语义类型(例如,临床药物,疾病或综合症)。 我们选择31种不同的语义类型,每种类型都有20多个样本。 最后,我们获得25,120个带有标签信息的节点。 该数据集称为“临床术语COOC”。
2.具有功能注释的PPI图。 我们还编译了两个具有先前研究功能注释的PPI图。
鉴于我们选择的图形嵌入方法只能在单个网络上运行,因此我们选择实验性PPI网络1来学习嵌入。实验性PPI网络包含16,143个蛋白质之间的300,181个相互作用。与Mashup相同,我们使用3种不同层次的功能类别,这些功能类别具有不同的特异性,每个类别分别包含28、100和262个不同的注释。为了简单起见,我们仅将第一级(28个标签)用于主要比较实验。其他标签信息用于在4.4节中使用Mashup来代替最新的嵌入方法。该数据集称为“Mashup PPI”。
我们使用OpenNE2这个用于网络嵌入的开源Python软件包来学习Laplacian特征图(Belkin和Niyogi,2003),HOPE(Ou等人,2016),GF(Ahmed等人,2013),DeepWalk的节点嵌入。 (Perozzi等人,2014),LINE(Tang等人,2015)和SDNE(Wang等人,2016)。 我们使用Numpy3运行SVD,并使用其作者提供的源代码获得struc2vec4(Ribeiro等人,2017)和GAE5(Kipf和Welling,2016)嵌入。 更多的实施细节可以在补充材料中找到。
对于链接预测任务(第4.3节),所有已知的交互都是正样本,并分为训练集(80%)和测试集(20%)。 由于未知的相互作用远远超过已知的相互作用,因此我们在训练和测试阶段随机选择断开的边作为负样本,并与相等数量的正样本进行交互。 对于每个节点对,我们将两个节点的嵌入作为边缘特征进行连接,然后使用scikit-learn软件包基于它构建Logistic回归二进制分类器(Pedregosa等,2011)。 使用ROC曲线下面积(AUC),准确性和F1分数来评估分类器的性能,从而评估不同的嵌入方法。
对于节点分类任务(第4.4节),我们使用整个图信息来训练嵌入。然后将带有标签信息的节点分为训练集(80%)和测试集(20%)。节点的嵌入向量被直接视为特征向量,并用于使用scikit-learn包训练“单对数静止Logistic回归”分类器。我们将对节点i的顶级αi预测分配为其预测标签,其中αi是测试集中节点i的黄金标签数量。精度,宏F1和微F1用于评估测试集上不同嵌入方法的性能。准确度定义为所有标签正确分类的样本的百分比。 F1分数是精度和查全率的谐波平均值。我们采用F1评分的两种加权策略:微观(通过计算总的真阳性,假阴性和假阳性来整体计算指标)和宏观(计算每个标签的指标,并找到它们的未加权平均值)。
对于所有嵌入方法,除非另有说明,否则学习的嵌入的维数将设置为100(我们还将在4.5节中讨论其对性能的影响)。 此外,我们通过网格搜索为某些嵌入方法调整了1-2个有效的超参数(有关详细信息,请参见第4.5节)。 每种方法的其他超参数均设置为相应论文建议的默认值。
我们在4个已编译的生物医学网络上执行链接预测任务:CTD DDA,NDFRT DDA,DrugBank DDI和STRING PPI。 表3显示了四个数据集上不同嵌入方法的总体性能。
通常,与传统技术(例如,拉普拉斯特征图,SVD,GF)相比,最近提出的嵌入方法大大改善了链路预测性能。 例如,与Laplacian特征图相比,LINE在4个数据集上的AUC值提高了3%-23%。 与GF相比,Struc2vec在4个数据集上的准确度分别提高了3%-15%。 这些结果表明,最近提出的图嵌入方法更有效,可用于各种生物链接预测任务,以提高预测性能。
此外,我们还有以下主要的观察和分析:
与最新基准的比较。 为了进一步证明图嵌入方法的有效性,我们将它们与最新方法进行了两个链接预测:药物-疾病关联预测和药物-药物相互作用预测。
表4显示了不同嵌入方法对医学术语语义类型分类和蛋白质功能预测的性能。我们进行以下主要观察:
与最新基准的比较。为了更好地说明最近的图嵌入方法在生物医学节点分类任务中的有效性,我们选择蛋白质功能预测作为我们的代表性节点分类任务,然后将图嵌入方法与流行的最新技术进行比较:Mashup(Cho等 。,2016)。
Mashup也是嵌入学习方法之一。 但是与其他在单个网络中学习节点嵌入的嵌入方法不同,Mashup经过精心设计,可以传播来自多个网络的信息。 具体而言,首先使用随机重启重启(RWR)来计算每个单独网络中每个节点的扩散状态。 通过共同最小化观察到的扩散状态与所有网络中参数化的多项式逻辑分布之间的差异,即可获得低维嵌入。 为了与Mashup进行公平比较,我们通过对各个网络中每个交互得分的简单不加权总和来构造一个扩散PPI网络,然后在这个简单的扩散网络上运行不同的嵌入方法。 如图3(c)所示,在三级蛋白质功能预测上,与Mashup相比,三种代表性的图形嵌入方法:DeepWalk,node2vec和LINE获得了非常有竞争力的性能或更好的性能。
Mashup是专为蛋白质/基因相关的预测任务而设计的,并具有先进的网络扩散策略(例如,基于来自每个网络的信息共同优化嵌入),但是最近的嵌入方法仍可以实现竞争性能。 这可能会为将来的研究提供一些启发(例如,考虑用DeepWalk,node2vec或LINE替换Mashup的当前嵌入优化过程)。
我们首先评估不同的嵌入尺寸如何影响预测性能和时间效率。 图4显示了嵌入维度对“ CTD DDA”数据集的预测性能和时间效率的影响。 通常,当嵌入维数增加时,预测性能会变得更好,这是直观的,因为更高的维数可以编码更多有用的信息。 然后,当尺寸达到阈值(例如100)时,性能趋于饱和。 至于时间成本,它首先逐渐增加到100以下,但是如果维数继续增加,则倾向于急剧增加(y轴基于对数)。 因此,在考虑性能和时间效率时,我们不建议将维数设置为过大(例如,大约100左右)。 维度对其他数据集的影响结果可以在补充材料的图S1和S2中找到。
此外,我们为7种嵌入方法选择了敏感的超参数,他们的作者指出这很重要。 表5显示了在不同嵌入方法中选择的超参数及其含义。 我们花了很多精力通过网格搜索来仔细调整这些超参数。超参数对每种嵌入方法的影响分别在补充材料中的图S3-S9中显示。通过总结这些结果,我们为表5中的从业人员提供了一些有关设置超参数的高级指导。
为了更好地帮助从业人员为他们的生物医学预测任务选择合适的嵌入方法,我们总结了实验结果并讨论了我们的观察结果:
通常,最近提出的图形嵌入方法在各种生物医学预测任务中都取得了非常有希望的结果。 他们值得在未来的生物医学图分析中给予更多关注。
通过简单地将最新的图形嵌入方法应用于生物医学图形,然后将其输入分类器,与最新技术相比,我们可以获得非常有竞争力或更好的性能。 生物医学预测任务的未来模型设计可以从这些嵌入方法开始,也可以将它们作为一个模块集成到所提出的方法中,有望获得更好的结果。
特别是,对于基于矩阵分解的方法,我们观察到建模高阶接近度(例如HOPE,GraRep)通常可用于医学图上的链接预测任务,但对于节点分类任务可能不太有用。 对于基于随机游动的方法,struc2vec更适合于链接预测任务(当图形中缺少结构标识时),而node2vec和DeepWalk更适合于节点分类任务。 对于基于神经网络的方法,LINE通常与每个数据集上性能最好的方法相比具有竞争优势。 SDNE在链路预测任务上可以实现良好的性能,但在节点分类上的满意度不高。 GAE在相对大型的网络中表现良好,但在小型数据集上可能表现不佳。
有关数据集,实施,实验结果和指南的更多详细信息,请参见补充材料。
网络嵌入和网络传播的连接。在最近的生物医学网络分析中,一种非常流行的范例是网络传播(Cowen等人,2017),这是基于一个假设,即具有相似邻居的节点(例如,具有相似表型的基因)往往会相互作用(Menche et al。,2015),从而放大了生物信号(例如标记,关联)。具体来说,一个节点的信息以固定数量的步长或迭代的方式以迭代方式通过边缘传播到其邻居(Cowen et al。,2017)。这些传播方法的核心是随机游走,许多嵌入方法(例如Deepwalk,node2vec和struc2vec)也采用了随机游走。但是,与网络扩散不同,后者直接在网络中传播“信号”,而基于随机游走的嵌入方法则将“游走”视为一种节点相似度或邻近度表征方法。他们希望通过固定数量的随机游走尽可能地保留网络结构信息。然后将这些“行走历史”(即节点序列)输入word2vec(Mikolov等,2013)以学习低维嵌入。尽管基于随机游走的嵌入方法和网络传播方法的流水线不同,但是它们的思想和假设是相似的。它们都假定具有相似邻居的节点具有相似的功能,并且倾向于相互交互。除了基于随机游动的嵌入方法外,该假设还被其他嵌入方法(例如LINE,SDNE)广泛采用。
此外,还有随机游走的一些变体,例如,带重启的随机游走(RWR),个性化PageRank和扩散内核(diffusion kernel)。 它们还涉及嵌入思想,例如使用拉普拉斯标准化矩阵,分解逆拉普拉斯矩阵。 这些变体也可以合并到当前的基于随机游动的嵌入框架中。
在图中建模外部信息。除了图结构以外,外部信息还可以帮助构建生物医学网络的计算模型。例如,张等人 (2018c)将药物和疾病特征纳入矩阵分解中,以学习更好的表示形式。 Žitnik和Zupan(2014)将先验信息(例如基因网络)作为载体或矩阵,以进一步改善与基因相关的预测任务。在图上也可能存在部分标签信息(例如,语义类型可部分用于医学术语共现图中的节点)。将这些功能和标签合并到高级图形嵌入模型中可以潜在地进一步提高性能。属性图嵌入方法的涌现涌现,探索了这一方向。例如,DDRW(Li等人,2016)和MMDW(Tu等人,2016)联合使用支持向量机(SVM)分类损失来优化DeepWalk的目标,以合并标签信息。我们将在生物医学图上对这种归因网络嵌入方法进行基准测试作为我们未来的工作。
转移学习(transfer learning)以进行图嵌入。最近在计算机视觉和自然语言处理方面的研究表明,转移学习有助于提高模型在不同任务上的性能(Shin等人,2016; Howard和Ruder,2018)。常规模式是在预训练过程中捕获的,可以“转移”到新的预测任务中。还存在一些经过预训练的生物医学实体嵌入(Choi等人,2016; Beam等人,2018),这使我们能够采用类似的“转移学习”思想来学习图嵌入。我们可以使用预先训练的嵌入来初始化图上每个节点的嵌入向量(例如,通过在(Choi等人,2016; Beam等人,2018)中寻找对应的实体),而不是通过随机初始化,然后像以前一样继续训练各种图嵌入方法(通常称为“微调”)。可以将预训练的嵌入视为“粗略嵌入”,因为它们通常在大型的通用语料库上进行了预训练,并且尚未针对下游任务进行优化。但是,它们包含一些其他语义信息,这些信息可能无法从下游任务图中学习(例如,由于其规模小)。通过微调,可以将这些其他语义信息“转移”到最终学习的嵌入中。我们在“ CTD DDA”图上使用这种转移学习的想法进行了实验。从补充材料中的表S3可以看出,使用(Beam等人,2018)的预训练嵌入技术已改善了链接预测性能。当前,具有预先训练的嵌入的已释放生物医学实体的数量仍然有限,并且没有预先训练的嵌入的实体必须随机初始化。但是,随着生物医学数据量的增加,越来越多的实体可以进行预训练的嵌入,并且进行预训练,然后进行微调的想法会更有希望。
在这个工作中作者概述了各种图嵌入技术,并对它们在链接预测和节点分类两个重要的生物医学任务上的性能进行了评估。具体来说,作者从公共数据库或以前的研究中编制了7个数据集,并利用这些数据库对11种有代表性的图嵌入方法进行了基准测试。通过大量的实验,发现了目前的图嵌入方法在各种生物医学预测任务中表现良好,并且与现有的方法相比,具有很强的竞争力或更好的性能。因此,这些最新的图嵌入方法可以作为设计未来生物医学预测任务高级模型的起点。此外,作者调整了图嵌入方法的一些重要超参数,并为从业者提供了设置超参数的一般指导。作者也讨论了最近的网络传播(扩散)方法与图嵌入方法之间的联系,以及潜在的方向(如图嵌入的转移学习),以启发未来的工作。