day03 | 知识图谱构建及其生物医学应用

论文标题

知识图谱可以支持很多生物医学应用,这些图以节点和边的形式表示生物医学概念和关系。该篇review讨论了这些图是如何构建和应用的,特别关注机器学习方法如何改变这些过程。生物医学知识图谱通常是通过集成专家通过手动管理填充的数据库来构建的,但目前自动化系统的使用更加强大。许多技术用于表示知识图谱,但通常使用机器学习方法来构建可以支持许多不同应用程序的低维表示。该表示旨在保留知识图谱的局部和/或全局结构。可以将其他机器学习方法应用于此表示,在基因组、制药和临床领域内进行相关任务的预测。首先围绕知识图谱构建进行讨论,然后围绕统一表征学习技术和统一应用进行讨论。生物医学机器学习的进步正在为许多领域创造新的机会,未来知识图谱的应用会越来越多。

1.Introduction

图是实际生活中有很多应用,已被用于社交网络挖掘以对节点进行分类并创建推荐系统;还用于自然语言处理领域来解释简单的问题并使用关系信息来提供答案;在生物医学环境中,图被用于识别与疾病相关的基因、实现药物再利用和识别药物-靶标相互作用。

在生物医学环境中,一些图可以被认为是知识图,但是精确定义知识图谱很困难,因为存在多个相互冲突的定义。在本篇工作中,作者将生物医学知识图定义如下:节点表示生物医学实体,边表示两个实体之间的关系。通常认为关系是单向的(一种化合物治疗一种疾病,但一种疾病不能治疗一种化合物)。然而,在某些情况下,关系可被认为是双向的(一种化合物类似于另一种化合物,或者一个基因与另一个基因相互作用)。Hetionet(下图1所示)根据上述定义可以被定义知识图谱,并且已被用于识别药物再利用。本文作者不认为DISEASES 和 DrugBank数据库是知识图谱,尽管这些数据库包含基本信息,但他们并不以图的形式表示其数据。

图1.Rephetio 项目中使用的知识图谱的元图(即模式) 。该项目的作者将他们的资源称为异构网络(即 hetnet),并且该网络符合我们对知识图谱的定义。该资源以节点和边的形式描述药理学和生物医学信息。节点(圆圈)代表实体,边(线)代表两个实体之间共享的关系。这个元图中的大多数边被描述为单向的,但有些关系可以被认为是双向的。

生物医学知识图谱通常由手动管理的数据库构建。这些数据库提供了以前建立的信息,这些信息可以合并到图中。例如,使用疾病作为资源的图将以基因和疾病作为节点,而在节点之间添加的边将表示基因和疾病之间的关联。这个例子展示了一种单一类型的关系;但是,有些图使用具有多种关系的数据库。 除了手动管理之外,也使用自然语言处理技术来构建知识图谱。一个示例使用文本挖掘系统来提取说明蛋白质与另一种蛋白质相互作用的句子。一旦被识别,这些句子就可以作为证据在知识图中建立边。

在这篇综述中,作者描述了在生物医学环境中构建和应用知识图谱的各种方法;讨论了通过手动管理的数据库和文本挖掘系统构建知识图谱的优缺点;比较了应用知识图谱解决生物医学问题的各种方法;最后,总结了知识图谱的实用性,并指出了尚未探索的未来应用。

2.Building biomedical knowledge graphs

可以使用诸如预先存在的数据库或文本等资源以多种方式构建知识图谱。通常,知识图谱是使用预先存在的数据库构建的。这些数据库由领域专家使用从手动管理自动化技术(例如文本挖掘)的各种方法构建。手动管理是一个耗时的过程,需要领域专家阅读论文并注释断言关系的句子。自动化方法依靠机器学习或自然语言处理技术来快速检测感兴趣的句子。我们将这些自动化方法分为以下几组:基于规则的提取无监督机器学习监督机器学习,并讨论每种方法的示例,同时综合它们的优缺点。

2.1 Constructing databases and manual curation

数据库构建过程涉及收集相关文本,例如期刊文章、摘要或基于网络的文本,并让专家阅读收集的文本以检测暗示关系的句子(即关系提取)。此过程构建的著名数据库位于下面的表格即图2。一个示例数据库 COSMIC是由一组领域专家构建的,他们扫描文献中的关键癌症相关基因。该数据库在 2016 年包含大约 3500 万个条目,到 2018 年已增长到 4500 万个条目。研究表明,以这种方式构建的数据库包含相对精确的数据,但召回率较低。召回率低是因为出版率太高,专家跟不上。 这一瓶颈凸显了对未来方法的迫切需要,以足够快地扩展以与不断增长的出版率竞争。

图2.手动/半自动管理

半自动方法是一种加速管理过程的方法。这些方法的第一步是使用自动化系统从文本中初步提取句子。这个过程删除了不相关的句子,这大大减少了策展人必须筛选的文本量。在预过滤步骤之后,策展人然后批准或拒绝剩余的句子。与手动工作相比,这种方法平均为策展人节省了 2-2.8小时。 尽管自动化系统在识别常见关系的句子方面表现出色,但它们往往会错过鲜为人知的关系。这些系统也很难解析文本中自然出现的模棱两可的句子,这使得纠正它们成为一项具有挑战性的任务。鉴于这些问题,未来的方法应该考虑使用简化句子的技术来解决歧义问题。

尽管手动管理有负面影响,但它仍然是从文本中提取关系的基本过程。此过程可用于生成自动化系统用于验证的黄金标准数据集,并可用于这些系统的训练过程(即主动学习)。重要的是要记住,仅手动管理是精确的,但会导致低召回率。未来的数据库应首先考虑依靠自动化方法以可接受的召回水平获取句子,然后将手动管理作为一种修复或删除不相关结果的方法。

2.2 Text mining for relationship extraction

2.2.1 Rule-based relationship extraction

基于规则的提取

基于规则的提取包括识别基本关键字和语法模式以检测感兴趣的关系。关键字是通过专家知识或通过使用预先存在的本体来建立的,而语法模式是通过专家策划分析树来构建的。解析树是描述句子语法结构的树数据结构,有两种形式:选区解析树(图3) 和依赖分析树 (图4)。两种树都使用词性标签,这些标签指示名词、动词、形容词等单词的语法作用,用于构造,但以两种不同的形式表示信息。选区分析树将句子分解为子短语 (图3) 而依赖路径树分析句子的语法结构 (图图4)。许多文本挖掘方法使用这些树为机器学习算法生成特征,这些方法将在后面的部分中讨论。在本节中,将重点介绍使用基于规则的提取作为主要策略来检测暗示关系的句子的方法。

图3.‘‘BRCA1 is associated with breast cancer”使用该句子进行选区分析树的可视化,这种类型的树的根开始于句子的开头,每个单词根据其相关的词性标签分为子短语。例如,单词“associated”属于动词短语(VP)子组的过去分词动词(VBN)
图4.‘‘BRCA1 is associated with breast cancer”使用该句子进行依赖分析树的可视化,对于这些类型的树,词根从句子的主要动词开始。每个箭头表示两个单词之间共享的依赖关系。例如,BRCA1 和关联之间的依赖关系是 nsubjpass,代表被动名词主语。这意味着“BRCA1”是句子的主语,它被“associated”一词所指。

语法模式可以简化句子以便于提取。乔纳拉加达等人使用了一组受选区树启发的语法规则,用更简单的版本重塑复杂的句子,这些简化的版本是手动策划的,以确定关系的存在。通过简化句子,这种方法实现了高召回率,但精度低。其他方法使用简化技术使提取更容易。有人将蛋白质磷酸化事件的句子进行简化, 他们的句子简化器将包含多个蛋白质事件的复杂句子分解为仅包含一个不同事件的较小句子。但是,包含不明确方向性或多个磷酸化事件的句子对于简化器来说太复杂了。结果,简化器遗漏了一些相关的句子。这些错误凸显了未来算法的关键需求,即必须具有足够的泛化性以处理各种形式的复杂句子

模式匹配是一种用于检测关系断言语句的基本方法。这些模式可以由选区树中的短语、一组关键字或两者的某种组合组成。徐等人设计了一个模式匹配器系统来检测 PubMed 摘要中指示药物疾病治疗的句子。该系统将来自 ClinicalTrials.gov 的药物-疾病对与摘要中提到的药物-疾病对相匹配。这种匹配过程有助于作者识别可用于创建简单模式的句子,例如“治疗疾病的药物” , 以匹配各种摘要中的其他句子。作者手工策划了两个用于评估的数据集,并获得了 0.904 的高精度分数和 0.131 的低召回分数。这种低召回分数是由于构建的模式太具体而无法检测到不常见的药物对。除了选区树之外,一些方法还使用依赖树来构建模式。根据算法和文本的性质,依赖树可能比选区树更合适,反之亦然。两棵树之间的性能差异仍然是未来探索的一个悬而未决的问题。

基于规则的方法为许多关系抽取系统提供了基础。此类别中的方法范围从简化句子以便于提取到基于匹配的关键短语或语法模式识别句子。两者都需要大量的手动工作和专业知识才能表现良好。未来的方向是开发自动构建这些手工制作模式的方法,这将加速创建这些基于规则的系统的过程。

2.2.2 Extracting relationships without labels

无监督提取器在不使用注释标签的情况下从文本数据中得出推论。这些方法涉及某种形式的聚类或统计计算。在本节中,我们将重点介绍使用无监督学习从文本中提取关系的方法。

无监督提取器可以利用两个实体可能一起出现在文本中的事实。这个事件被称为共现,使用这种现象的研究在图5有总结。两个数据库 DISEASES和 STRING使用 PubMed 摘要的共现评分方法填充,该方法测量单个句子中的共同提及对的频率以及摘要本身。该技术假设每个单独的共现对彼此独立。在这种假设下,出现多于预期的提及对被认为暗示了关联或交互的存在。这种方法确定了 543,405 个疾病基因关联和 792,730 个高置信度蛋白质-蛋白质相互作用,但仅限于 PubMed 摘要。

图5.文本挖掘——无监督

全文文章比摘要更能增强关系检测。韦斯特加德等人使用与疾病和 STRING类似的共现方法来挖掘完整的文章以获取蛋白质-蛋白质相互作用和其他蛋白质相关信息。作者发现全文比单独使用摘要提供了更好的预测能力,这表明未来的文本挖掘方法应该考虑使用全文来提高检测能力

无监督提取器通常将不同的生物医学关系视为多个孤立的问题。这种观点的另一种选择是一次捕获所有不同的类型。聚类是一种执行同时提取的方法。佩尔查等人在生成的依赖分析树上使用双聚类算法对 PubMed 摘要中的句子进行分组。每个集群都是手动策划的,以确定每个组代表的关系。这种方法为 36 个不同的组捕获了 4,451,661 个依赖路径。尽管取得了成功,但这种方法仍存在依赖树解析错误等技术问题。这些错误导致一些句子没有被聚类算法捕获。 未来的聚类方法应考虑简化句子以防止此类问题

整体无监督方法提供了一种无需注释文本即可快速提取关系断言句子的方法。此类别中的方法范围从计算共现分数聚类句子,并提供可用于大型文本存储库的通用框架。全文已经被证明可以显着提高旨在使用共现推断关系的方法的性能,我们应该期待机器学习方法有类似的好处。此外,我们预计简化句子将改进无监督方法,并应被视为初始预处理步骤。

2.2.3 Supervised relationship extraction

有监督的提取器使用带标签的句子来构建将正例(暗示关系的句子)与负例(不暗示关系的句子)一分为二的概括模式。由于预先标记了公开可用的数据集,这些方法中的大多数都得到了蓬勃发展(图6)。这些数据集由专家构建,用于共享开放任务或作为向科学界提供黄金标准的手段。使用这些可用数据集的方法范围从使用线性分类器(如支持向量机 (SVM))到非线性分类器(如深度学习技术)。本节的其余部分讨论使用监督提取器来检测关系断言句子的方法。

图6.文本挖掘——监督

一些监督提取器涉及将文本输入映射到高维空间。SVM 是一种分类器,可以使用称为内核的映射函数来完成此任务。这些内核获取诸如句子的依赖树、词性标签甚至字数等信息,并将它们映射到密集的特征空间中。在这个空间内,这些方法构建了一个超平面,将正类(说明关系)与负类(不说明关系)中的句子分开。内核可以手动构建或选择以满足感兴趣的关系。确定正确的内核是一项艰巨的任务,需要专业知识才能成功。除了单核方法之外,最近的一项研究还使用了一组 SVM 来提取疾病基因关联。该集合在精度、召回率和 F1 得分方面优于显着的疾病基因关联提取器。总体而言,SVM 已被证明在关系挖掘方面是有益的。然而,主要关注点已经转移到利用深度学习技术来执行高维数据的非线性映射。

深度学习是一种越来越流行的技术,可以在高维空间内构建自己的特征。这些方法使用不同形式的神经网络,例如循环(RNN)或卷积神经网络(CNN),来执行分类。

循环神经网络 (RNN) 专为顺序分析而设计,并使用重复更新的隐藏状态来进行预测。循环神经网络的一个例子是长短期记忆(LSTM)网络。科科斯等人使用 LSTM 从去识别的推特帖子中提取药物副作用,而 Yadav 等人使用 LSTM 来提取蛋白质-蛋白质相互作用。其他人也采用 LSTM 来执行关系提取。尽管这些网络取得了成功,但训练可能很困难,因为这些网络极易受到梯度消失和爆炸的影响。对这个问题提出的一种解决方案是在神经网络训练时裁剪梯度。除了梯度问题,这些方法只有在数据集达到至少数万个数据点时才会达到性能峰值。(RNN遇到梯度问题以及需要足够多的数据集)

广泛应用于图像分析的卷积神经网络 (CNN) 使用多个核滤波器来捕获整个图像的小子集。在文本挖掘的上下文中,图像被替换为句子中的单词,这些单词映射到密集向量(即词嵌入)。彭等人使用 CNN 提取提到蛋白质-蛋白质相互作用的句子和 Zhou 等人使用 CNN 提取化学疾病关系。其他人已经使用 CNN 和 CNN 的变体从文本中提取关系。就像 RNN 一样,当存在数百万个标记示例时,这些网络表现良好;然而,获取这些大型数据集并非易事未来使用 CNN 或 RNN 的方法应考虑通过弱监督、半监督学习或通过迁移学习使用预训练网络等手段来解决需要获取大量数据的问题

半监督学习和弱监督是可以为机器学习分类器快速构建大型数据集的技术。半监督学习通过将标记数据与未标记数据相结合来训练分类器。例如,一项研究使用带有 LSTM 网络的变分自动编码器从 PubMed 摘要和全文中提取蛋白质-蛋白质相互作用。对于小数据集问题,这是一个优雅的解决方案,但需要标记数据才能开始。这种依赖性使得寻找研究不足的关系变得困难,因为人们需要在一开始就找到或构建缺失关系的例子。

弱监督或远程监督采用不同的方法,使用嘈杂甚至错误的标签来训练分类器。在这种范式下,句子基于它们在数据库中存在(正面)或不存在(负面)的提及对被标记,一旦标记,机器学习分类器可以被训练以从文本中提取关系。例如,托马斯等人使用远程监督来训练 SVM 以提取提及蛋白质-蛋白质相互作用 (PPI) 的句子。他们的 SVM 模型实现了与基线模型相当的性能;但是,远程监督产生的噪音很难消除。许多努力都集中在将远程监督与其他类型的标记策略相结合,以减轻噪声知识库的负面影响。尼科尔森等人发现在某些情况下,这些策略可以在不同类型的生物医学关系中重复使用,以在这些关系描述相似物理概念的情况下学习异构知识图谱。将远程监督与其他类型的标签策略相结合仍然是一个活跃的研究领域,具有许多相关的挑战和机遇。总体而言,半监督学习和弱监督在关系提取方面提供了有希望的结果,未来的方法应该考虑使用这些范式来训练机器学习分类器。

3.Applying knowledge graphs to biomedical challenges

知识图谱可以帮助研究人员解决许多生物医学问题,在许多情况下,解决方案依赖于在低维空间中表示知识图谱,这是一个称为表示学习的过程。此过程的目标是保留和编码与问题相关的知识图谱的局部和/或全局结构,同时将图转换为可以很容易地与机器学习方法一起使用以构建预测器的表示。在以下部分中,我们将回顾构建低维空间的方法(统一表征学习技术)并讨论使用该空间解决生物医学问题的应用(统一应用)

3.1 Unifying representational learning techniques

将高维数据映射到低维空间(将三维图像转换成二维矩阵或向量)极大地提高了自然语言处理和图像分析等领域的建模性能。这些方法的成功为更加关注在低维空间中表示知识图谱提供了理由。此类方法旨在以密集向量的形式捕获知识图谱的本质。这些向量通常分配给图中的节点,但也可以分配边。构建低维空间的技术通常需要关于节点如何相互连接的信息,而其他方法可以直接使用边缘本身。一旦构建了这个空间,机器学习技术就可以利用该空间进行下游分析,例如分类或聚类。我们将构建该空间的技术分为以下三类:矩阵分解、平移距离模型和神经网络模型(图7)。

图7

3.1.1 Matrix factorization

矩阵分解是一类使用线性代数将高维数据映射到低维空间的技术。这种投影是通过将矩阵分解为一组小的矩形矩阵来完成的。矩阵分解的著名方法包括 Isomap、拉普拉斯特征图和主成分分析 (PCA) /奇异向量分解 (SVD) 。这些方法旨在用于许多不同类型的数据。

SVD 是一种使用矩阵分解在低维空间中描绘知识图谱的算法。该算法的输入是一个邻接矩阵,其中行和列代表节点,每个条目是两个节点之间存在边的二进制表示。一种是基于知识图谱本身的结构构建的,并将两个节点之间的所有边折叠成一个唯一的实体。

拉普拉斯特征图假设在高维空间中存在低维结构,并在将数据投影到低维空间时保留这种结构。该技术的第一步是通过以图的形式表示数据来保持低维结构,其中节点是数据点,边是两点之间的距离。知识图已经提供了这种表示,因此在这个阶段不需要额外的处理。该技术的第二步是获得一个邻接矩阵 (一种) 和度矩阵 (D) 从图形表示。度矩阵是对角矩阵,其中每个条目表示连接到节点的边数。将邻接矩阵和度矩阵转换为拉普拉斯矩阵 (大号),这是一个与邻接矩阵具有相同属性的矩阵。拉普拉斯矩阵是通过从度矩阵中减去邻接矩阵(L = D - A) 并且,一旦构建,该算法使用线性代数来计算拉普拉斯算子的特征值和特征向量 (Lx = λ D x)。生成的特征向量表示在低维空间中表示的知识图节点。

常见的矩阵分解方法涉及使用 SVD、拉普拉斯特征图或两者的变体将矩阵分解为更小的矩形形式。关于知识图,邻接矩阵 (一种) 是被分解的典型矩阵,但拉普拉斯矩阵 (L = D - A) 也可以使用。尽管有报道称成功,但对矩阵的依赖会产生可伸缩性问题,因为大型网络的矩阵可能会达到内存限制。此外,我们讨论的方法将所有边缘类型视为等效的。这些限制可以通过旨在分别容纳多个节点和边缘类型的新方法来缓解。

3.1.2 Translational distance models

平移距离模型将知识图中的边缘视为线性变换。例如,一种这样的算法 TransE将每个节点-边对视为一个三元组,其头节点表示为H, 边表示为r, 尾节点表示为吨。这些表示被组合成一个模拟标志性词向量翻译的方程(国王−男人+女人≈女王) 来自 word2vec 模型。所描述的方程如下所示:h + r ≈ t. 从头节点开始 (H),一个添加边缘向量(r),结果应该是尾节点(t)。TransE 优化向量H,r,t, 同时保证全局方程 (h + r ≈ t) 满足。TransE 方法的一个警告是它强制关系具有一对一的映射,这可能不适用于所有关系类型。

王等人。试图通过开发 TransH 模型来解决一对一的映射问题。TransH 将关系视为超平面而不是常规向量并投影头部 (H) 和尾 (t) 节点到超平面上。在这个投影之后,距离向量 (dr) 在投影的头节点和尾节点之间计算。最后,在保留全局方程的同时优化每个向量:h +dr≈ t 。其他努力建立在 TransE 和 TransH 模型的基础上。将来,在优化这些距离模型时,这些模型可能会有益于结合其他类型的信息,例如边缘置信度分数、文本信息或边缘类型信息。

3.1.3 Neural networks

神经网络是一类受生物神经网络概念启发的机器学习模型。这些网络因对高维数据进行非线性变换以解决分类和回归问题而享有盛誉。在知识图谱的上下文中,最常用的结构是基于 word2vec,word2vec 术语适用于在自然语言处理领域广泛使用的一组概念相关的方法。word2vec 的目标是将单词投影到保留其语义含义的低维空间上。训练 word2vec 模型的策略使用两种神经网络架构之一:skip-gram 和连续词袋 (CBOW)。两种模型都是前馈神经网络,但是 CBOW 模型被训练来预测给定上下文的单词,而 skip-gram 模型被训练来预测给定单词的上下文。训练完成后,单词将与密集向量相关联输入下游模型(例如前馈网络或循环网络)

Deepwalk 是一种在低维空间中表示知识图谱的早期方法。该方法的第一步是沿着知识图执行随机游走。在随机游走期间,每个生成的节点序列都被记录下来,并在 word2vec 中被视为一个句子。在处理完每个节点之后,训练一个skip-gram模型来预测每个节点的上下文,从而构建知识图谱的低维表示。 deepwalk 的一个限制是无法控制随机游走,因此每个节点都有相同的机会到达。Grover 和 Leskovec 证明,在对节点之间的边进行分类时,这种限制会损害性能,因此开发了 node2vec。Node2vec 的运行方式与 deepwalk 相同;但是,该算法指定了一个参数,该参数使随机游走在遍历节点时有偏差。deepwalk 和 node2vec 的一个警告是它们忽略了边缘类型和节点类型等信息。当在低维空间中表示知识图时,各种方法已经发展到通过结合节点、边甚至路径类型来解决这个限制。一个新兴的工作领域是开发在构建这个低维空间时捕获图的局部和全局结构的方法。

虽然 word2vec 是用于表示图的最常用框架,但神经网络有时被设计为使用邻接矩阵作为输入。这些方法使用称为自动编码器的模型。自动编码器旨在将输入映射到低维空间,然后返回到相同输入的重构。通过修改损失函数以考虑重建损失之外的标准,可以对其他目标进行分层。 在知识图的上下文中,生成的空间将节点与密集向量相关联,这些向量捕获图的连接结构。尽管自动编码器具有很高的潜力,但这种方法依赖于输入的邻接矩阵,当知识图的大小逐渐增加时,可能会遇到可扩展性问题。另外,Khosla 等人发现在进行链路预测和节点分类时,类似于 node2vec 的方法优于使用自动编码器的算法。

总体而言,神经网络模型的性能很大程度上取决于知识图中节点和边的结构。此外,当使用这些方法时,只有节点由这些向量明确表示。这意味着表示的知识图谱不再符合我们对知识图谱的定义;但是,这种表示可以使其更适合许多生物医学应用。未来的探索领域应该包括使用 node2vec 和自动编码器来构建知识图谱的互补低维表示的混合模型。

3.2 Unifying applications

图8

3.2.1 Multi-omic applications

多组学应用程序使用知识图来研究基因组、基因在转录组中的表达方式以及这些转录本的产物如何在蛋白质组中相互作用。这些图用于建立组学实体和疾病之间的联系。这方面的任务包括基因症状优先级、蛋白质-蛋白质相互作用预测和检测miRNA-疾病关联。本文作者特别关注在低维空间中表示知识图以建立联系的多组学应用。

推荐系统利用知识图在 RNA 与疾病以及蛋白质与其他蛋白质之间建立联系。沉等人使用一种称为协同过滤的算法来建立 miRNA 和疾病之间的关联。作者使用人类 MicroRNA 疾病数据库 (HMDD) 构建了一个 miRNA 疾病网络,并生成了一个邻接矩阵,其中行代表 miRNA,列代表疾病。使用 SVD 将该矩阵分解为小矩形矩阵,然后这些小矩阵用于计算 miRNA 与疾病之间的相似度得分。高分意味着给定 miRNA 与给定疾病相关的可能性很高。其他方法基于 Shen 等人的工作,通过结合新的方法来执行矩阵分解或将机器学习模型与矩阵分解相结合。这些方法实现了接收器操作曲线 (AUROC) 下的高面积,但新发现难以验证,因为该领域的实验充其量是昂贵且耗时的[128]。除了 miRNA,协同过滤已被用于预测蛋白质-蛋白质相互作用。 尽管对新生成的候选者进行广泛的验证可能不切实际,但看到这一领域的未来努力包括对优先和随机选择的候选者进行盲法文献搜索作为标准评估管道的一部分,这将是有帮助的。

神经网络模型的应用主要使用 node2vec 模型或其变体。杨等人使用 node2vec 创建一个推荐系统来推断基因和疾病症状之间的关联。作者通过结合两个二部图构建了基因-疾病症状知识图谱:基因与疾病和疾病与疾病症状。生成的图通过 node2vec 嵌入,并为图中的每个基因-症状对计算相似性分数。高分意味着关联的可能性很高。这种方法优于不使用知识图谱的方法;然而,验证很困难,因为它涉及手动整理文献。类似的方法使用 node2vec 的变体来预测基因-疾病关联分析 RNA-seq 数据并推断新的蛋白质信息。

知识图作为产生新发现的资源使多组学领域受益。迄今为止,大多数方法使用矩阵分解和 node2vec 将知识图投影到低维空间中,而平移距离模型(图7b)可能是一种尚未开发的资源,可以帮助未来的努力。另一个探索领域可能是结合多种信息来源,例如化合物、解剖位置或遗传途径,以提高发现的特异性(即预测蛋白质-蛋白质相互作用发生在特定细胞类型或组织中)。

3.2.2 Pharmaceutical applications

有许多例子表明知识图谱已被用于识别药物的新特性。该领域的任务包括预测药物与其他药物的相互作用,识别药物可能与之相互作用的分子靶点以及为先前建立的药物确定新的疾病治疗方法。在本节中,我们专注于应用这些图来发现药物新特性的应用,并关注在低维空间中使用这些图的方法。

与多组学应用类似,推荐系统利用知识图来推断药物和疾病之间的新联系。戴等人。使用协同过滤来推断药物-疾病关联。 作者通过整合两个二部网络构建了药物-疾病网络:药物-基因相互作用网络和疾病-基因相互作用网络。他们在与疾病相关的药物与相同的感兴趣基因相互作用的假设下整合了这两个网络。在构建之后,作者生成了一个邻接矩阵,其中行代表药物,列代表疾病。该矩阵被分解为两个小的矩形矩阵,这些矩阵用于计算所有药物和所有疾病之间的相似度得分。高值意味着关联的可能性高。相关方法使用该技术推断药物-靶标相互作用和药物疾病治疗。尽管报告取得了成功,但这些方法仅限于图表中包含的药物和疾病。将这些方法与化学结构表示相结合,有朝一日可以预测新化合物

使用神经网络模型的应用程序使用 node2vec 和自动编码器方法来表示低维空间中的知识图谱。宗等人使用类似 node2vec 的模型来预测药物-靶标关联。作者使用以药物为中心的数据库构建了一个疾病-靶点疾病网络:Drugbank 和 Diseasesome。接下来,作者对图应用了随机游走,并训练了一个 skip-gram 模型来生成图的低维表示。最后,作者构建了一个相似性度量,使用该空间对药物与其目标的相似程度进行排名。这种方法的一个限制是他们的图表缺少可以提高预测性能的药理学类别或药物化学结构等信息。总体而言,神经网络提供了一组强大的技术,这些技术已被证明在这种情况下优于大多数线性方法。

发现药物新特性的应用程序受益于使用知识图作为资源。迄今为止,大多数方法都使用矩阵分解和神经网络模型来产生低维表示。由于神经网络的成功,该领域的大部分焦点已转移到这些技术上。然而,一个可能的改进是使用神经网络模型和线性方法的集合来提高性能。未来工作的另一个潜在途径是结合实体特定的层次信息或相似性信息以提高检测能力。对于药物,这可能包括药物类别或化学结构相似性。

3.2.3 Clinical applications

使用知识图谱的临床应用程序处于早期开发阶段,但长期目标是使用对这些图谱的分析来帮助患者护理。通常,这些应用程序的图表是根据电子健康记录 (EHR) 构建的:节点代表患者、药物和疾病,而边代表关系,例如患者接受治疗或患者被诊断患有疾病。该领域的任务范围从改善患者诊断到为患者推荐更安全的药物。 本文作者简要讨论使用知识图来完成此类任务的努力。

该领域的早期工作应用了平移距离模型(图 7(b)) 以推荐安全药物为目标的知识图谱。王等人使用 TransH 模型的变体来为患者创建这样的系统。他们通过将患者-疾病二部网络与患者-药物二部网络相结合,构建了一个疾病-患者-药物网络。新构建的图中的每个节点都被嵌入,同时满足以下等式:h - r ≈ t. 在嵌入步骤之后,作者制定了他们自己的相似性指标,以选择具有少量相互作用的药物组合。研究人员将 TransH 模型的类似变体应用于医学知识图谱,并评估他们的模型用于链接预测而不是患者推荐。

与大多数已经建立 node2vec 和自动编码器模型的应用相比,该领域专注于使用图注意力模型。这些模型模仿机器翻译模型,旨在同时在低维空间中表示知识图并执行手头的任务。崔等人使用图形注意模型来预测患者诊断。作者使用来自患者 EHR 数据的医学概念构建了一个有向图。该有向图被输入到图注意力网络中,然后用于预测患者发生心力衰竭的可能性。其他方法已经使用图注意力模型来执行临床任务,例如药物安全建议和患者诊断。

知识图谱在临床应用中显示出可喜的结果;但是,仍有改进的余地。大多数方法都遇到了 EHR 中缺少数据的常见问题。该领域的未来方向包括设计可以填补这一缺失数据空白的算法或构建可以考虑缺失数据的模型。

4.Conclusion

知识图谱在生物医学中的应用越来越广泛,我们预计它们的使用将继续增长。目前,大多数都是从手动管理或文本中的共同出现的数据库中构建的。我们预计机器学习方法将在从这些图表中快速得出新发现方面发挥关键作用。在捕获图的局部和全局结构的低维空间中表示这些知识图可以实现许多下游机器学习分析,并且捕获这种结构的方法是一个活跃的研究领域。

与任何领域一样,能够确定推动成功的关键因素的严格评估对于推动该领域的发展至关重要。关于知识图谱,评估仍然很困难。在这种情况下的实验需要大量的时间和资源。从包括描述与文献一致的发现到对证实预测和非预测的文献进行盲法评估的开放式和不受控制的评估将是有价值的第一步。还有一些与节点度和度分布相关的有据可查的偏差,必须考虑这些偏差以进行准确评估。 此外,应用程序的多样性阻碍了一套标准化的预期评估的发展。

我们预计,一个富有成效的研究途径将是能够产生知识图谱的低维表示的技术,这些表示可以区分多个节点和边缘类型。有许多不同的偏差来源会导致虚假边缘或不完整性,对这些偏差进行建模可能会支持更好地表示知识图谱。这是研究知识图谱构建和应用的大好时机。同行评审的文献正在以越来越快的速度增长,保持完整的理解对科学家来说变得越来越具有挑战性。科学家们可以采取的一条保持意识的途径是高度专注在特定领域的知识图谱文献。如果在如何可以构造、表示和应用这些图这些领域的联系,我们或许可以从中获得详细的知识而不失去更广泛的上下文联系。

你可能感兴趣的:(day03 | 知识图谱构建及其生物医学应用)