论文标题:KG4SL: knowledge graph neural network for synthetic lethality prediction in human cancers
论文地址:https://academic.oup.com/bioinformatics/article/37/Supplement_1/i418/6319703
论文期刊:Bioinformatics 2021
动机:
合成致死(SL) 是发现抗癌药物靶点的一个很有希望的方法。湿实验室筛选SL对的方法存在成本高、批量效应大、脱靶等问题。目前的SL预测计算方法包括基因敲除模拟、基于知识的数据挖掘和机器学习方法。现有的大多数方法都倾向于假设SL对彼此独立,而没有考虑SL对背后共享的生物机制。尽管一些方法已经结合了基因组和蛋白质组数据来帮助SL预测,但这些方法涉及手工特征工程,严重依赖于领域知识。
湿实验室(Wet-Lab)是指基于实验药剂的传统实验;相对地,干实验室(Dry-Lab)是指基于电脑的模拟实验。
结果:
在本文中,我们提出了一种新的基于图神经网络(GNN)的模型KG4SL,该模型将知识图(KG)的消息传递融入到SL预测中。KG使用包括基因、化合物、疾病、生物过程等11种实体和24种可能与SL相关的关系构建。KG的集成有助于解决独立性问题,并通过在KG上进行消息传递绕过手工特征工程。我们的模型在曲线下面积、precision-recall曲线下面积和F1等指标上优于所有最先进的基准模型。大量的实验,包括我们的模型与无监督TransE模型、香草GCN模型及其组合的比较,证明了将KG纳入GNN对SL预测的显著影响。
复杂的生物系统不能由大量独立作用的基因组成,而是依赖于基因之间的相互作用,基因之间的相互作用可进一步分为增强和抑制效应。这种抑制效应的特点是,当一对基因同时发生突变时,一些重要的功能将被失活,从而严重降低细胞的活力,而单个基因的突变可能不会影响细胞的活力。一种常见的抑制效应是合成致死性(SL),这一直是癌症药物的一种有前途的策略。如果在肿瘤细胞中发现特定基因失活,抑制其SL配对基因的药物可以导致肿瘤细胞死亡,但不影响正常细胞。因此,SL是抗癌药物靶点的金矿,人们在鉴定SL基因对方面做了大量的努力。高通量湿实验室筛选方法,包括化学库、集合RNA干扰筛选和基于CRISPR的基因组编辑技术已被用于发现SLS,但它们受到各种障碍的阻碍,如高成本、非靶点效应和批次效应。因此,迫切需要设计有效的计算方法来补充湿法实验室筛选技术的缺点。
已经提出了一系列用于SL预测的计算方法。这些方法可以分为三类。第一类涉及使用代谢网络模型模拟电子基因敲除。有人提出通过对候选基因在这些网络中的单敲除和双敲除的效果进行建模来表示SL。第二类被称为面向知识的方法,主要由具有特定领域知识的特征工程进行。为了预测SL对,这些方法使用了网络拓扑特征,例如图形中心性、网络流、连通同构性以及从基因组数据中获得的特征,包括体细胞拷贝数更改、短发夹RNA图谱和基因表示图谱。然而,上述两类生物在很大程度上依赖于代谢网络模型、领域知识和基因组数据,而没有充分利用已知SL对的有价值的信息。
为了利用现有的SL数据,第三类方法应用机器学习算法,其中特征是基于领域知识和启发式函数设计的。有人提出训练支持向量机(SVM)用于SL预测,其中特征提取自蛋白质-蛋白质相互作用(PPI)网络。MetaSL集成了10个分类器的17个特征和加权输出来预测SL。除了传统的机器学习方法外,已经提出了图表示学习方法,这些方法大多采用encoder-decoder架构。在这个架构中,编码器试图将节点映射到低维嵌入,而解码器接受嵌入并利用它来重建原始图中节点的相似性,从而恢复丢失的链接。这种方法可以推广到基于矩阵分解(MF)的方法和基于图神经网络(GNN)的方法。这些方法使用不同的编码器设计,但在解码器的选择上彼此相似(大多采用内积预测器或其归一化变体的形式)。MF方法采用MF编码器。 S L 2 M F \mathrm{SL^2MF} SL2MF提出了一种将SL矩阵、基因本体(GO)相似度矩阵和PPI矩阵分解到低维潜在空间的MF编码器。GRSMF引入了一种自表示的MF编码器,它专注于从已知的SL对中学习表示矩阵,并进一步整合了来自GO的基因之间的功能相似性。有人采用了基于集合矩阵分解(CMF)的方法来集成来自不同来源的数据来预测SLS。
基于MF的编码器只是浅层嵌入方法,它只是为每个节点优化一个唯一的嵌入向量,而不需要在节点之间共享任何参数或利用节点功能。GNN是一种最先进的图深度学习框架,它通过采用不同的嵌入策略来增强上述方法。GNN在原始图上定义了一个消息传递(MP)过程,即在每次迭代时,每个节点将来自其局部邻域的所有嵌入聚合为一条消息,该消息与其先前的嵌入相结合来生成新的嵌入。有人用了一种新的基于GNN的正则化技术–双重丢弃技术来解决SL网络的稀疏性。
然而,现有的基于GNN的方法往往将每个SL对视为一个独立的样本,并没有尝试考虑其潜在的生物学机制。然而,一些共有的因素(如生物过程、途径、细胞成分等)。可能潜移默化地使独立的假设失效。例如,(二磷酸腺苷-核糖)聚合酶1(PARP1)和乳腺癌1(BRCA1)是一对著名的SL基因对,引导了第一种临床批准的基于SL的抗癌药物PARP抑制剂。PARP1和BRCA1都是DNA修复过程中的关键角色。同时,ATM和TP53是另一个广为人知的SL对,ATM也是DNA修复过程中的关键工具。在这里,DNA修复过程可能是两个SL对背后的共同机制。
现有部分方法(例如支持向量机、随机森林(RF)、 S L 2 M F \mathrm{SL^2MF} SL2MF和GRSMF)注入了一些基因组和蛋白质组数据来促进SL预测,这些研究的结果强调了整合额外信息的重要性。同时,基于GNN的方法也可以对输入特征等信息进行编码。然而,这些方法都是基于领域知识手动提取特征,可能会遗漏一些特征。因此,为了获得更全面的特征集以提高SL预测的性能,我们需要一种能够自动进行知识集成和特征提取的新方法。
知识图(KG)是一种多关系图,其中节点和边具有不同的类型。KG被表示为 G = ( V , E ) G=(V,E) G=(V,E),其中集合 E E E中的边被定义为指示两个节点之间的特定关系 τ ∈ T \tau \in \Tau τ∈T的三元组 e = ( h , τ , t ) e=(h,\tau,t) e=(h,τ,t)。通过将KG合并到GNN中,可以通过直接将这些潜在因素作为图中的节点引入来缓解上述独立性问题。有人提出了端到端的知识GNN(KGNN),并在药物-药物相互作用(DDI)预测中取得了良好的效果。
在此,我们提出了一种新的基于KGNN的SL预测方法,称为KG4SL,它利用KG的MP作为后端。我们通过将可能与SL相关的各种因素(包括生物过程、疾病、化合物等)注入我们的KG来解决独立性问题。我们的模型包括三个部分:
据我们所知,这是第一个将KG和GNN集成起来进行SL预测的框架。我们将我们的模型与10种最先进的SL预测方法进行了比较,我们的模型在ROC曲线下面积(AUC)、precision-recall曲线下面积(AUPR)和F1上都优于所有基准模型。我们工作的另一个贡献是我们研究了KG的影响,这表明在GNN中引入有MP过程的KG可以显著提高SL预测的性能。
即给定实体 e j e_j ej,然后讨论实体 e i e_i ei的子图:
以中心节点为起点,遍历各子图实体节点,各实体节点又连接到自己的1跳~H跳邻居,每条连接都是一个关系,赋予一个权值,最后在聚合时进行加权平均,求得 e i e_i ei的最终表示,然后通过 e [ h + 1 ] = ϕ ( W ( e [ h ] + e P ( e ) ) + b ) \mathbf{e}[h+1]=\phi(\mathbf{W}(\mathbf{e}[h]+\mathbf{e}_{P(e)})+\mathbf{b}) e[h+1]=ϕ(W(e[h]+eP(e))+b)得到新的 e i e_i ei,最后把 e i e_i ei和 e j e_j ej作内积,即得到预测分数。
在这一部分中,我们首先介绍了SL预测的数据和问题。然后,我们给出了所提出的KG4SL模型的细节。
SynLethDB是合成致死基因对的综合数据库。其最新版本包括一组36,402个人类SL对,以及具有11种实体和24种关系的KG,如表1所示。SynLethDB还包括负SL对,即非SL和合成救援对。然而,与已知的正SL对相比,已知的负SL对要少得多。为了在正样本和负样本之间取得平衡,我们随机选取未知对作为负对,以便有相等数量的正和负SL对。因此,最终的SL数据集包含10,004个基因之间的72,804个基因对。
KG表示为SynLethKG,包括11个实体之间的24种关系。在24种关系中,有16种与基因直接相关,例如(基因,调节,基因)、(基因,相互作用,基因)和(基因,协同变化,基因)。其他8种关系与药物和化合物有关。此外,在11种实体中,有7种与基因直接相关,即途径、细胞成分、生物过程、分子功能、疾病、化合物和解剖。它们的格式是(基因、关系、实体)。这些实体可以从一跳的基因中获得,而其他三种实体(药理学类别、副作用和症状)可以从两跳的基因中获得。删除孤立节点后,SynLethKG的最终图形包含54 012个节点和2 231 921条边,如表1所示。表2和表3显示了有关SynLethKG中的实体和关系的详细信息。用户可以通过搜索他们想要在SynLethDB中研究的基因的名称来访问SynLethKG。
表3中的24个关系描述了基因、药物和化合物的特征。这些关系收集自Genbank、GO、DrugBank、DrugCental、PubMed、Bgee、Strong、Lincs L1000、SIDER4、STARGEO、Uberon和BioGRID。表3还列出了每种关系类型和关联节点的具体数量。此外,SynLethKG中的实体类型和每种实体的数量如表2所示。
形式上,SL数据可以建模为矩阵 S ∈ ( 0 , 1 ) n × n S\in(0,1)^{n×n} S∈(0,1)n×n,其中 n n n是SL对中涉及的基因数量。在这个SL矩阵 S S S中,如果基因 e i e_i ei和基因 e j e_j ej之间存在SL相互作用,则条目 s i , j s_{i,j} si,j为1,否则为0。请注意,条目值为0的基因对是未知对,其中一些可能是尚未发现的潜在SL对。知识图SynLethKG表示为 G = ( V e , V r ) G=\left(V_e,V_r\right) G=(Ve,Vr),它包含一组实体 V e V_e Ve和一组关系 V r V_r Vr。KG中的每条边被定义为三元组 T = ( h , r , t ) T=(h,r,t) T=(h,r,t),它显示了头部实体 h h h和尾部实体 t t t之间的类型 r r r的关系,其中 h , t ∈ V e h,t \in V_e h,t∈Ve中, r ∈ V r r \in V_r r∈Vr 。
在给定SL矩阵 S S S和 G G G的情况下,我们要解决的问题是预测基因 e i e_i ei和基因 e j e_j ej之间的SL关系。为了实现这一目标,我们提出了一个基于GNN的模型来学习评分函数 s ^ i , j = F ( i , j ∣ W , A , b ) \hat{s}_{i,j}=F(i,j | \mathbf{W},\mathbf{A},\mathbf{b}) s^i,j=F(i,j∣W,A,b),用来估计基因 e i e_i ei和基因 e j e_j ej是SL对的可能性,其中 W , A \mathbf{W},\mathbf{A} W,A和 b \mathbf{b} b表示函数 F F F中的可学习参数。
图 1. KG4SL 的框架。 KG4SL的工作流程可以分为三个模块,包括特定基因加权子图模块、聚合模块和分数计算模块。 (1) 特定基因加权子图:首先,我们从KG构造一个加权子图。 (2) 聚合:其次,对于每个 SL 对,我们选择与节点直接相关的实体和关系。此外,我们相信生物信息可以通过边在节点之间流动。因此,我们还聚合了间接连接的实体和关系的信息。考虑到算力的问题,只包括了实体和关系两层。 (3) 分数计算:第三,两个基因的聚合结果通过内积计算它们的SL分数。 KG4SL的损失函数由两种损失组成,即基于真值标签和基因-基因分数计算的基础损失,以及使用实体嵌入、关系嵌入和聚合权重计算的L2损失。
KG4SL的总体框架如图1所示。KG4SL利用GNN对来自KG的基因特征进行编码,用于SL预测,分三步进行。
接下来,我们详细介绍这三个步骤:
在给定SL相关基因的情况下,我们首先从KG构造一个加权子图。确定相关节点和确定边权重是构建基因特定加权子图的两个关键操作。
假设 e e e是中心实体节点,并且 N ( e ) N(e) N(e)是 e e e的邻居节点集合。在SynLethKG中, N ( e ) N(e) N(e)的大小在实体之间差别很大。例如,网络集线器可能有数千个关系,而一些节点较少被研究,因此邻居数量很少。在这项工作中,我们为每个实体抽取固定数量的k个邻居来表示其局部结构,并对 H H H跳( H ≥ 1 H≥1 H≥1)重复这个过程。具体地说,如果一个节点邻居数量小于 k k k,则我们重复进行采样,即一个邻居可能被采样不止一次。被采样的 k k k个邻居的集合被表示为 P ( e ) P(e) P(e)。图1中可以看到两跳子图( H = 2 H=2 H=2)的例子,每跳中的邻居抽样大小为 k = 4 k=4 k=4。
在特定于基因的邻居子图中,我们可以为边分配不同的权重来描述关系的重要性。
对于SL对 ( e i , e j ) (e_i,e_j) (ei,ej),我们先给定 e j e_j ej,然后讨论 e i e_i ei的子图:
实体 e i e_i ei的子图中的边 r e , e ′ r_{e,e'} re,e′的权重由 w e , e ′ e i = g ( e j , r e , e ′ ) w^{e_i}_{e,e'}=g(\mathbf{e}_j,\mathbf{r}_{e,e'}) we,e′ei=g(ej,re,e′)来计算,其中 e e e是 e i e_i ei的邻居子图中的实体, e ′ ∈ P ( e ) e' \in P(e) e′∈P(e)(即属于实体 e e e的1跳~H跳邻居节点)。此外, e j \mathbf{e}_j ej和 r e , e ′ \mathbf{r}_{e,e'} re,e′分别是基因 e j e_j ej和关系 r e , e ′ r_{e,e'} re,e′的特征嵌入; g g g是内积函数。权重 w e , e ′ e i w^{e_i}_{e,e'} we,e′ei描述了关系 r e , e ′ r_{e,e'} re,e′对基因 e j e_j ej的重要性。
对于基因 e i e_i ei的子图中的任何中心实体 e e e,我们聚集其选择的所有邻居的表示以更新其自身的表示。为了显示KG中实体 e e e的拓扑邻域结构,我们计算 e e e的邻域的加权平均组合:
e P ( e ) = ∑ e ′ ∈ P ( e ) ω ~ e , e ′ e i e (1) \mathbf{e}_{P(e)}=\sum_{e^{\prime} \in P(e)} \tilde{\omega}_{e, e \prime}^{e_i} \mathbf{e}\tag{1} eP(e)=e′∈P(e)∑ω~e,e′eie(1)
其中 e \mathbf{e} e是实体 e e e的表示, e P ( e ) \mathbf{e}_{P(e)} eP(e)可以理解为 e i e_i ei子图的中心节点,也就是 e i e_i ei;基因 e i e_i ei和基因 e j e_j ej是SL矩阵中的一对,而 w ~ \tilde{w} w~是通过应用Softmax函数进行归一化的基因关系得分:
ω ~ e , e ‘ e i = exp ( ω e , e e i ) ∑ e ^ ∈ ‘ P ( e ) exp ( ω e , e ^ ‘ e i ) (2) \tilde{\omega}_{e, \stackrel{`}e}^{e_i}=\frac{\exp \left(\omega_{e, e}^{e_i}\right)}{\sum_{\hat{e} \stackrel{`}\in P(e)} \exp \left(\omega_{e, \hat{e}`}^{e_i}\right)}\tag{2} ω~e,e‘ei=∑e^∈‘P(e)exp(ωe,e^‘ei)exp(ωe,eei)(2)
在一跳子图中获得中心实体的所挑选的邻域表示 e P ( e ) \mathbf{e}_{P(e)} eP(e)之后,它将实体表示 e \mathbf{e} e集成到单个向量中以更新 e \mathbf{e} e:
e [ h + 1 ] = ϕ ( W ( e [ h ] + e P ( e ) ) + b ) (3) \mathbf{e}[h+1]=\phi(\mathbf{W}(\mathbf{e}[h]+\mathbf{e}_{P(e)})+\mathbf{b})\tag{3} e[h+1]=ϕ(W(e[h]+eP(e))+b)(3)
其中 W \mathbf{W} W和 b \mathbf{b} b分别是线性变换权重和偏置; e [ h ] \mathbf{e}[h] e[h]表示 e \mathbf{e} e在h跳子图中的表示,从一跳逐步扩大到H跳; ϕ \phi ϕ是激活函数(比如 R e L U ReLU ReLU)。通过H跳子图对邻居信息进行聚合后,得到基因 e ^ i \hat{\mathbf{e}}_i e^i的最终特征表示为 e [ H ] \mathbf{e}[\mathrm{H}] e[H]。 e ^ j \hat{\mathbf{e}}_j e^j的最终特征表示获取也类似。
最后,通过传递KG的两个子图的信息,我们得到了SL矩阵中这两个基因的最终表示 e ^ i \hat{\mathbf{e}}_i e^i和 e ^ j \hat{\mathbf{e}}_j e^j。预测的 e i e_i ei基因和 e j e_j ej基因的相互作用概率由 s ^ i , j = s i g m o i d ( f ( e ^ i , e ^ j ) ) \hat{s}_{i,j}=sigmoid(f(\hat{\mathbf{e}}_i,\hat{\mathbf{e}}_j)) s^i,j=sigmoid(f(e^i,e^j))计算,其中 f f f是内积函数, s i g m o i d sigmoid sigmoid函数负责将输出压缩到0~1之间。此外,通过将阈值设置为0.5,可以将该链接预测视为二进制分类问题。 s ^ i , j \hat{s}_{i,j} s^i,j为1或0,即代表候选基因对之间是否存在SL关系。
即给定实体 e j e_j ej,然后讨论实体 e i e_i ei的子图:
以中心节点为起点,遍历各子图实体节点,各实体节点又连接到自己的1跳~H跳邻居,每条连接都是一个关系,赋予一个权值,最后在聚合时进行加权平均,求得 e i e_i ei的最终表示,然后通过 e [ h + 1 ] = ϕ ( W ( e [ h ] + e P ( e ) ) + b ) \mathbf{e}[h+1]=\phi(\mathbf{W}(\mathbf{e}[h]+\mathbf{e}_{P(e)})+\mathbf{b}) e[h+1]=ϕ(W(e[h]+eP(e))+b)得到新的 e i e_i ei,最后把 e i e_i ei和 e j e_j ej作内积,即得到预测分数。
我们的模型设计了两种损耗,包括基本损失和L2损失。通过计算边的真值标签和预测标签的交叉熵来计算基本损失J,如下所示:
J = max ( s ^ i , j , 0 ) − s ^ i , j × s i , j + log ( 1 + exp ( − ∣ s ^ i , j ∣ ) ) (4) J= \max \left(\hat{s}_{i, j}, 0\right)-\hat{s}_{i, j} \times s_{i, j}+\log \left(1+\exp \left(-\left|\hat{s}_{i, j}\right|\right)\right) \tag{4} J=max(s^i,j,0)−s^i,j×si,j+log(1+exp(−∣s^i,j∣))(4)
其中, s ^ i , j \hat{s}_{i,j} s^i,j是边的预测标签,而 s i , j s_{i,j} si,j是边的真实标签。
我们还添加一个L2正则化项,定义为:
∥ Γ ∥ = ∥ e ∥ + ∥ r ∥ + ∥ W ∥ 2 (5) \|\Gamma\|=\frac{\|\mathbf{e}\|+\|\mathbf{r}\|+\|\mathbf{W}\|}{2}\tag{5} ∥Γ∥=2∥e∥+∥r∥+∥W∥(5)
其中 ∥ ⋅ ∥ \|\cdot\| ∥⋅∥表示实体嵌入、关系嵌入和聚集权重的 L 2 L2 L2范数。
最终损失综合上述两种损失函数如下:
min W , A , b ℓ = min W , A , b ∑ i , j J + α ∥ Γ ∥ (6) {\min}_{\mathbf{W}, \mathbf{A}, \mathbf{b}} \ell={\min}_{\mathbf{W}, \mathbf{A}, \mathbf{b}} \sum_{i, j} J+\alpha\|\Gamma\| \tag{6} minW,A,bℓ=minW,A,bi,j∑J+α∥Γ∥(6)
其中A是可训练加权矩阵,其中每个元素表示基因关系得分,并且L2权重 a a a是平衡超参数。这里的 a a a被设置为0.0039。第一项对应于GNN的一部分,这部分同时学习线性变换权重 W \mathbf{W} W、基因关系得分权重 A \mathbf{A} A和偏差值 b \mathbf{b} b。第二项增加了L2正则化项。采用Adam算法来最小化最终损失,并将学习率设置为0.002。算法1概述了KG4SL的框架: