文章链接:https://doi.org/10.1093/bib/bbac148
期刊:Briefings in Bioinformatics
发表时间:2022年01月11日
作者:西北工业大学,黄玉安
代码和数据集:https://github.com/YanghanWu/GraphTGI
动机:转录因子与其靶基因之间的相互作用为转录调控的生物学研究奠定了知识基础,但其数量仍受到生物技术的限制。现有的与Tf-靶相互作用预测相关的计算方法大多是为了预测结合位点,而不是直接预测相互作用。为此,考虑到转录因子与靶基因之间未观察到的相互作用可以通过学习已知转录因子和靶基因之间的模式来预测,本文提出了一个基于图注意的自动编码器模型,利用已知的TF-靶基因相互作用网络的信息,结合两个序列和化学基因特征来预测转录因子与靶基因之间的相互作用。就我们所知,所提出的模型是通过从已知的TF-靶基因相互作用网络中学习模式来解决这一问题的首次尝试。结果:本文将Tf-靶基因相互作用的预测问题描述为复杂知识图上的链接预测问题,并提出了一种深度学习模型GraphTGI,该模型由一个基于图注意力的编码器和一个双线性解码器组成。我们在真实数据集上对该方法的预测性能进行了评估,实验结果表明,该模型在5次交叉验证中的平均AUC值为0.8864+/-0.0057。可以预期,GraphTGI模型可以有效和高效地预测大规模的Tf-靶基因相互作用。
关键词:转录调控网络、转录因子、图形神经网络、化学相似性、图形自动编码器。
转录调控是细胞发育和动态平衡的重要过程,基因表达在其中受到调控。转录因子作为转录调控的重要元件,通过与DNA结合域上的启动子或增强子结合,可上调或下调靶基因的转录表达。在不同的时空条件下,一类转录因子可以调控多个基因,而单个基因也可以被其他转录因子调控,形成一个复杂的动态调控网络。越来越多的证据表明,生物体的表型缺陷和复杂疾病往往与异常的调控网络有关。检测转录因子与靶基因之间的关系已成为生物信息学和生物医学科学的重要研究课题。
在体外和体内实验中,通过EMSA(凝胶迁移率改变分析)[15]、CHIP-SEQ(染色质免疫沉淀测序)[4,16,19,22]和DAP-SEQ(DNA亲和纯化测序)[5,21]等技术收集了转录因子与靶基因相互作用的数据。具体地说,EMSA通过观察蛋白质-DNA混合物的电泳性分离来检测与Tf结合的目的基因。CHIP-SEQ利用芯片技术,利用特异性免疫球蛋白(Ig)分离蛋白质-DNA混合物,然后通过高通量测序获得TF-靶相互作用。DAP-seq在不需要制备ChIPseq所需的特异性Tf抗体的情况下,利用体外表达的Tf结合裸露的gDNA片段,然后对高通量测序的结果进行分析,观察Tf与靶的相互作用。Tf-靶相互作用的集合一般是通过这些方法来识别的,但与完整的调控网络相比,其大小仍然是冰山一角。因此,迫切需要开发计算方法来选择最有潜力的候选对象来进一步鉴定TF靶相互作用,从而减少生物学实验的时间和成本,并促进对复杂疾病耐药机制和发病机制的了解。
使用深度学习来推断TF-靶标关系的计算方法间接地跟随着计算相应的转录因子结合位点(TFBS)。经典的深度学习框架如卷积神经网络(CNN)和递归神经网络(RNN)在预测TFBS的任务中表现出了更好的准确性和抗干扰性。基于CNN的预测TFBS的方法[1,2,23,28,31]试图通过权值共享策略学习输入序列的局部模式,因为DNA序列可以通过不同的编码方法编码成一个类似图像的矩阵,而卷积核可以被视为一个基序扫描器。TFBS预测的任务类似于图像分类,它应用CNN层和池化层等来生成TFBS的概率。由于DNA序列是一种序列数据,利用RNN建立预测TF-靶基因相互作用的深度学习模型的另一种策略是使用RNN。为了进一步增强DNA序列特征前后的相关性,TFBS预测模型[3,6,18,24]使用了BiGRU和LSTM等RNN变体结构跟随CNN层来解决长期相关性问题,并从输入序列中学习特征信息。尽管基于深度学习的TFBS预测策略被广泛采用,但由于TFBS往往位于较长的非编码序列中,其预测结果不可避免地会产生较高的假阳性率。此外,基于TFBS的方法得到的结果并不直接是转铁蛋白与靶基因的相互作用。
在没有预测TFBS的情况下,一些人致力于利用不同的基因表达数据源直接研究TF与靶基因的相互作用。例如,利用基因表达的图像数据,杨等人。[27]提出用GrigDL方法研究果蝇的转录调控网络。具体地说,以原位杂交(ISH)成像技术生成的图像为输入,GRIPDL采用残差CNN模型利用已知的TF-目标相互作用进行学习,并通过Sigmoid激活函数产生预测概率。除了基因表达图像,单细胞RNAseq数据提供了另一种视角来描述转录因子靶向基因的复杂机制。ScRNA-seq的数据是细胞和基因的二维矩阵,每个值表示一个基因在细胞中的表达水平。将每个基因的表达值分成16个箱,王俊新等。[10]将scRNA-seq数据转换为x、y、z基因的16×16×16 3D共表达矩阵,每个元素可解释为细胞数量。然后应用一种称为3D共表达矩阵分析(3DCEMA)的模型从3D共表达矩阵中推断基因调控。然而,无论是基因表达图像还是scRNA-seq,对于某些研究目的来说,这些方法的数据仍然非常昂贵,以至于这些方法很难在实际研究中广泛采用。用于训练预测模型的一种更可靠的数据可能是从以前的生物实验中收集的已知TF-靶基因相互作用,其数量正在稳步增长。使用这种数据的一个好处很明显,它可以考虑转换因子与基因相互作用的协作。
最近,一个名为TRRUST(由基于句子的文本挖掘揭开的转录调控关系)的人类TF-靶基因调控相互作用的数据库已经通过人工挑选数千个候选句子而出版。TRRUST检索了8427个人类TF-靶相互作用,涵盖了795种人类TF,提供了人类基因调控网络中TF-靶相互作用的最全面的信息。在数学上,这些相互作用的数据自然形成一个图,其中的节点和链接分别指示Tf/靶基因及其相互作用,使得基于图神经网络(GNN)的现有模型可以应用于。
描述不同事件或生物分子之间的关联和相互作用的关系数据在生物科学中普遍存在,形成了不同类型的图形,如化学网络[14]、药物-蛋白质相互作用网络[20,30]和多药相互作用网络[32],它们可以被不同结构的GNN模型所利用。沿着这个方向,我们利用TRRUST数据库的数据构建了已知Tf-靶基因相互作用的异质属性图,并对未观察到的相互作用进行了预测。具体地说,我们建立了一个新的空间图卷积模型来计算构建图中每个TF-目标对交互的可能性。本文提出的潜在转移因子与靶基因相互作用的图形化自动编码模型GraphTGI由多个基于图注意力的编码层和一个双线性解码器组成。我们构建的编码器提取了TF-目标交互网络的全局信息。给出一个带有其序列或化学性质信息的新型转铁蛋白,GraphTGI使用户能够考虑序列或化学相似性来预测其靶基因。我们的工作有五个方面:
1)就我们所知,GraphTGI模型是第一个考虑已知的Tf-靶基因相互作用网络拓扑的模型。
2)GraphTGI可以学习TRRUST中记录的TF和基因的嵌入性,从而可以根据它们在基因调控网络中的角色来刻画它们之间的相关性。
3)GraphTGI采用了一个注意力模型模块,可以通过注意力系数来学习TF和基因之间的关联。
4)GraphTGI首次尝试利用基因的化学性质信息来预测其调控模式
5)在真实数据集上进行端到端训练的实验结果表明,GraphTGI对于大规模预测是高效和有效的。
为了表示转录因子和靶基因之间的已知关联,我们利用TRRUST数据库(https://www.grnpedia.org/trrust/)的数据构建了由转录因子节点和靶基因节点组成的异质性图。使用基于句子的文本挖掘方法,从11237篇Pubmed文章中搜索,手动收集了9,396个TF-靶基因调控关系,涵盖了795种人类TF。它还提供了每对TF-靶基因的调控模式信息,包括激活(33.5%)、抑制(20.5%)和未知(46%)。然而,所有的“激活”、“抑制”和“未知”相互作用都被统一为“交互作用”,因为我们在本文中只专注于推断Tf-靶相互作用的存在,而没有预测相互作用的类型。值得注意的是,根据不同的文献,有许多相互作用既被注释为“激活”,也被注释为“抑制”,并且它们可能多次出现在TRRUST中。对于这些具有多个注释的TF-靶基因对,我们将其定义为冗余,并保留一个链接来表示它。此外,我们保留了在比较T毒素基因组数据库(CTD,http://ctdbase.org/).)中ID匹配成功的部分。结果,使用3400个实验验证的657个TF和1780个靶基因的TF-靶基因相互作用形成数据集,用于训练我们的预测模型。
我们认为,环境化学物质对人类健康的影响可能会对转录因子与靶基因的相互作用机制产生重大影响,因此化学-基因相互作用包含了预测新的相互作用的有用信息。因此,我们从CTD数据库中收集了化学-基因相互作用,该数据库从已发表的文献中手动管理化学-基因相互作用[7,8]。这个数据库记录了11125个基因和9,516种化学物质之间的124344个基因-化学关联,平均每个基因描述了11种不同类型的化学分子。除了相关的化学作用外,我们还利用DNA序列来全面描述每个基因节点的特征。具体来说,我们从国家生物技术信息中心(ncbi,https://www.ncbi.nlm.nih.gov/)下载了转录因子和靶基因的DNA序列。
我们将Tf-靶基因相互作用的预测问题描述为一个链接预测任务,以确定一对Tf和靶基因是否已经相互作用。链接预测任务是在一个由Tf和目标基因的节点组成的异构图RED上执行的,这两个节点分别用T和G表示。给定Tf集合T={t1,...,tm}和目标基因集合G={g1,...,gn},该任务可以表现为学习从Tf-目标基因对到相互作用概率得分的函数映射F(T,G)→[0,1]。
在这项工作中,我们提出了一种新的方法来预测转录因子与靶基因之间的相互作用。GraphTGI模型的基本假设假设,通过学习已知基因的数据模式,可以预测转录因子与靶基因之间的潜在相互作用。在相互作用图上,具有相似化学/序列性质的转录因子被认为更有可能与相似的靶基因连锁。如图1所示,GraphTGI建立了一个由三部分组成的自动编码框架:(1)节点特征的顺序或化学相似性计算;(2)基于注意力模型的编码器,将不同的节点特征映射到共享的嵌入空间;(3)用于重建异质图以进行预测的双线性解码器。需要注意的是,该模型是以端到端的方式用交叉熵损失函数来训练的。
对于每种类型的节点,我们使用Ci={C1...Cnc}来表示其与所有化学品的关系,其中Nc表示化学品的数量,Cj=1表示第i个节点与第j个化学品相关联,而Cj=0则表示相反。我们计算所有这些节点之间的余弦相似度,并将其存储在化学相似度矩阵Csm∈RN×N中,其中N表示节点数,CSmi,j表示第i个节点和第j个节点之间的余弦相似度分数,计算如下:
图1.预测转录因子与靶基因相互作用的GraphTGI示意图。GraphTGI包括三个步骤:(1)从TRRUST数据库构建TF-靶基因图,并为节点添加化学/序列相似性特征;(2)采用基于图注意力的编码器,通过学习拓扑信息和特征信息来生成图嵌入;(3)使用双线性解码器重建图,并使用交叉熵函数以端到端的方式训练整个模型。流程图还显示了通过使用GraphTGI自动搜索特定转铁蛋白的目标基因的过程。
我们使用一个全局比对函数来计算所有序列之间的序列相似性。具体地,对于序列Sa和Sb,我们将Sa中的第i个字符表示为Sa(I),将Sb中的第j个字符表示为Sb(J)。如果Sa(I)=Sb(J),则称为匹配,如果Sa(I)Sb(J),则称为不匹配,如果它们不匹配,则在Sb(J)的位置添加间隙。全局对准函数可以定义如下:
其中,Nmatch和Ngap分别表示SA和SB之间的匹配和间隙的数量。Smatch和Spenalty分别表示匹配得分和差距得分。所有节点之间的顺序相似性分数被存储在序列相似性矩阵SSM∈RN×N中,其中SSMi,j=Score(Si,Sj)表示第i个节点和第j个节点之间的分数。
GraphTGI模型假设交互节点更有可能具有相关特征,因此该模型旨在学习节点特征之间的相关性。为了开发一种可以推广到完全不可见的图的方法,并充分挖掘丰富的TF-靶基因相互作用信息,GraphTGI模型应用了基于图注意力的编码器,利用节点的直接邻居信息来生成节点的嵌入。
我们认为GraphTGI的输入是一个由两类节点组成的异构图。为了增强特征的表现力,我们应用一个完全连通的层将节点的特征映射到高阶向量空间。假设Tf和靶基因的节点分别具有c维特征向量和d维特征向量。我们用来表示Tf节点的原始特征向量,其中ui∈Rc表示第i个Tf节点的特征。对于目的基因节点的原始特征载体,v=,其中?Vj∈Rd代表第j个目的基因节点的特征。具体地说,我们将特征投影到e维向量空间如下:
其中wtf∈Re×c和wtg∈Re×d分别表示Tf节点和目的基因节点的转换矩阵。图注意力层以投影特征为输入,通过计算第i个节点和第j个节点之间的注意系数Eij,在节点上引入自我注意机制:
其中是将输入特征转换为更高级别特征的权重矩阵;是单层前馈神经网络的参数化权向量;·T是换位和?是串联操作;γ表示一种类型的TF节点或靶基因节点,δ表示另一种类型。为了将结构信息考虑到机制中,基于图注意力的层只计算第j个节点的Eij,其中j∈Ni和Ni表示图中第i个节点的邻域。并且使用Softmax函数来归一化这些注意系数,以使它们在不同节点之间容易地进行比较,因此我们具有:
这些归一化的注意系数可以衡量不同邻居节点对第i个节点的影响,这可以帮助计算出输入图中更重要的交互作用。每个节点的输出特征的计算方法是使用相应的关注系数线性组合原始特征,如下所示:
其中,σ表示诸如Softmax之类的非线性函数,表示当前图形基于注意的层的输出节点特征。基于图注意力的层采用多头注意机制来计算TF-目标对之间的不同相关性,从而稳定学习过程具体地说,H个注意头独立地执行等式(8),然后将它们的结果连接起来以产生输出特征
将方程(9)应用于每一个节点,从而得到图的嵌入,其中每一行都是节点的特征。注意,Tf和目标基因节点的投影特征结构是相同的,因此GraphTGI对目标基因节点的特征执行相同的计算。具体地说,用 替换和 替换 在计算TF节点的特征时。并在计算目标基因节点的特征时进行相反的替换。
GraphTGI模型应用双线性解码器重构异构图的链接,并采用sigmoid预测第i个TF节点和第j个目标基因节点之间是否存在链接的概率^yij如下:
是一个可训练的参数矩阵。使用预测 ˆyij 和真实标签 yij,GraphTGI 模型应用交叉熵损失函数来计算损失,计算如下:
表示图中的所有节点。然后我们可以通过反向传播算法以端到端的方式训练整个模型。
为了评估所提出的模型的预测性能,我们基于实验证实的转铁蛋白-靶基因相互作用的真实数据集构建了用于训练的异质图。我们使用k重(k=2、5和10)交叉验证来测试GraphTGI模型的性能。具体地说,将所有样本随机分为k个大致相等的组,每组依次作为测试集,其余组作为训练集。为了量化k重交叉验证中的绩效,我们采用了四种评估指标,即准确率、精确度、召回率和F1-Score,计算如下:
其中,Tp/Tn表示正确指示的正/负结果数,FP/Fn表示错误指示的正/负结果数,P表示准确度分数,R表示回忆分数。事实上,没有数据描述经实验证实不相互作用的TF-靶子对,这意味着我们没有真正的负样本集。为了验证模型的性能,我们从未标记对中随机抽样构造了一个“负”样本集,其大小与正集的大小相同。我们假设未标记对中的正对所占的比例很小,以至于由采样产生的对实际上大多是负的
表1.预测性能w.r.t.。在k重交叉验证中使用GraphTGI的AUC、准确度、精确度、召回率和F1得分
在每个倍数中,我们计算了不同阈值设置下相应的真阳性率(TPR,敏感性)和假阳性率(FPR,1-特异性),其中敏感性和特异性分别是预测为阳性和阴性的测试样本的百分比。此外,我们通过绘制TPR与FPR来计算相应的接收者工作特性(ROC)曲线,并计算ROC的曲线下面积(AUC)作为我们模型的综合评价指标。AUC=0.5表示纯随机猜测,AUC=1表示完美预测。我们使用这些样本,并随机选择相同数量的未标记样本来构建基本事实项目集。对于所有指标,值越大表示性能越好。在k-折交叉验证下,GraphTGI产生的平均性能结果如表1所示。
我们对我们的模型进行了1000个时期的训练,并将学习率设置为0.0004,权重衰减到1E−3,将LeakyReLU函数的斜率设置为0.2.。我们选择LeakyReLU是为了节省计算量,也是为了解决消失的梯度问题。在训练过程中,模型的参数通过Xavier初始化进行随机初始化,并由Adam进行优化。此外,GraphTGI采用了丢弃策略,避免了过拟合问题,并在实验中将丢失率设置为0.2。
表1显示,所有预测指标都随着k折叠交叉验证中折叠数量的增加而增加。图2中相应的ROC曲线显示,GraphTGI在5次交叉验证时的平均AUC为88.64±0.57%。
图2.GraphTGI在5次交叉验证下得到的ROC曲线。
本文将Tf节点和目标基因节点的属性特征添加到已知Tf-靶基因交互作用图中,以提高预测性能。为了评估节点属性信息对GraphTGI模型的影响,我们比较了五种特征构建策略在GraphTGI上的性能:
(I)具有随机节点特征,将特征按正态分布随机化;
(II)化学相似特征,以CSM的行向量为节点特征;
(III)顺序相似特征,以SSM的行向量为节点特征;
(IV)基于融合的特征,结合CSM特征和SSM特征如下:
其中IM的行向量表示基于合并的特征;
(V)基于拼接的特征,将CSM特征和SSM特征拼接如下:
其中||表示连接操作,CM的行向量基于连接降级功能。这些实验在两层编码器下进行了5次交叉验证,结果如图3所示。
图3.在5次交叉验证中使用不同特征的GraphTGI预测性能比较。考虑了三种特征构建策略,包括使用随机特征、单一类型的化学/顺序相似性和特征组合。
如图3所示,在五种比较的特征构建方法中,随机特征的性能是最差的。使用单一特征(即化学相似特征和顺序相似特征)的策略被证明对提高预测性能有显著的帮助,表明我们所考虑的特征信息是有用的,并且在模型中引入特征的方法是有效的。此外,我们还探索了多种特征的组合预测,这两种方法的结果表明,它们的性能是突出的。具体地说,从AUC、准确率、召回率和F1-Score四个指标来看,特征组合中的拼接操作优于另一种操作。总体而言,这一组合被证明在特征构建方面带来了显著的改善。因此,我们认为利用化学相似性和基因序列的两种特征信息是互补的,以揭示Tf-靶基因相互作用的机制。值得注意的是,基于拼接操作的特征具有最大的维度,保留了组合中最大的特征信息,我们认为这是它产生最好结果的原因。
表2.使用不同比例输入信息的性能比较
此外,我们还比较了不同特征信息比例的GraphTGI模型的预测性能。具体地说,我们测试了不同大小的节点特征,保留了原始特征的30%、60%和90%以上。如表2所示,使用更大比例的特征来训练模型,可以提高预测性能。基于这些结果,我们预计在未来的研究中收集到更全面的特征信息,可以进一步提高GraphTGI的性能。
在这一部分中,引入了统计分析,以证明GraphTGI模型能够全面学习序列信息和化学-基因相互作用的数据模式以进行预测的假设。对于TRRUST中有1个以上互作目的基因的每个TF节点,我们将基因分成两组:一组被记录为与TF互作,另一组不与其互作。我们根据基因的化学特征和序列特征计算了两组的平均皮尔逊相关系数(PCC)。我们将后一组的PCC称为基线,并将其标记为蓝点。如果前一组的PCC值显著高于基线,我们将其标记为红点。如果它明显低于基线,我们将其标记为绿点。
我们将基线标准差三倍以上的PCC定义为显著较高或较低的值。图4显示了使用化学基因交互作用作为基因特征的目标基因的相关性分析结果,图5显示了使用基因序列信息作为基因特征的结果。结果发现,在96.7%(328/339)的转录因子中,它们的靶基因与化学特性有显著的统计相关性。当使用基因序列信息时,82.3%(279/339)的TF支持相同的发现。具体地说,使用化学特征的模式比使用基因序列信息的模式更清晰。82.3%的TF(图4中的红点)证明了TF靶向基因的特征具有显著的正相关性。当使用基因序列信息时,这一百分比达到60.8%(图5中的红点),这可能间接解释了为什么根据我们之前的实验,化学特征可以产生比基于基因序列的特征更好的预测性能。
图4.利用化学特征与同一转录因子相互作用的目标基因的PCC值
图5.利用基因序列信息与同一转铁蛋白相互作用的目标基因的PCC值。
采用网格搜索策略对模型的参数进行了优化,即在一个区间内轮流尝试等间距的值。
编码器中基于图形注意力的层的数量对GraphTGI的性能至关重要。如表3所示,我们在GraphTGI中测试了不同深度的层(2、3和4),以进行5次交叉验证。在五个评价标准中,3层GraphTGI模型的性能最好。结果表明,预测性能对层深设置不是很敏感。
表3.不同参数下GraphTGI模型的预测性能,包括编码器层的深度、嵌入大小、编码器中的注意头数和负采样率。
嵌入的大小决定了将输入数据映射到GraphTGI模型编码模块的潜在空间的学习能力。在本工作中,我们简单地将每一层的输出维度设置为与嵌入大小相同。具体地说,我们将嵌入大小设置为8、16、32、64进行测试。表3报告了不同嵌入大小的GraphTGI在5倍交叉验证中的预测性能。结果表明,较大的嵌入大小可以提高GraphTGI模型的综合性能。
Tf节点与目的基因节点之间可能存在不同的相关性。GraphTGI模型引入了多头注意机制来考虑不同类型的节点关联信息。为了比较多头注意机制对GraphTGI的影响,我们设置了2个、4个和6个注意头数进行测试。表3表明,具有4个注意头的模型在AUC和精确度方面取得了更好的性能。基于注意机制,所有节点之间的相互作用权重可以通过GraphTGI模型来学习,揭示了转录调控网络中每个TF-靶基因对之间的调控强度。此外,我们在补充材料中将链接的部分注意系数显示在表S1中。
在这项工作中,从TRRUST数据集中收集的已知Tf-靶基因相互作用被构造为用于训练我们的预测模型的正样本集,由于没有数据描述经实验证实是非交互的Tf-靶基因对,因此预测任务被描述为一个半监督学习问题,其中考虑未标记样本的方式是重要的。为了训练模型,我们通过对未标记的数据进行采样来构造负集。注意,未标记数据的数量远远大于已标记数据的数量,我们随机选择了比正向交互多m倍的未标注对来平衡训练集,其中m是负采样率。我们将m设置为1、2、3进行测试,并在表3中报告了预测性能。结果表明,负样本数的增加导致准确率、召回率和F1得分显著下降,这不利于我们模型的目的。因此,在本文的实验中,我们将负采样率设置为1。
表4.在5次交叉验证中使用不同GNN层作为编码器的性能比较。
表5.GraphTGI模型预测的CTCF和CEBPA的top20个靶基因
在本部分中,我们将GraphTGI编码层与其他类型的GNN层进行了比较。具体地说,我们分别测试了GraphSAGE层、T拓扑自适应图卷积层(Tag)、图同构网络层(GIN)和另一个基于注意力的图神经网络层(AGNN)作为编码层。在这些对比实验中,我们使用基于拼接的特征作为节点特征,并将嵌入大小设置为32。为了确保评价的公正性,我们使用不同的随机种子对每种GNN方法进行了五次实验。在Table4中总结的对比结果表明,GraphTGI编码层在AUC上取得了更好的性能,比其他GNN方法提高了1.85%,表明了注意机制在预测中的有效性。
为了评估所提出的方法在真实场景中预测特定类型 TF 的潜在靶基因的推荐能力,在本节中,我们对两个特定 TF 的预测列表感兴趣。具体来说,我们使用TRRUST数据库中收集到的所有已知TF-target基因作为训练集来训练GraphTGI模型,并且只关注我们感兴趣的Tf的最高排名预测。如图1所示,用户可以通过GraphTGI查询感兴趣TF的前20个潜在靶基因,整个查询过程是自动的。选择两种类型的TF,CTCF和CEBPA进行案例研究。为了评估预测,我们手动验证了来自不同于训练集的另一个公共数据库(hTFtarget 数据库 )的结果。
CTCF是一种高度保守的11锌指蛋白,作为转录激活因子、抑制因子或绝缘蛋白发挥作用。CTCF在重塑基因组的三维结构和引导其结合部位的凝聚力方面具有重要作用。CTCF的前20个靶基因在表5中报告了。结果表明,GraphTGI在CTCF上的确认率达到75%(15/20)。CEBPA是一种参与某些血细胞分化的转录因子,已有研究表明它是影响急性髓系白血病预后的肿瘤抑制基因。表5显示了CEBPA的前20个目的基因,CEBPA的确认率达到60%(12/20)。此外,我们还手动检查了文献,看看T表5中标注为UNCONFERIFIED的对是否得到了实验证实。结果,其中4人通过核对试卷成功核实。结果表明,GraphTGI的预测结果是有效的,具有较好的泛化能力。考虑到排名靠前的预测是基于GraphTGI生成的嵌入,结果证明学习的嵌入能够描述调控网络,揭示了转录因子与靶基因之间的潜在相互作用。GraphTGI编码器产生的Tf/靶基因的嵌入和GraphTGI模型产生的657个Tf的前20个靶基因排名表在补充材料中如表S2、S3和S4所示。
预测转录因子与靶基因之间的相互作用仍然是一个基本的挑战,整个基因调控网络的高阶拓扑关系仍然没有得到很好的探索。在这项工作中,我们提出了GraphTGI,一个使用基于图注意的神经网络的自动编码器,用于预测转录因子与靶基因之间的相互作用。在收集到的真实数据集上进行了一系列实验,并对预测结果进行了综合分析。实验结果证明了GraphTGI模型在预测Tf-靶基因相互作用中的实用性和有效性。
就我们所知,GraphTGI模型是第一个考虑已知的Tf-靶基因相互作用网络拓扑的端到端模型。同时,GraphTGI也是同类算法中第一个将化学性质信息作为节点特征的算法。我们的工作的另一个主要贡献是,该模型自动生成的嵌入可以从基因调控网络中的角色来刻画Tf-靶基因对的相关性,为其他与Tf或靶基因相关的任务提供了一种新型的数据源。此外,GraphTGI模型首次尝试将基于注意力的模型应用于TF-靶基因预测任务中,通过注意力系数来学习TF与基因的相关性。
关键点
GraphTGI模型是第一个考虑到迄今已确定的已知TF-目标基因相互作用网络的拓扑结构的模型,该网络是通过使用基于注意的图神经网络来识别的。
可以描绘TFs和基因的相关性的嵌入由GraphTGI生成,为其他与TF或目标相关的任务提供了一种新型的数据源。
GraphTGI是首次尝试使用基因的化学特性信息来预测其核心调控模式。
这项工作提出了一个新的解决方案,以任何基因相关的数据作为输入,对TF-目标的相互作用进行端到端的预测。