MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)

Predicting miRNA-disease associations based on lncRNA–miRNA interactions and graph convolution networks  发表在Briefings in Bioinformatics

Predicting miRNA-disease associations based on lncRNA–miRNA interactions and graph convolution networks | Briefings in Bioinformatics | Oxford AcademicAbstract. Increasing studies have proved that microRNAs (miRNAs) are critical biomarkers in the development of human complex diseases. Identifying disease-relathttps://doi.org/10.1093/bib/bbac495


目录

Abstract

Introduction

Materials and methods

Datasets

Method architecture 

Bipartite network construction

GCN encoder

Multichannel attention mechanism

CNN combiner

Bilinear decoder

Optimization

Results

Experimental setting and evaluation metrics

Parameter sensitivity analysis

GCN layer

Initial feature embedding size

Embedding size

Learning rate

Effects of different model components on prediction performance

Performance evaluation

Comparison with other methods

Case studies

Conclusion

Data availabilit


Abstract

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第1张图片

        越来越多的研究证明,microRNAs(miRNAs)是人类复杂疾病发生发展的重要生物标志物。识别与疾病相关的miRNAs有利于疾病的预防、诊断和治疗。基于相似的miRNAs往往与相似的疾病相关的假设,各种计算方法被开发出来来预测新的miRNA-疾病关联(MDAs)。然而,由于生物医学中数据的不足,选择合适的特征进行相似性计算是一项具有挑战性的任务。在这项研究中,我们提出了一种基于深度学习的计算方法MAGCN来预测潜在的MDAs而不使用任何相似性度量( similarity measurements)该方法基于已知的lncRNA与miRNA相互作用,通过具有多通道注意机制的图卷积网络和一个卷积神经网络组合器预测新的MDAs。大量实验表明,该方法在2折、5折和10折交叉验证下得到的AUC分别为0.8994,0.9032和0.9044。与五种最先进的预测方法相比,MAGCN在预测精度方面有较大的提高。此外,我们对三种疾病进行了个案研究,以发现它们相关的miRNAs,并发现三种疾病的前50名预测结果都得到了建立的数据库的支撑。综合结果表明,我们的方法是检测新的疾病相关miRNAs的可靠工具。

关键词:miRNA与疾病的关联,lncRNA与miRNA相互作用,图卷积网络,多通道注意力机制,CNN组合器


Introduction

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第2张图片

        这些基于机器学习的算法得到了越来越准确的预测结果。然而,这些方法面临三大挑战。首先,一些机器学习方法仍然使用相似度值作为输入特征进行推理。其次,监督学习方法需要阴性样本进行分类,而实验验证的miRNA-疾病阴性样本由于缺乏生物医学研究兴趣,在现实中无法获得。随机选取的负样本会给预测结果带来噪声。第三,对于一些机器学习方法来说,为获得最优结果而设置适当的参数值是很棘手的。 

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第3张图片

         在本研究中,我们提出一个深度学习模型MAGCN来预测MDAs。 与以前基于相似性的方法不同,我们的方法只使用已知的MDAs和lncRNA-miRNA相互作用(LMIs)进行预测。 具体来说,我们基于已知的MDAs和LMIs构造了两个二分网络(bipartite networks)。 将具有多通道注意力机制的图卷积网络(GCN)和一个卷积神经网络(CNN)组合器应用于二分网络进行特征学习最后开发了一个用于关联预测的双线性译码器(bilinear decoder)。 我们在交叉验证的条件下测试了该方法的性能,并与其他已知的方法进行了比较。 结果表明,我们的方法在预测精度方面优于现有方法。 我们进一步对三种疾病进行个案研究,发现现有数据库很好地支持了排名靠前的几个预测。 良好的性能证明了我们的方法在推断新的MDAs中的有效性和可靠性。


Materials and methods

Datasets

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第4张图片

        我们研究中使用的数据集从文献[34]中下载,文中Huang等人分别从lncRNASNP V2.0[35]和HMDD V3.0[36]中收集了实验验证的LMIs和MDAs。 通过删除重复记录和不同数据库的匹配IDs(matching IDs),最终获得541个lncRNAs,268个miRNAs,799个疾病,10465个LMIs和11253个MDAs。 我们用,分别表示lncRNAs,miRNAs和疾病的数量用一个邻接矩阵描述LMIs,用另一个邻接矩阵表示MDAs两个矩阵中的每个元素的值为1或0,分别表示LMIs和MDAs的已知或未知关系。

 


Method architecture 

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第5张图片

         在本研究中,我们提出了一个计算框架MAGCN,基于已知的LMIs通过带有多通道注意机制的GCN[37]和CNN组合器推断潜在的MDAs。 如图1所示,首先基于已知的LMIs和MDAs构造了两个二分网络然后利用GCN来学习lncRNAs、miRNAs和疾病的嵌入(embeddings)通过一个CNN组合器根据多通道注意力机制进一步融合来自多个图卷积层的lncRNAs、miRNAs和疾病的嵌入空间(embedding space)最后,基于所获得的特征应用线性编码器进行关联预测

        

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第6张图片 图1  MAGCN的工作流程


Bipartite network construction

lncRNA-miRNA二分网络由邻接矩阵及其转置定义为:  

类似地,miRNA-疾病二分网络由邻接矩阵及其转置定义为: 


GCN encoder

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第7张图片

        我们使用GCN作为编码器,基于上述定义的来获得lncRNAs和miRNAs以及疾病的多层结构信息。 我们将lncRNAs的特征随机初始化miRNAs的特征随机初始化疾病的特征随机初始化。 然后我们根据以下方程在: 上获得点嵌入 

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第8张图片

 其中是GCN的第k层嵌入,的对角节点度矩阵,是第k个神经网络的权重矩阵,是GCN嵌入的维数,是非线性激活函数ReLU。 

         类似地,我们也使用GCN作为编码器,根据以下等式获得上节点的嵌入: 

        

         在我们的研究中,我们为初始层根据两个二分网络构造初始嵌入 

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第9张图片

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第10张图片

 我们分别以每一层的嵌入作为不同的特征向量,从两个二分图中得到lncRNAs,miRNAs和疾病的嵌入每一层的嵌入表示为,其中表示lncRNAs在第k层的嵌入,表示miRNAs在第K层的嵌入。每一层的嵌入表示为,其中表示miRNAs在K层的嵌入,表示疾病在K层的嵌入。最后,我们将两个二分图的节点特征进行整合,得到lncRNAs、miRNAs和疾病的组合特征空间如下:

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第11张图片

 其中分别代表lncRNAs,miRNAs和疾病的特征空间。 


Multichannel attention mechanism

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第12张图片

         lncRNAs、miRNAs和疾病的特征空间包含了两个不同二分图上不同层次的结构信息, 不同的结构信息嵌入的学习有不同的贡献。因此,我们利用注意力机制来提取不同的特征,以提高模型的预测性能。 受SENet模型[38]的启发。我们使用通道注意机制来计算每个空间中不同结构信息对最终嵌入的贡献。 

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第13张图片

        为了获得不同特征矩阵的重要性,我们首先使用全局平均池来获得每个通道的表示。 对于具有2k个通道的miRNA特征空间,通过压缩运算生成表示向量. 更具体地说,给定miRNA特征空间中的第c特征矩阵,对应的信道表示可以如下计算: 

        相应地,可以如下计算miRNA特征空间的通道注意力因子: 

         其中为miRNAs的注意力因子,为可训练参数,sigmoid激活函数ReLU激活函数。 

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第14张图片

         得到每个通道的注意力系数后,将注意力系数与原始特征相乘,为每个通道赋予不同的权重,方程如下: 

         基于通道注意机制,我们获得lncRNA、miRNA和疾病通道信息如下: 

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第15张图片


CNN combiner

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第16张图片

         受CNNs在计算机视觉中成功应用的启发,我们利用CNNs的多个卷积核从上面计算的通道信息中提取并集成最终的节点特征。 给定miRNA通道信息,最终的miRNA特征可以定义如下: 

         类似地,我们可以得到最终的lncRNA嵌入和疾病嵌入  如下

         其中conv表示卷积运算,卷积核的个数为,核大小为

        (!!!大小× 2k × , )


Bilinear decoder

         我们使用解码器从最终的miRNA特征和疾病特征重建miRNA-疾病邻接矩阵,其定义如下: 

 是可训练参数

         类似地,解码器用于从最终的lncRNA特征和miRNA特征重建lncRNA-miRNA邻接矩阵,其计算如下: 


Optimization

         在训练中,我们最小化以下逻辑损失函数(logistic loss function),以使miRNA-疾病预测结果准确地接近真实值,如下所示: 

其中是训练集中MDAs的邻接矩阵,是MDAs的预测值。 

        同时,在使用已知的LMIs来更好地训练模型时,第二损失函数定义如下: 

其中,为Frobenius范数,为原始LMIs,为预测的lncRNA-miRNA值。 

         最终损失函数可以定义如下: 

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第17张图片

         其中α和λ为超参数,α用于平衡损失函数的权重,λ用于控制L2正则化的强度,表示模型中的可训练参数。 

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第18张图片

         在我们的模型中,我们使用Adam优化器[39]来最小化损失函数。 Adam优化器根据训练数据迭代更新神经网络的权值。 为了防止过拟合,我们在损失函数中加入了L2正则化。 此外,在优化过程中,根据训练的epochs数目来调整学习速率,并设定学习速率随着epoch的增加而逐渐降低,以达到更好的训练效果。 


Results

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第19张图片

        我们首先以基准数据集为基础,使用五折交叉验证(5-CV)分析了模型MAGCN中超参数的影响。 然后,对模型的不同组件进行消融实验,以检验模型的预测性能。 进一步采用2CV、5-CV和10-CV三种交叉验证策略对MAGCN的性能进行了综合评价,并在5-CV实验条件下与已有的其他方法进行了比较 。最后,我们使用MAGCN在三种疾病上进行案例研究来测试其在现实的应用。


Experimental setting and evaluation metrics

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第20张图片

        我们使用k折扣交叉验证(k=2,5,10)将所有的MDAs随机分成k个近似相等的部分来评估我们的方法MAGCN的性能,K-1份用于训练,其余的用于测试。 为了分析该方法的性能,我们使用了包括接收机工作特性(ROC)曲线下的面积(AUROC)和查准率/查全率(PR)曲线下的面积(AUPRC)在内的评价指标。 我们还计算查全率(recall)(也称为敏感度)、特异性(specificity)、准确性(accuracy)、查准率(precision)和F1-测度(F1-分数)(F1-score)进行综合比较。 


Parameter sensitivity analysis

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第21张图片

        在我们的方法MAGCN中有四个重要的超参数(GCN layer k、initial feature embedding size f0、embedding size p 和  learning rate lr )。 在这一节中,我们对超参数进行了经验设置,并通过在已知的MDAs上进行5折交叉验证实验来分析它们对推理性能的影响。 通过只更改一个参数的值,而其他参数保持不变,将收到以下结果。 


GCN layer

        (编码器)我们的模型使用多个GCN层从LncRNAs、miRNAs和疾病的不同层提取结构信息,以获得它们的特征。 我们设置GCN层数为2、3、4进行分析。 接收到的AUC值如图2所示。 我们发现GCN层数对预测性能影响不大。 在下面的实验中,GCN层数k被设置为2。 

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第22张图片


Initial feature embedding size

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第23张图片

        模型MAGCN的节点特征是随机初始化的,节点特征的大小f0是一个超参数。 我们在实验中选择了{64,128,256,512,1024}的特征嵌入大小,结果如图3所示。从图3中我们可以发现,当初始特征嵌入大小为512时,效果最好。 在本研究中,我们将嵌入大小f0设置为512。  

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第24张图片


Embedding size

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第25张图片

        在我们的模型MAGCN中,我们使用多层GCN来获得lncRNAs、MiRNAs和疾病的潜在嵌入,最后使用通道注意力和CNN模块来计算最终嵌入,并分析了潜在嵌入的大小对模型的影响。 具体来说,我们将潜在嵌入的大小设置为64、128、256、512和1024进行实验比较。 从图4中我们可以看到,当潜在嵌入尺寸为128时,模型达到了最优的AUC值。 因此,我们在本研究中将潜在的嵌入大小P设置为128。 

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第26张图片


Learning rate

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第27张图片

        学习速率是一个超参数,用于损失函数中更新网络权值。 实验中,我们在{0.1,0.01,0.001,0.0001}中改变学习速率,从图5中我们可以看到,当学习速率为0.001时,AUC值是最优的。 因此,我们将学习速率 lr 设置为0.001。 

         最后,我们的模型MAGCN中的超参数设置为:训练epoch为200,学习速率为0.001,损失函数尺度α为0.0001,L2正则化权重损失λ为0.00005,GCN层数为2,节点特征初始嵌入大小为512 ,lncRNAs,miRNAs和疾病的潜在嵌入大小为128。

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第28张图片


Effects of different model components on prediction performance

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第29张图片

        在MAGCN中,我们使用多通道注意力机制和CNN组合器进行特征提取。 我们对通道注意机制和CNN组合器进行了消融实验。 我们使用MAGCN_noatte来表示,只使用CNN组合器来组合不同的通道信息,得到最终的特征信息。 MAGCN_nocnn简单地将通过通道注意机制获得的不同特征信息相加以获得最终结果,而不使用CNN组合器来学习复杂的非线性关系。 MAGCN_noatten_nocnn指出,在不使用通道注意力机制和CNN合并器的情况下,通过将不同层的嵌入相加得到最终特征。 表1显示了在5折交叉验证实验下使用MAGCN及其变体模型对数据集的评价指标。 我们还在图6和图7中绘制了相应的AUC曲线和PR曲线,从中我们可以发现,利用多通道注意力机制和CNN组合器可以在特征空间中提取更重要的特征,学习复杂的非线性关系,从而提高了模型的预测性能。  

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第30张图片

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第31张图片

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第32张图片


Performance evaluation

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第33张图片

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第34张图片

        在这一节中,我们进一步评估了基于交叉验证的模型MAGCN的预测性能。 由于我们的模型可以预测 LMIs 和 MDAs。我们首先使用 LMIs 作为辅助信息来预测 miRNA 与疾病之间的潜在关联,在2折,5折和10折交叉验证下,平均 AUROC 值分别为0.8984,0.9032和0.9044。我们还利用MAGCN预测了基于已知 MDAs 的潜在 LMIs,在2折、5折和10折交叉验证下的平均AUROC值分别为0.8973、0.9605和0.9699。 实验结果证明了该方法在 MDAs 和 LMIs 预测中的可靠性。


Comparison with other methods

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第35张图片

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第36张图片

        在本节中,我们将MAGCN与最近提出的MDA预测方法进行比较。 本文选取了MVMTMDA[34]、MDA-SKF[17]、Zeng等人的工作[15]、MDHGI[16]和IMCMDA[14]5种方法进行性能比较。 基于5折交叉验证对这些方法进行了测试,比较结果如表2所示。MAGCN在5折交叉验证获得最高AUROC值为0.9032,其AUROC值分别比其他方法高5.20%(MVMTMDA)、8.4%(MDA-SKF)、11.49%(Zeng等人的工作)、21%(MDHGI)和27.99%(IMCMDA)。 实验结果表明,该方法具有良好的性能。

        同时,MAGCN和MVMTMDA均可用于LMI预测。 因此,我们使用这两种方法在2折、5折和10折交叉验证下测试它们在LMI预测中的性能。 收到的AUROC值可在表3中获得。 从表3可以看出,我们的方法MAGCN比MVMTMDA有更好的性能,这进一步证明了我们的方法MAGCN的优越性。

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第37张图片

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第38张图片


Case studies

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第39张图片

        在这一节中,我们进行了案例研究,以进一步验证模型 MAGCN 在实际情况下的预测性能。 由于肿瘤是每年导致许多人死亡的严重疾病,预测其相关的 miRNAs 非常重要。 因此,我们选择预测三种常见癌症(结肠癌、乳腺癌和肾癌)疾病相关的 miRNAs 。 具体来说,我们从已知的 MDA 数据集中去除与特定疾病的关联信息,并用其他信息训练 MAGCN 以获得预测结果。 由于生物学家对预测结果中排序靠前的 miRNA 更感兴趣,我们最终从预测结果中选择了前50个相关的 miRNAs ,并在最新的数据库上进行验证,如 HMDD V3.0 [36]和 dbDEMC [40]。 验证结果分别列于表4、5和6。 我们可以从三张表中发现,三种疾病中排名前50的预测都得到了现有数据库的支持。 三个案例的研究结果表明, MAGCN 是检测新 MDAs 的有效工具。

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第40张图片

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第41张图片

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第42张图片


Conclusion

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第43张图片

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第44张图片

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第45张图片

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第46张图片

        在这项研究中,我们开发了一种基于端到端GCN的计算方法MAGCN来预测新的MDAs。 与以往的研究不同,我们的方法MAGCN使用LMIs来推断miRNAs与疾病之间的联系,而不是相似性度量。 我们将具有多通道注意力机制的GCN和一个CNN组合器作为特征学习的编码器一个双线性译码器用于关联推断。 我们的方法不仅可以预测MDAs,而且可以预测LMIs。 大量的实验,包括交叉验证和案例研究,证明了该方法的有效性和优越性。

        需要注意的是,我们研究中使用的LMIs是有限和不完整的。我们方法收到的预测结果可能因此存在偏差。整合更多实验验证的 LMIs 将提供更可靠的预测。同时,lncRNAs 和 miRNAs 的表达通常是组织或疾病特异性的。在某些条件下,lncRNA与miRNA的关联可能不被功能性激活。此外,在我们的方法中,给超参数设置适当的值以获得最优的预测结果是一项具有挑战性的任务。除了致病性的 lncRNA-miRNA 共同调控疾病发展外,miRNAs也被发现会导致其靶 mRNAs 的翻译抑制或降解。结合更多的相关生物学信息将进一步提高我们对 miRNAs 在人类疾病发病机制中作用的认识,从而提高MDA预测的准确性

MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)_第47张图片


Data availability

数据集和源码

你可能感兴趣的:(MDA预测文献笔记,深度学习)