英文标题:HGIMDA: Heterogeneous graph inference for miRNA-disease association prediction
论文链接: https://www.researchgate.net/publication/305719244_HGIMDA_Heterogeneous_graph_inference_for_miRNA-disease_association_prediction
摘要
最近,microRNA(miRNA)受到越来越多的关注,因为不断的实验研究表明miRNA可能在多种生物学过程以及人类复杂疾病的发展和进程中发挥关键作用。使用大量已知的异构生物数据集来预测miRNA与疾病之间的潜在关联是生物学、医学和生物信息学领域的重要课题。在这项研究中,考虑到以前的计算方法的局限性,我们开发了用于miRNA疾病关联预测(HGIMDA)的异构图推理计算模型,以通过整合 miRNA功能相似性、疾病语义相似性、高斯相互作用轮廓核相似性 来发现潜在的miRNA-疾病关联,并将经过实验验证的miRNA-疾病关联关联到一个异构图中。 HGIMDA根据全局和局部留一法交叉验证分别获得了0.8781和0.8077的AUC。此外,HGIMDA已应用于三种重要的人类癌症以进行性能评估。结果,最近的实验报告证实了前50种预测的miRNA中有90%(结肠肿瘤),88%(食管肿瘤)和88%(肾脏肿瘤)正确。此外,HGIMDA可以有效地应用于新疾病和新miRNA,而无需任何已知的关联,从而克服了许多以前的计算模型的重要局限性。
方法详情
方法整体架构图如下图1所示:
1. Human miRNA-disease associations
不断积累的生物学实验已经产生了大量的miRNA-疾病关联。 从HMDD数据库(2013年6月)中下载了本研究中使用的人类miRNA-疾病关联数据集,其中包括5430个经实验证实的人类miRNA-疾病关联,涉及383种疾病和495个miRNA。 邻接矩阵A被定义去表示已知的miRNA-疾病关联。 如果miRNA m(i)与疾病d(j)有关,则实体A(m(i), d(j))为1,否则为0。此外,变量nm和nd分别表示在已知的关联数据集中miRNA和疾病的数量。
2. miRNA功能相似性
我们从 http://www.cuilab.cn/files/images/cuilab/misim.zip获得了miRNA功能相似性,并建立了miRNA功能相似性矩阵FS来表示miRNA功能相似性网络,其中FS(i, j) 是 miRNA m(i)和m(j)之间的功能相似性评分。
3. 疾病语义相似性
不同疾病之间的关系可以描述为有向无环图(DAG)。疾病D可以表示为DAG(D)=(D,T(D),E(D)),其中T(D)代表D本身和D的所有祖先节点,E(D)所有父结点到子节点的代表直接边。 疾病MeSH描述符可从国家医学图书馆( http://www.nlm.nih.gov)下载,其中包括:A类代表解剖学术语,B类代表生物体,C类代表疾病,D类代表药物和化学药品等。 在这里,我们选择了C类的MeSH描述符来构建疾病DAG。 每个疾病术语在DAG中的位置可以由每个MeSH描述符的树号决定。
DAG(D)中疾病d对疾病D语义价值的贡献定义如下:
在此,D是语义贡献因子。 疾病d的贡献分数与疾病d和D之间的距离成反比。疾病D的语义值可以定义如下:
显然,两种具有较大DAG共享部分的疾病可能具有更高的相似性评分。 因此,疾病d(i)和d(j)之间的语义相似性评分定义如下:
4. 高斯相互作用轮廓核相似性( Gaussian interaction profile kernel similarity )
基于假设“相似疾病倾向于与具有相似功能的miRNA相关,反之亦然”,建立了针对疾病的高斯相互作用轮廓核(profile kernel)相似性。 通过观察疾病d(u)与每个miRNA之间是否存在已知的关联关系,将二进制向量IP(d(u))被定义来表示疾病d(u)的相互作用轮廓。 因此,疾病d(u)和d(v)的高斯相互作用轮廓核相似度定义如下。
在此,rd用于内核带宽控制,这是通过将每种疾病相关的miRNA的平均数对新的带宽参数r'd 进行归一化而获得的。
相似的,miRNA m(i)和m(j) 之间的高斯相互作用轮廓核相似度被构建为:
5. 用于miRNAs和疾病的综合相似性
考虑到miRNA功能相似性得分不能涵盖所有miRNA,我们将miRNA功能相似性得分和高斯相互作用轮廓核相似性得分整合到miRNA中,以计算出新的综合相似性得分。 也就是说,对于没有已知功能相似性评分的miRNA对,我们使用高斯相互作用轮廓核相似性评分作为综合相似性; 对于具有已知功能相似性评分的miRNA对,我们使用高斯相互作用轮廓核相似性评分和功能相似性评分的平均值作为综合相似性。 因此,miRNA m(i)和m(j)之间的整合相似性定义如下:
同样,疾病d(u)和d(v)之间的综合相似度定义如下:
6. HGIMDA
我们通过整合miRNA功能相似性\疾病语义相似性\高斯相互作用轮廓核相似性以及实验验证的miRNA-疾病关联来预测潜在的miRNA-疾病关联,从而开发了HGIMDA的计算模型。基于miRNA-疾病关联的相似性质,可以将miRNA相似性,疾病相似性和已知的miRNA疾病关联结合在一起以预测潜在的关联。例如,对于疾病d和miRNA m,如果它们没有已知的关联,我们可以如下定义它们的潜在关联概率:
这个方程式意味着我们可以通过总结所有长度等于3的路径来推断疾病d和miRNA m之间的潜在关联。我们考虑上述过程的迭代,并将方程表示为矩阵乘法。因此,迭代方程可以按如下方式获得:
在此,α是类似于在具有重启的随机游走中的重启概率的衰减因子。根据以前的文献,当分别使用等式(12)和(13)对SM和SD进行适当归一化时,关联概率矩阵P将收敛。
经过一些步骤,迭代是稳定的(通过L1范数测得的P(i)和P(i+1)之间的变化小于给定的截止值,此处我们采用的截止值为10^-6)。
实验结果
性能评估
我们基于HMDD数据库中记录的miRNA-疾病关联实现局部和全局的LOOCV来评估HGIMDA的预测准确性和四个最新的miRNA-疾病关联预测计算模型(WBSMDA、RLSMDA、RWRMDA和HDMP)的 预测准确性。在LOOCV的验证框架中,每个已知的关联依次被当作测试样本,而其他已知的关联则用于模型训练。局部和全局LOOCV的区别在于我们是否同时调查所有疾病。在局部LOOCV中,将测试样品与使用所有与所研究疾病没有任何已知关联的miRNA来组成候选样品进行排序。但是,在全局LOOCV中,测试样品与所有没有任何已知确认关联的miRNA-疾病对排名。获得排名高于给定阈值的测试样品被认为是成功的预测。此外,我们通过绘制在不同阈值下的真阳性率(TPR,灵敏度)和假阳性率(FPR,1-特异性)来绘制接ROC曲线。灵敏度表示获得的排名高于给定阈值的测试样品的百分比。同时,特异性表示等级低于阈值的阴性miRNA-疾病对的百分比。计算ROC曲线下的面积(AUC)以证明HGIMDA的预测能力。 AUC = 1表示模型具有理想的预测性能; AUC = 0.5表示该模型仅具有随机预测性能。
下图2中显示了局部和全局LOOCV框架中的性能比较。 在全局LOOCV中, HGIMDA、WBSMDA、RLSMDA和HDMP分别获得了0.8781、0.8030、0.8426和0.8366的AUC。对于局部LOOCV,HGIMDA、WBSMDA、RLSMDA、HDMP、RWRMDA获得的AUC分别为0.8077、0.8031、0.6953、0.7702和0.7891。由于RWRMDA模型无法同时发现所有疾病缺失的关联,因此无法针对RWRMDA模型采用全局LOOCV。总之,HGIMDA已显示出可靠而有效的预测性能,并且对潜在的miRNA-疾病关联预测具有潜在的应用价值。
案例研究
在这里,我们进一步对几种重要的人类复杂疾病进行案例研究,以进一步验证HGIMDA的预测能力。 通过检查来自另外两个与miRNA-疾病关联的相关数据库(miR2Disease和dbDEMC)的最新实验报告,验证了预测结果。
结肠肿瘤是全球范围内对人类生命的最大威胁之一。研究表明,大约一半的结肠肿瘤患者在确诊后的5年内死于转移性肿瘤。随着高通量测序技术的飞速发展,研究人员已经鉴定出了几种与结肠肿瘤相关的miRNA。例如,通常在结肠肿瘤中丢失的miR-126以磷脂酰肌醇3激酶信号转导为靶标并抑制肿瘤细胞的生长。还发现miR-145可通过靶向胰岛素受体底物1(substrate-1)来抑制结肠肿瘤细胞的生长。通过实现HGIMDA来识别与结肠肿瘤相关的潜在miRNA,预测的与结肠肿瘤相关miRNA中的前10个中的10个和前50个中的45个根据miR2Disease和dbDEMC得到证实(见表1)。例如,证实了在结肠肿瘤中miR-20a和miR-155上调。 MiR-20a和miR-19b显示出肿瘤状态和非肿瘤结肠组织之间的差异表达。证实了miR-18a在结肠癌组织中上调,这表明miR-18a与结肠肿瘤相关。在10个结肠直肠细胞系中发现了miR-21的逆相关性,这表明它是结肠癌预后的有用诊断生物标志物。
食管肿瘤据报道是与癌症相关的第六大死亡原因,也是全球第八大最常见的基于病理特征的癌症。男性患者的数量是女性患者的数量的三到四倍。总体5年生存率从15%到25%。如果可以早期诊断出肿瘤,则存活率可以提高到90%。因此,早期发现食管肿瘤对癌症的治疗至关重要。已经证实有许多miRNA与食管肿瘤有关。例如,miR-98和miR-214可以通过转录后调控zeste homolog 2的增强子来抑制人食道鳞状细胞癌的迁移和侵袭[80]。HGIMDA的实现是基于HMDD数据库中的已知关联来识别食管肿瘤的潜在相关miRNA。结果,来自dbDEMC的报告证实了预测食管肿瘤相关的前10个中的9个和前50个中的44个(请参见表2)是正确的。
肾脏肿瘤是一种非均质癌症,占成人恶性肿瘤的3%。在过去的几年中,肾脏肿瘤的发病率和死亡率呈上升趋势。具体来说,每年诊断出超过25万例新的肾癌病例。作为成人肾脏肿瘤的最常见形式,肾细胞癌(RCC)由几种不同类型的癌症组成,包括生色团RCC(chRCC)、集合管癌(CDC)、透明细胞RCC (ccRCC)和乳头状RCC(PRCC)。实验表明,肾脏肿瘤的组织病理学与不同的遗传变化有关。最近,越来越多的研究表明,许多miRNA与肾脏肿瘤有关。例如,肾脏肿瘤中的miR-215,miR-200c,miR-192,miR-194和miR-141被下调。而且,他们共同的靶标ACVR2B被发现在儿童肾脏肿瘤中有很强的表达。此外,miR-21在肾脏肿瘤中被上调,这对应于较低的肾脏肿瘤生存率。最后,我们在肾脏肿瘤上实施了HGIMDA,以预测潜在的疾病相关miRNA。结果,通过dbDEMC验证了与肾脏肿瘤相关的miRNA的前10个候选者中的9个和前50个候选者中的44个(参见表3)。对于与肾脏肿瘤相关的前5个已确认的miRNA,与正常细胞组织相比,发现miR-17在肾脏肿瘤中的表达差异。在肾脏肿瘤中发现MiR-20a,miR-155和miR-18a上调,而发现miR-145被下调。
对三种重要的人类复杂疾病进行交叉验证和独立案例研究的结果充分表明,HGIMDA具有出色的预测能力。因此,我们进一步使用HGIMDA对HMDD中研究的所有疾病的候选miRNA进行了优先排序。我们预计这些预测结果将在未来的实验研究中得到证实。
讨论和结论
最近,越来越多的研究人员开始提出新的计算模型来搜索新型的miRNA-疾病关联。在本文中,考虑到 功能相似的miRNA可能参与相似疾病的假设,反之亦然,我们提出了HGIMDA的计算模型,该模型预测新的人类复杂疾病相关的miRNA通过整合高斯相互作用轮廓核相似性、疾病语义相似性、 miRNA的功能相似性,以及已知的miRNA-疾病关联成的一个异构图。来自于结肠肿瘤、食道肿瘤和肾脏肿瘤的案列研究和交叉验证的可靠结果证明了HGIMDA的卓越性能。可以预料到,HGIMDA可以作为预测潜在的miRNA-疾病关联的有效工具,并有助于人类疾病的预防、治疗、诊断和预后。HGIMDA可靠性能的原因可能来自以下几个因素。首先,HGIMDA的成功主要取决于将几个可靠的生物学数据集整合到一个异构图中。特别地,与用于先前方法的已知关联相比,在该方法中使用的已知miRNA-疾病关联的数量显着增加。其次,类似于随机工作(random work)的过程,HGIMDA是一个基于全局网络相似性信息寻找最佳解决方案的迭代过程,先前的研究已经充分表明了其对基于局部网络相似性模型的改进。但是,HGIMDA与传统的随机游走之间存在本质区别。传统的随机游走仅基于已知的与所研究疾病相关的miRNA来设置初始概率向量。因此,当这种疾病没有已知的相关miRNA时,随机行走将不起作用。在这里,将各种疾病相似性度量、各种miRNA相似性度量以及已知的miRNA-疾病关联性结合起来以进行预测,这确保了HGIMDA可以用于预测新疾病的相关miRNA,这些新疾病没有已知的相关miRNA和没有任何已知关联疾病的miRNA。因此,经典随机游动的应用范围已经大大拓宽了。这种独特的优势克服了许多以前的计算模型的重要局限性。此外,HGIMDA可以有效地发现所有疾病同时缺失的miRNA-疾病关联。提出的方法也存在一些局限性。首先,已知的有实验证据的miRNA-疾病关联仍然不足。通过将来整合更多可用的生物学信息,HGIMDA的预测性能可以进一步提高[95-97]。其次,HGIMDA可能导致对具有更多相关疾病记录的miRNA产生偏向。最后,公式(11)中参数值的选择仍然没有很好地解决。