支持向量机发掘miRNA-靶基因互作中癌症相关的miRNAs
【导读】
解读生物遗传密码的工作逐渐精细化,当下MicroRNAs (miRNAs)研究异常火爆。miRNA作为转录后基因调控的关键步骤,影响着RNA的表达。哺乳动物中,约60%的基因可作为miRNA结合靶点。大量研究显示,miRNAs参与多种细胞生物学过程,如细胞分化、凋亡、病毒防御、胚胎发育和增殖,还有各种疾病研究,如各种癌症、心脏病和神经系统疾病。
传统研究大多需要利用显著边缘差异(marginal differential)表达发现癌症相关的miRNA,但有些癌症可能是无差异或仅仅是很弱的差异表达,就造成了一定分析困难。皮尔逊相关系数的强弱用于暗物质miRNA-target interaction(DM-MTIs)研究有一定帮助,但是其有效性还是受到一定的限制。
为解决这一问题,本文利用当下热门的机器学习 – 支持向量机(SVM)挖掘掩藏深处的DM-miRNA。并且已经用于乳腺癌,肾癌数据的验证,均有突出效果。
【整体框架】
发现目前miRNA挖掘软件的不足
图一:Two situations that PCC has difficulty handling. A. Consistent correction through embedding. B.Nonlinear association
图一中,作者列举了基于Pearson相关系数变化的DM-miRNA(PCC)的不足,一是由于癌症和正常样本中miRNA与其靶标之间的相关性, 导致PCC过小,从而无法发现MTI。二是,利用皮尔森相关系数,基于线性关联并不能检测到非线性关联的情况。
提出新的分析理念
利用机器学习发现与癌症相关的miRNA。这里选择SVM很好的构造了非线性二维空间边界的miRNA分类,如下图:
图二:The flow chart of our method
首先作者在TCGA下载了BRCA,KIRC, LUAD, LUSC, THCA和前列腺腺癌(PRAD)六种数据,其中包括1071个miRNAs和20530 个mRNA。同时从miRTarBase和HMDD v.2.0数据库中获取实验验证过的与疾病相关的155,044 MTIs。
如图二显示,工作流程分为4步。大体框架如下,根据1071个miRNAs在癌症和正常组织中的表达数据,分别构建支持向量机分类器。然后选取基于各miRNA表达特征的分类准确(ACC)。绿色为SVM对于miRNA表达特征的分类模型,具有高ACC值的miRNA分类进入S1数据集。橘黄色为SVM对于mRNA表达特征的分类模型,具有高ACC值的mRNA分类进入S2数据集。蓝色为SVM对于配对的MTIs表达特征的分类模型,具有高ACC值的mRNA分类进入S3数据集。DM-miRNA将移除S1中的miRNA和S2中mRNAs后根据S3中的配对的MTIs推断。
SVM参数设置
SVM的kernel, cost,和gamma分别设为radial, 1,和1。采用随机抽样,避免阳性样本和阴性样本的不平衡。对训练集和测试集都进行20次采样,每一次随机选取40个阳性样本和40个阴性样本组成训练集,同时随机从剩余的阳性样本和阴性样本中选取相应的测试集,保证了训练集和测试集之间没有重叠。然后利用以下公式,得到20组无偏倚数据的SVM分类精度 (classification accuracy ,ACC)的平均值作为最终精度:
其中TP (true positive)为正确识别的阳性样本数,FN (false negative)为错误识别的阳性样本数,TN (true negative)为正确识别的阴性样本数,和FP(false positive)是识别错误的阴性样本的数量。
【结果】
这里,作者选取乳腺癌和肾癌作为效果评估的测试样本。
乳腺癌结果部分
miRNAs with High Classification Accuracy (S1)
这一部分,即按流程图为绿色分类器,得到ACC>0.8的miRNA,与下载到的实验验证过的miRNA比较,红色框为未证实与乳腺癌相关的miRNA。但是经过SVM分类器,仍发现依然显著表达并与乳腺癌相关,如下图:
图三:The 32 miRNA with ACC>0.8 in Breast Cancer
miRNAs with High Classification Accuracy (S2)
这一部分为流程图中橙黄色分类器,得到ACC>0.8 的mRNA。使用David进行KEGG通路富集,发现与癌症相关的通路(如肿瘤和p53信号通路通路、前列腺癌、肿瘤中miRNAs、胰腺癌、慢性髓系白血病、黑色素瘤、p53信号通路、小细胞肺癌、结直肠癌等)较为显著。
图四:The 2028 mRNAs Whose ACCs Are Greater Than 0.8 for Breast Cancer
MTIs with High Classification Accuracy (S3)
这一部分为流程图中蓝色分类器,从miRTarBase数据库中经实验验证的155,044人MTIs,根据miRNA-mRNA相互作用的mRNA和miRNA乳腺癌表达数据作为支持向量机的两个特征。选择高ACC >0.8的MTIs作为发现癌相关miRNA的候选MTIs。
Discovery of DM-miRNAs in Breast Cancer
通过筛选ACC>0.9的MTIs的miRNA和mRNA,尽管基于边际miRNA特征和边际mRNA特征的ACCs都是不理想的,但是对应的MTI的分类表现为的联合特征是显著的。如下图,显示了136个MTIs中的31个miRNA。这31个miRNA中的大部分与BRCA相关,但是无差异表达。但是,这些红色矩形框中的miRNA还没有被实验证实与BRCA有关。接着发现仅根据单个miRNA的特征或仅根据mRNA表达谱数据很难区分正常和癌症样本。更具体地说,单独使用miR-452和IRS1的分类准确率分别为69.61%和62.55%。但是经过SVM分类,发现利用miR-452和IRS1的二维特征进行检测更为有效。
图五:The 31 miRNAs in 136 MTIs with [ACC(miRNA-mRNA) > 0.9, ACC(miRNA) < 0.8, ACC(mRNA) < 0.8] for Breast Cancer
放宽阈值后,联合特征中ACC >0.8和边缘特征中ACC<0.7的mtis进行分析,< span="">找到与乳腺癌相关的miRNA,而这些miRNA大都没有显示出表达差异。因此与单miRNA或mRNA配对比较,配对MTIs包含更多的生物信息。
随机选择6个具有ACC >0.9 [ACC(miRNA) < 0.8, ACC(mRNA) < 0.8]的MTIs绘制受试者工作特性(ROC)曲线如图六,计算结果表明,MTIs的分类能力明显优于mrna和miRNAs。该方法具有较好的应用价值。
图六:The ROC Curves of Six MTIs with ACC >0.9 for Breast Cancer
模型对比
为了证明SVM能够有效筛选潜在的癌症相关miRNA,作者还对比了SVM和DE的结果。发现在DE验证的前20个miRNA中,只有4个被证实与乳腺癌相关。而SVM验证的前20个miRNA中,前20个与乳腺癌相关。这更进一步说明SVM对于癌症miRNA验证,更为有效。
肾癌结果部分
同样,作者还选取肾癌作为验证数据,在ACC >0.9的MTIs,以及其单miRNA和mRNA ACC<0.8的mtis< span="">下,选取了76个MTIs。发现在DE验证的前20个miRNA中,只有3个被证实与乳腺癌相关。而SVM验证的前20个miRNA中,前16个与乳腺癌相关。
癌症类型区分
Identification of Cancer Types via miRNA-mRNA Association
为了验证miRNA-mRNA关联是否能够有效的区分癌症类型,作者设计了一个带有多个SVM子分类器的多类分类器来识别6种癌症和正常组织。标准是MTIs ACC>0.8,边际ACC<0.7< span="">。具体流程图如图7所示。数字 “1-6” 代表肺鳞状细胞癌[LUSC]、肺腺癌[LUAD]、BRCA、甲状腺癌[THCA]、前列腺腺癌[PRAD] 、KIRC六种癌症。数字“7”表示成对的正常组织标本的整合。我们将这七个类分为两个子类。接着子类被进一步划分为两个子类,这样循环,直到得到一个类。使用10倍交叉验证来评估分类器的性能。最终发现miRNA-mRNA关联可用于准确识别肿瘤类型。
图七:The Flow Chart for Constructing the Multiclass Classifier
与其他算法比对有分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)生信人WX公众号
正如前文提到的PCC方法,通过构建基本miRNA-mRNA网络(BMMN)和miRNA长非编码RNA (lncRNA)来发现潜在的DM-miRNAs网络(BMLN)。对于乳腺癌数据,通过BMMN获得了124个高活性评分的miRNA。结合前面筛选条件,最终得到49个miRNA,但其中9个(hsa-miR-331, hsa-miR-142, hsa-miR-3127, hsa-miR-222, hsa-miR-378c, hsa-miR-92a-2, hsa-miR-421, hsa-miR-125a和hsa-miR-590)与乳腺癌相关的miRNA均未出现在124个中。在另外的肾癌数据中,通过BMMN获得70个活性评分较高的miRNA。相同的筛选条件后有24个miRNA在考虑范围内,却只有1个在这个70个miRNA中,另外23个中的15个也已经被证实与肾癌相关。
【讨论】
癌症全球高发,所以癌症研究刻不容缓!!!
文章结合热门机器学习和癌症数据这两大热点,通过模型间比较,很有说服力的证实了SVM对于隐藏的癌症相关的DM-MTIs和基于多个随机森林子分类器构建的癌症分型均有很好的效果。