Development of a miRNA-based classifier for detection of colorectal cancer molecular subtypes
开发基于miRNA的分类器用于检测结直肠癌分子亚型
发表期刊:Mol Oncol
发表日期:2022 Mar 17
DOI: 10.1002/1878-0261.13210
一、背景
为了了解结直肠癌(CRC)的肿瘤间异质性,肿瘤被分为共识分子亚型(CMSs),这反映了其分子特征。通过研究转录组特征,能够确定这四个主要疾病亚型的特征,并对临床结果、治疗反应和基本疾病机制产生影响。其他基因组数据类型的分析表明 CMS 与突变、甲基化和 miRNA 的关联并不完全。
miRNAs是18-25个核苷酸的小型非编码RNA,具有广泛的调控功能,包括启动细胞质中特定靶mRNA的衰变或阻断翻译。此外,作为一种不良功能,已经描述了从细胞质转入细胞核的miRNA与启动子区域的转录激活相互作用。miRNAs即使在质量受损的组织中也相对稳定,因此它们经常被作为生物标志物进行研究。此外,miRNA的表达谱似乎比mRNA的表达谱更具组织特异性。有迹象表明 miRNA-mRNA 相互作用可能与背景相关,甚至可能在分子癌症亚型之间存在差异。
二、材料与方法
1、数据来源
1)癌症基因组图谱(TCGA)结肠腺癌(COAD)数据集(271个样本)的miRNA、mRNA表达数据
2)来自TCGA直肠腺癌(READ)的miRNA表达数据与来自配对mRNA数据(158个样本)
3)来自126个有转移的CRC原发样本队列的miRNA表达数据与临床数据,EGAS00001001127(缩写为EGAS1127)
4)在原发性COAD样本上测试了分类器,这些样本很难根据mRNA进行分类(n = 169)
5)来自新鲜冷冻和福尔马林固定、石蜡包埋(FFPE)组织的COAD样本对被用来测试对FFPE样本的适用性(n = 7)
6)数据集GSE29623(n = 65)和GSE35834(n = 31)
2、分析流程
1)数据检索和预处理
2)差异表达分析:应用deseq2对COAD的miRNA和mRNA数据的原始读数进行方差稳定化转换和差异表达分析
3)分类器训练:使用caret软件包进行分类器开发,目的是根据miRNA数据预测CMS标签,将COAD的miRNA数据与基于mRNA的CMS标签相结合;在整个COAD训练数据集(n=271)上训练了一个分类器(最大化Kappa),有381个miRNAs(miRaCl)或20个最重要的miRNAs(miRaCl-20)
4)分类器评估:该分类器被应用于READ和EGAS1127数据集,以评估两个完全不相关的数据集的性能;此外将分类器应用于COAD的样本;基于20个miRNAs预测CMS的能力用两个独立的基于微阵列的数据集进行了验证,其中较大的GSE29623用于重新训练分类器以允许输入缩放的微阵列数据,较小的数据集GSE35834用于测试报告的准确性;在EGAS1127数据集中,使用Cox比例危害回归模型测试了基于miRNA的CMS分类对总生存期(OS)的临床相关性,并在R软件包survival中进行了K-M分析与对数rank检验
5)网络分析:使用rtn软件包构建调控转录网络(RTN),并使用reder进行可视化
6)路径分析:从数据库miRDB、miRTargetScan和miRbase中确定了20个最重要的miRNAs的潜在靶点;用limma进行了相当于Fisher's exact检验的单边超几何检验,测试了与Hallmark基因组的重叠情况
三、实验结果
01 - 实验设置和数据集描述
作者使用COAD miRNA数据集与基于mRNA配对的CMS标签来训练一个miRNA分配的CMS分类器,CMS-miRaCl,以及一个只有20个特征的精简版本,miRaCl-20。它的性能主要在两个独立的数据集READ和EGAS1127上测试(图1A)。在训练数据集中,首先测试了CMS之间是否有明显差异表达的miRNAs(图1B)。值得注意的是,miR-625 在 CMS1 与其他 CMS 以及 CMS3 与其他 CMS 中显着上调,并且分别在 CMS2 和 CMS4 中显着下调。
具有先前确定的CMS标签的两个数据集COAD和READ,都是由所有四个CMS组成,其中CMS2代表最大的类别(图1C)。tSNE分析的结果是COAD miRNA数据集中基于mRNA的CMS亚型的聚类,而在READ数据集中,这些类别的分离不太明显。所研究的数据集的临床特征在阶段组成方面表现出差异(图1D)。在EGAS1127数据集中,52%的样本为晚期肿瘤IV期。此外,EGAS1127数据集中的其他原发肿瘤出现了转移。
02 - 分类器训练和性能评估
分类器训练中最优结果是通过训练随机森林优化Kappa而不是支持向量机获得的(图2A)。当在所有合适的381个miRNA上重复训练一个基于随机森林的miRNA分类器(miRaCl)时,在80%(n = 217)的COAD样本上,以稳健的基于mRNA的CMS标签,作者在未见过的样本(n = 54)上获得平均76.7%的准确率。当减少特征的数量,只保留具有最高gini importance的特征时,观察到在保留20个miRNA(miRaCl-20)的情况下,准确率略高,达到77.9%。
在READ数据集中测试了最终模型的性能,观察到CMS预测的准确性对于miRaCl-20(72%)比对于miRaCl(70%)略高。miRaCl-20的95%置信区间(CI)为0.6329-0.7987,miRaCl为0.607-0.7767,CMS1、CMS2和CMS4对miRaCl-20的平衡准确性至少为75%(图S2C)。绘制成混淆矩阵的单个预测显示,大多数miRaCl(图2B)和miRaCl-20(图2C)的预测与基于mRNA的CMS类别相匹配。具体来说,CMS3经常被误标为CMS2,而CMS2和CMS4的标签在一小部分样品中互换。很少观察到miRaCl和miRaCl-20之间的不一致,仅在122个样本中的 19个(15.6%)样本中(图 2D)和检查数据集EGAS1127时126个样本中的17个(13.5%)样本中。此外,在一个基于微阵列的数据集中证明了20个miRNAs足以预测CMS的等级,在另外一个测试集中的准确率为65.2%(图2E)。
作为衡量预测置信度的参数,作者比较(减去)了第一个和第二个最可能的类别预测的概率,较低的值反映了较低的置信度。从这个分析中可以看出,两个数据集中CMS3和CMS1的预测置信度都比较低(图2F)。在READ数据集中,CMS1的患病率较低,CMS1和CMS3肿瘤在转移性数据集EGAS1127中的患病率较低。当排除置信度较低(<25百分位数)的预测时,READ数据集的准确率有所提高(miRaCl为76%,miRaCl-20为79%),临床参数没有明确区分为阶段或组织学(图S2D)。当肿瘤纯度高时,预测CMS4的置信度降低(图2G);然而,CMS1和CMS2的置信度不受肿瘤纯度的影响。CMS3的置信度往往与肿瘤纯度呈正相关,这些观察结果在miRaCl和miRaCl-20中类似(图S2E,F)。基于miRaCl-20的CMS类预测的分布显示了数据集之间的差异(图2H)。这是由于数据集的临床组成不同,即READ中的直肠位置或EGAS1127中的转移性疾病(图S1E)。
当对不能基于mRNA分类的COAD或READ样本检查miRaCl的性能时,观察到CMS分类器的miRaCl-和基于mRNA的预测之间的后验概率有良好的相关性(图S3A,B)。对得出的置信度的比较显示出低的相关性(图S3C,D)。这表明更难分类的样本在基于mRNA和miRNA的分类中是不同的。冲积图表明,多个样本在基于mRNA和miRNA的预测之间分类不同(图S3E,F)。这个结果应谨慎解释,因为这些样本没有被基于mRNA的标准方法(CMS分类器)稳健地分类。通过对具有最低miRaCl置信度的25%的样本进行删减标签,在这一比较中,COAD测试集样本(n = 169)的总体准确率从56.2%增加到61.6%,对不可能或不一致的基于mRNA分类的READ样本(n = 35)的准确率从45.7%提高到52%。总的来说,这些数据表明,许多被排除的样本仍然难以用miRaCl进行分类。
为了研究miRaCl对FFPE组织的适用性,作者使用了来自新鲜冷冻和FFPE组织的COAD样本对(n = 7),并观察到这些复制之间的后验概率有非常好的相关性(图S3G)。然而,由于七个样本中有四个被归类为CMS1,在这个患者群中得到的结果可能不适合推广。此外,发现与新鲜冷冻样本相比,在FFPE中有一个样本从CMS2转变为CMS4。
03 - miRaCl特征的重要性
为了了解该分类器是基于哪些miRNA,作者更详细地研究了其由杂质平均下降(Gini重要性)得到的最重要的特征(图3A)。据报道,与周围正常组织相比,20种最重要的miRNA中有5种在CRC肿瘤组织中显着上调:miR-592,miR-552,miR-335,miR-92b和miR-92a。
在具有最高重要性的特征的密度图中,这与miRaCl和miRaCl-20都有关,作者研究了每一类miRNA表达的分离情况(图3B)。对于分类来说,了解一个特征在一个或多个类别中是枯竭还是富集同样有用,因此大多数特征都携带多种信息。例如,miR-625的低表达使得它可能是CMS2或CMS4肿瘤,高表达使得它可能是CMS1或CMS3肿瘤。miR-592的低表达使得肿瘤更可能是CMS1类而不是CMS2类,反之亦然。
对miRaCl(-20)和基于芯片的适应性miRaCl-20A之间最重要的特征进行比较,发现miR-552、miR-592、miR-31、miR-155和miR-625对CMS的区分具有可重复的重要性。
04 - miRaCl特征的调节作用
作者探索miRaCl和miRaCl-20特征对CMSs之间差异的调节作用。因此,从每个CMS中差异表达的基因中构建调控网络,并在此背景下可视化miRaCl特征的重要性。为了在每个CMS中最明显上调(图4)或下调的miRNA中找到调控作用,作者在网络分析中把在同一CMS中具有差异表达的mRNA和miRNA都视为潜在目标。有趣的是,在所有具有调节作用的明显上调的miRNA中,超过三分之一(14/38)也在miRaCl-20中得到体现,这组miRNA的名称被突出显示出来。关于具有调节作用的下调miRNAs(miRaCl-20中的15/44),证实了miR-200家族(miR-141和miR-200c)在CMS4中的重要性。
通过比较两个方向的网络,发现了一些有可能解释CMS之间差异的重叠:miR-92a、miR-362、miR-335、miR-552和miR-592是CMS1中下调的调节因子,而CMS2中上调的调节因子。还发现miR-615在CMS1和CMS2中具有不同的表达和调节作用。进一步的例子是miR-625和miR-99a在CMS1和CMS4中表达相反,miR-143在CMS2中下调,在CMS4中上调。
为了研究miRaCl-20特征的相关生物学过程,作者对其预测的靶点和Hallmark基因集进行了重叠分析。为了细化分析并提高与CMS的相关性,缩小了预测靶点mRNAs的范围。至少有两个数据库预测的目标与每个CMS中下调的mRNAs相交,以确定对每个CMS重要的生物过程(图3C)。事实上,确定的途径与CMS的已知生物学特性相一致,如上皮-间质转化(EMT)在高度分化的CMS3中下调,以及MYC靶点在CMS4中下调。此外,当一个miRNA被认为在CMS中靶向某个途径时,这个miRNA一般也在相应的CMS中高表达(图3B)。
05 - 临床意义
为了测试在EGAS1127数据集中,已确定的分离CMS等级的miRNA是否也与OS有关,作者计算了miRaCl/miRaCl-20中前10个特征的多变量模型中的风险比(图5A)。在miR-552中观察到危险性略有下降,这是CMS2中表达量最高的miRNA。使用TCGA数据集作为附加的数据集来研究生存情况,miR-552被证实是所有阶段的CRC患者良好生存的积极预后标志,在第四阶段CRC内甚至更加明显。对于在CMS4中表达量最高的两个miRNA:miR-218和miR-143,在EGAS1127数据集(第四阶段)中观察到了相反的OS风险比:miR-218的危险降低,miR-143的危险增加。这一结果在TCGA COAD/READ数据集的所有阶段都没有得到证实。
值得注意的是,根据miRaCl(-20)-CMS的预测,CMS1的OS是最差的(图5B,C),尽管预测为CMS1的病例数很低。正如原始出版物中所述,CMS4的预后比CMS2更差。在这个转移性癌症队列中,CMS2和CMS4之间的差异没有原始研究中那么明显,因为原始研究集中在早期阶段,这与以前的研究结果一致。作者证实在这个主要由晚期疾病组成的队列中,CMS4的富集和CMS1的耗竭(图2H)。
在EGAS1127数据集中,检索了38名患者的现有转移性样本的CMS标签,并将其与相应的原发样本进行比较。尽管CMS分类并不是为用于转移瘤而开发的,但作者想探索原发和转移瘤对之间CMS等级预测的一致性(图5D)。可以观察到,腹膜转移瘤大多被归类为CMS4,而肝脏转移瘤则富含CMS2。
四、结论
作者开发了一个随机森林分类器,根据miRNA的表达来分离CMS。简化版miRaCl-20能够在不相关的数据集中确定CMS,基于最大的数据集中仅有的20个miRNA,所有类别的平均准确率>70%。此外,CMS4的预测似乎受到了肿瘤纯度的影响。在分类器训练期间,对miRNA的重要性进行了排名。突出的是,miR-552是一个有趣的候选者,可作为预后生物标志物进一步评估。miRaCl在转移CRC的独立数据集中的应用能够概括CMS分类的预后价值。