基于miRNA分类器鉴定新的结直肠癌分子亚型进一步阐明肿瘤间的异质性(IF7+)

Development of a miRNA-based classifier for detection of colorectal cancer molecular subtypes

开发基于miRNA的分类器用于检测结直肠癌分子亚型

发表期刊：Mol Oncol

发表日期：2022 Mar 17

DOI: 10.1002/1878-0261.13210

期刊相关信息

一、背景

为了了解结直肠癌（CRC）的肿瘤间异质性，肿瘤被分为共识分子亚型（CMSs），这反映了其分子特征。通过研究转录组特征，能够确定这四个主要疾病亚型的特征，并对临床结果、治疗反应和基本疾病机制产生影响。其他基因组数据类型的分析表明 CMS 与突变、甲基化和 miRNA 的关联并不完全。

miRNAs是18-25个核苷酸的小型非编码RNA，具有广泛的调控功能，包括启动细胞质中特定靶mRNA的衰变或阻断翻译。此外，作为一种不良功能，已经描述了从细胞质转入细胞核的miRNA与启动子区域的转录激活相互作用。miRNAs即使在质量受损的组织中也相对稳定，因此它们经常被作为生物标志物进行研究。此外，miRNA的表达谱似乎比mRNA的表达谱更具组织特异性。有迹象表明 miRNA-mRNA 相互作用可能与背景相关，甚至可能在分子癌症亚型之间存在差异。

二、材料与方法

1、数据来源

1）癌症基因组图谱（TCGA）结肠腺癌（COAD）数据集（271个样本）的miRNA、mRNA表达数据

2）来自TCGA直肠腺癌（READ）的miRNA表达数据与来自配对mRNA数据（158个样本）

3）来自126个有转移的CRC原发样本队列的miRNA表达数据与临床数据，EGAS00001001127（缩写为EGAS1127）

4）在原发性COAD样本上测试了分类器，这些样本很难根据mRNA进行分类（n = 169）

5）来自新鲜冷冻和福尔马林固定、石蜡包埋（FFPE）组织的COAD样本对被用来测试对FFPE样本的适用性（n = 7）

6）数据集GSE29623（n = 65）和GSE35834（n = 31）

2、分析流程

1）数据检索和预处理

2）差异表达分析：应用deseq2对COAD的miRNA和mRNA数据的原始读数进行方差稳定化转换和差异表达分析

3）分类器训练：使用caret软件包进行分类器开发，目的是根据miRNA数据预测CMS标签，将COAD的miRNA数据与基于mRNA的CMS标签相结合；在整个COAD训练数据集（n=271）上训练了一个分类器（最大化Kappa），有381个miRNAs（miRaCl）或20个最重要的miRNAs（miRaCl-20）

4）分类器评估：该分类器被应用于READ和EGAS1127数据集，以评估两个完全不相关的数据集的性能；此外将分类器应用于COAD的样本；基于20个miRNAs预测CMS的能力用两个独立的基于微阵列的数据集进行了验证，其中较大的GSE29623用于重新训练分类器以允许输入缩放的微阵列数据，较小的数据集GSE35834用于测试报告的准确性；在EGAS1127数据集中，使用Cox比例危害回归模型测试了基于miRNA的CMS分类对总生存期（OS）的临床相关性，并在R软件包survival中进行了K-M分析与对数rank检验

5）网络分析：使用rtn软件包构建调控转录网络（RTN），并使用reder进行可视化

6）路径分析：从数据库miRDB、miRTargetScan和miRbase中确定了20个最重要的miRNAs的潜在靶点；用limma进行了相当于Fisher's exact检验的单边超几何检验，测试了与Hallmark基因组的重叠情况

三、实验结果

01 - 实验设置和数据集描述

作者使用COAD miRNA数据集与基于mRNA配对的CMS标签来训练一个miRNA分配的CMS分类器，CMS-miRaCl，以及一个只有20个特征的精简版本，miRaCl-20。它的性能主要在两个独立的数据集READ和EGAS1127上测试（图1A）。在训练数据集中，首先测试了CMS之间是否有明显差异表达的miRNAs（图1B）。值得注意的是，miR-625 在 CMS1 与其他 CMS 以及 CMS3 与其他 CMS 中显着上调，并且分别在 CMS2 和 CMS4 中显着下调。

具有先前确定的CMS标签的两个数据集COAD和READ，都是由所有四个CMS组成，其中CMS2代表最大的类别（图1C）。tSNE分析的结果是COAD miRNA数据集中基于mRNA的CMS亚型的聚类，而在READ数据集中，这些类别的分离不太明显。所研究的数据集的临床特征在阶段组成方面表现出差异（图1D）。在EGAS1127数据集中，52%的样本为晚期肿瘤IV期。此外，EGAS1127数据集中的其他原发肿瘤出现了转移。

图1 实验设置和数据集描述

02 - 分类器训练和性能评估

分类器训练中最优结果是通过训练随机森林优化Kappa而不是支持向量机获得的（图2A）。当在所有合适的381个miRNA上重复训练一个基于随机森林的miRNA分类器（miRaCl）时，在80%（n = 217）的COAD样本上，以稳健的基于mRNA的CMS标签，作者在未见过的样本（n = 54）上获得平均76.7%的准确率。当减少特征的数量，只保留具有最高gini importance的特征时，观察到在保留20个miRNA（miRaCl-20）的情况下，准确率略高，达到77.9%。

图2 分类器的性能

在READ数据集中测试了最终模型的性能，观察到CMS预测的准确性对于miRaCl-20（72%）比对于miRaCl（70%）略高。miRaCl-20的95%置信区间（CI）为0.6329-0.7987，miRaCl为0.607-0.7767，CMS1、CMS2和CMS4对miRaCl-20的平衡准确性至少为75%（图S2C）。绘制成混淆矩阵的单个预测显示，大多数miRaCl（图2B）和miRaCl-20（图2C）的预测与基于mRNA的CMS类别相匹配。具体来说，CMS3经常被误标为CMS2，而CMS2和CMS4的标签在一小部分样品中互换。很少观察到miRaCl和miRaCl-20之间的不一致，仅在122个样本中的 19个（15.6%）样本中（图 2D）和检查数据集EGAS1127时126个样本中的17个（13.5%）样本中。此外，在一个基于微阵列的数据集中证明了20个miRNAs足以预测CMS的等级，在另外一个测试集中的准确率为65.2%（图2E）。

图S2

作为衡量预测置信度的参数，作者比较（减去）了第一个和第二个最可能的类别预测的概率，较低的值反映了较低的置信度。从这个分析中可以看出，两个数据集中CMS3和CMS1的预测置信度都比较低（图2F）。在READ数据集中，CMS1的患病率较低，CMS1和CMS3肿瘤在转移性数据集EGAS1127中的患病率较低。当排除置信度较低（<25百分位数）的预测时，READ数据集的准确率有所提高（miRaCl为76%，miRaCl-20为79%），临床参数没有明确区分为阶段或组织学（图S2D）。当肿瘤纯度高时，预测CMS4的置信度降低（图2G）；然而，CMS1和CMS2的置信度不受肿瘤纯度的影响。CMS3的置信度往往与肿瘤纯度呈正相关，这些观察结果在miRaCl和miRaCl-20中类似（图S2E，F）。基于miRaCl-20的CMS类预测的分布显示了数据集之间的差异（图2H）。这是由于数据集的临床组成不同，即READ中的直肠位置或EGAS1127中的转移性疾病（图S1E）。

图S1E

当对不能基于mRNA分类的COAD或READ样本检查miRaCl的性能时，观察到CMS分类器的miRaCl-和基于mRNA的预测之间的后验概率有良好的相关性（图S3A，B）。对得出的置信度的比较显示出低的相关性（图S3C,D）。这表明更难分类的样本在基于mRNA和miRNA的分类中是不同的。冲积图表明，多个样本在基于mRNA和miRNA的预测之间分类不同（图S3E，F）。这个结果应谨慎解释，因为这些样本没有被基于mRNA的标准方法（CMS分类器）稳健地分类。通过对具有最低miRaCl置信度的25%的样本进行删减标签，在这一比较中，COAD测试集样本（n = 169）的总体准确率从56.2%增加到61.6%，对不可能或不一致的基于mRNA分类的READ样本（n = 35）的准确率从45.7%提高到52%。总的来说，这些数据表明，许多被排除的样本仍然难以用miRaCl进行分类。

为了研究miRaCl对FFPE组织的适用性，作者使用了来自新鲜冷冻和FFPE组织的COAD样本对（n = 7），并观察到这些复制之间的后验概率有非常好的相关性（图S3G）。然而，由于七个样本中有四个被归类为CMS1，在这个患者群中得到的结果可能不适合推广。此外，发现与新鲜冷冻样本相比，在FFPE中有一个样本从CMS2转变为CMS4。

图S3 对miRaCl的补充测试集检查

03 - miRaCl特征的重要性

为了了解该分类器是基于哪些miRNA，作者更详细地研究了其由杂质平均下降（Gini重要性）得到的最重要的特征（图3A）。据报道，与周围正常组织相比，20种最重要的miRNA中有5种在CRC肿瘤组织中显着上调：miR-592，miR-552，miR-335，miR-92b和miR-92a。

在具有最高重要性的特征的密度图中，这与miRaCl和miRaCl-20都有关，作者研究了每一类miRNA表达的分离情况（图3B）。对于分类来说，了解一个特征在一个或多个类别中是枯竭还是富集同样有用，因此大多数特征都携带多种信息。例如，miR-625的低表达使得它可能是CMS2或CMS4肿瘤，高表达使得它可能是CMS1或CMS3肿瘤。miR-592的低表达使得肿瘤更可能是CMS1类而不是CMS2类，反之亦然。

图3 miRaCl的重要特征

对miRaCl(-20)和基于芯片的适应性miRaCl-20A之间最重要的特征进行比较，发现miR-552、miR-592、miR-31、miR-155和miR-625对CMS的区分具有可重复的重要性。

04 - miRaCl特征的调节作用

作者探索miRaCl和miRaCl-20特征对CMSs之间差异的调节作用。因此，从每个CMS中差异表达的基因中构建调控网络，并在此背景下可视化miRaCl特征的重要性。为了在每个CMS中最明显上调（图4）或下调的miRNA中找到调控作用，作者在网络分析中把在同一CMS中具有差异表达的mRNA和miRNA都视为潜在目标。有趣的是，在所有具有调节作用的明显上调的miRNA中，超过三分之一（14/38）也在miRaCl-20中得到体现，这组miRNA的名称被突出显示出来。关于具有调节作用的下调miRNAs（miRaCl-20中的15/44），证实了miR-200家族（miR-141和miR-200c）在CMS4中的重要性。

图4 调控网络中miRaCl的特点

通过比较两个方向的网络，发现了一些有可能解释CMS之间差异的重叠：miR-92a、miR-362、miR-335、miR-552和miR-592是CMS1中下调的调节因子，而CMS2中上调的调节因子。还发现miR-615在CMS1和CMS2中具有不同的表达和调节作用。进一步的例子是miR-625和miR-99a在CMS1和CMS4中表达相反，miR-143在CMS2中下调，在CMS4中上调。

为了研究miRaCl-20特征的相关生物学过程，作者对其预测的靶点和Hallmark基因集进行了重叠分析。为了细化分析并提高与CMS的相关性，缩小了预测靶点mRNAs的范围。至少有两个数据库预测的目标与每个CMS中下调的mRNAs相交，以确定对每个CMS重要的生物过程（图3C）。事实上，确定的途径与CMS的已知生物学特性相一致，如上皮-间质转化（EMT）在高度分化的CMS3中下调，以及MYC靶点在CMS4中下调。此外，当一个miRNA被认为在CMS中靶向某个途径时，这个miRNA一般也在相应的CMS中高表达（图3B）。

05 - 临床意义

为了测试在EGAS1127数据集中，已确定的分离CMS等级的miRNA是否也与OS有关，作者计算了miRaCl/miRaCl-20中前10个特征的多变量模型中的风险比（图5A）。在miR-552中观察到危险性略有下降，这是CMS2中表达量最高的miRNA。使用TCGA数据集作为附加的数据集来研究生存情况，miR-552被证实是所有阶段的CRC患者良好生存的积极预后标志，在第四阶段CRC内甚至更加明显。对于在CMS4中表达量最高的两个miRNA：miR-218和miR-143，在EGAS1127数据集（第四阶段）中观察到了相反的OS风险比：miR-218的危险降低，miR-143的危险增加。这一结果在TCGA COAD/READ数据集的所有阶段都没有得到证实。

值得注意的是，根据miRaCl(-20)-CMS的预测，CMS1的OS是最差的（图5B,C），尽管预测为CMS1的病例数很低。正如原始出版物中所述，CMS4的预后比CMS2更差。在这个转移性癌症队列中，CMS2和CMS4之间的差异没有原始研究中那么明显，因为原始研究集中在早期阶段，这与以前的研究结果一致。作者证实在这个主要由晚期疾病组成的队列中，CMS4的富集和CMS1的耗竭（图2H）。

在EGAS1127数据集中，检索了38名患者的现有转移性样本的CMS标签，并将其与相应的原发样本进行比较。尽管CMS分类并不是为用于转移瘤而开发的，但作者想探索原发和转移瘤对之间CMS等级预测的一致性（图5D）。可以观察到，腹膜转移瘤大多被归类为CMS4，而肝脏转移瘤则富含CMS2。

图5 临床意义

四、结论

作者开发了一个随机森林分类器，根据miRNA的表达来分离CMS。简化版miRaCl-20能够在不相关的数据集中确定CMS，基于最大的数据集中仅有的20个miRNA，所有类别的平均准确率>70%。此外，CMS4的预测似乎受到了肿瘤纯度的影响。在分类器训练期间，对miRNA的重要性进行了排名。突出的是，miR-552是一个有趣的候选者，可作为预后生物标志物进一步评估。miRaCl在转移CRC的独立数据集中的应用能够概括CMS分类的预后价值。