纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定

大家好,上周公众号分享了关于基因集预后的一般发文规律,讲到了基因集肿瘤预后四种发文版本。今天的分享是关于EMT基因的衍生版本。文章发表于Frontiers in Oncology杂志(IF: 4.848),内容讲的是肾透明细胞癌EMT相关lncRNA预后分析

EMT升级版本:3+肿瘤EMT纯生信,热点分析来袭(可查看附推)

纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第1张图片
透明细胞肾细胞癌中与预后相关的上皮-间充质转化lncRNA及分子亚型的鉴定

摘要

上皮-间充质转化(Epithelial-mesenchymal transition, EMT)是一种可逆的细胞过程,在肿瘤进展中起着至关重要的作用,并受转录因子、诱导因子和信号通路基因的调控。上皮-间充质转化相关的lncRNA在肾透明细胞癌(Clear Cell Renal Cell Carcinoma)中的预后作用和生物学功能尚不清楚。

在本研究中,我们分析了基因表达数据,并从癌症基因组图谱(TCGA)数据库(N=512)和国际癌症基因组联盟(ICGC)数据库(N=90)收集临床信息,同时将数据分为训练集和外部验证集。基于分析与EMT相关的lncRNA表达数据和临床数据,我们构建了一个EMT相关的lncRNA风险signature。Kaplan-Meier曲线分析显示,低风险和高风险组患者在ccRCC的总生存期(OS)和无病生存期(DFS)上表现出显著差异,验证数据集也证实了这一点。对OS和DFS的临床因素和风险signature进行Cox回归分析,表明风险signature可以作为独立的预后预测因子。此外,我们建立了一个基于列线图和独立因子的受试者工作特征曲线(ROC)分析的个体预后预测模型。基因集富集分析(GSEA)表明,低危组患者与粘附分子连接、粘着斑、MAPK信号通路、癌症通路和肾癌通路有关。此外,我们在TCGA数据集和ICGC数据集中确定了ccRCC的三个稳健亚型(命名为C1、C2和C3),它们具有不同的临床特征和预后。其中C1与较好的生存结果相关,而C2和C3与较差的生存结果相关,且有更多的晚期患者。此外,C2更容易对免疫治疗产生反应,且对化疗药物敏感,这可能为临床医生制定个体化治疗方案提供启示。这项工作开发了一个可靠的EMT相关lncRNA风险signature,可以用来预测ccRCC的OS和DFS。此外,我们根据EMT相关的lncRNA表达确定了三种稳定的分子亚型,这可能对阐明ccRCC的分子机制具有重要意义。

材料与方法

1.数据收集

RNA 测序数据和临床信息来源于TCGA数据库(https://portal.gdc.cancer.gov/)和ICGC数据库(https://dcc.icgc.org/)。为了确保高质量的分析,我们保留了存活时间≥30天的样本。接着,用来自TCGA的512例ccRCC患者和来自ICGC数据库中的90例ccRCC患者进行下游分析。此外,无病生存率的信息是从cbioportal数据库中检索出来的(https://www.cbioportal.org/)。RNA转录组数据用TPM算法进行处理。

2.相关性分析

我们从MSigDB数据库v7.1(MSigDB)下载了200个EMT相关基因(http://www.broad.mit.edu/gsea/msigdb/)。为了识别与EMT相关的lncRNA,我们首先在GENCOD数据库中获取所有lncRNA表达数据(http://www.gencodegenes.org)。然后将EMT相关基因与样本中所有lncRNA表达数据进行Pearson相关分析,根据相关系数和p值确定EMT相关的lncRNA(|Cor pearson| > 0.3 and p value < 0.01)。

3.构建风险signature

单因素Cox回归分析筛选出与ccRCC生存显著相关的EMT相关lncRNAs(p<0.05)。然后,选取临床变量显著的lncRNAs,利用randomrestsrc软件包进行signature选择(https://cran.r-project.org/package=randomForestSRC)。采用随机生存森林算法基于重要性对预后基因进行排序 (ntree=1000)。对相对重要性>0.4的lncRNAs进行多元Cox回归分析,然后用Akaike信息准则构造风险signature,用于逐步向后/正向模型选择。使用如下风险公式计算每个患者的风险评分:

其中Expi代表每个预后lncRNA的表达,βi代表每个预后lncRNA的系数。


4.GSEA富集分

用基因集富集分析(GSEA)技术,在高危组和低危组中发现显著的富集基因(p<0.05,fdr<0.05),进而找到lncRNA风险signature相关的KEGG通路。

5.EMT相关lncRNA siganture的独立性

利用lncRNA signature和相应的临床信息,结合单变量Cox回归分析和多元Cox回归分析确定独立性(p < 0.05)。

6.列线图构建与验证

用rms-R软件包(https://cran.r-project.org/web/packages/rms/index.html)分析所有独立的预后因素用来构建列线图。采用校正曲线分析法对列线图进行判别和标定。

7.非负矩阵分解(NMF)聚类

为了探索潜在的分子亚型,采用非负矩阵因子分解(NMF)聚类算法对ccRCC样本进行聚类。将簇k的数目从2设置为7。然后根据相关系数选取最优k值。计算每个亚型的基因突变,从中选出前20个基因用maftools-R软件包可视化。

8.肿瘤微环境分析

为了评估ccRCC的肿瘤微环境,我们采用CIBERSORT算法,基于全基因表达水平,测定了22个免疫细胞的浸润水平。此外,免疫核心和基质评分计算使用“estmate”R包(http://r-forge.r-project.org)。

9.预测化疗反应

我们根据从肿瘤药物敏感性基因组学(GDSC)数据库检索到的信息,预测了每个ccRCC患者的化疗反应。选择两种已被批准治疗转移性肾癌的常用化疗药物索拉非尼和舒尼替尼用来预测化疗疗效。预测过程采用R包“Propathy”进行,其中样品的半最大抑制浓度(IC50)用岭回归(Ridge Regression)预测。以GDSC训练数据集为基础,通过10倍交叉验证来计算准确度。

10.统计分析

所有统计数据均在R环境下进行分析(R版本:3.6.2)。我们使用Wilcoxon检验(Mann-Whitney检验)分析连续变量,而Fisher精确检验或卡方检验用于分析分类数据。采用K-M分析法和对数秩检验计算生存差。所有统计分析的统计值均小于0.05。

结果

1.EMT相关的lncRNA识别

EMT相关基因是从MSigDB数据库获取,其标记基因集名称为:HALLMARK_EPITHELIAL_MESENCHYMAL_TRANSITION。结果共收集到200个EMT相关基因。我们通过相关分析对EMT相关的lncRNAs进行筛选。根据筛选标准,共鉴定出2019例EMT相关lncRNAs(absolutely Pearson coefficient > 0.3 and P-value < 0.01)。合并临床信息和lncRNA表达数据进行下游分析。

2.构造EMT相关的lncRNA signature

将512例生存时间≥30天的ccRCC患者和2019例EMT相关lncRNAs纳入TCGA-ccRCC队列,用来确定预后风险模型。通过单因素Cox回归分析,我们得到491个lncRNAs,具有显著的预后差异。然后,采用随机生存森林算法进行特征选择。选择相对重要性>0.4的基因进一步应用于多元逐步Cox回归分析。错误率与树数之间的关系如图1A所示,而基于标准的基因的相对重要性如图1B所示。通过多元逐步Cox回归分析,建立了11个lncRNA signature模型。根据风险公式计算TCGA队列和ICGC队列中每个患者的风险评分:

纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第2张图片
纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第3张图片
图1利用随机森林分析进行基因选择


3.EMT相关lncRNA在ccRCC中的预后价值

我们确定了使用EMT相关lncRNA signature作为预测ccRCC患者总生存率(OS)和无病生存率(DFS)潜能。根据危险度中位数将病人分为高危组和低危组。采用Kaplan-Meier曲线分析评估两个危险组的OS和DFS(图2A,2B)。低危组OS和DFS发生率明显高于高危组(P<0.001)。同样,在ICGC数据集中,与高危组相比,低危组患者的生存时间更长(图2C)。lncRNA signature在两个数据集中的AUC达到了0.7以上(图2)

纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第4张图片
纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第5张图片
图2 Kaplan-Meier和ROC曲线分析


此外,发现高危组OS和DFS患者的死亡病例较多,高表达APCDD1L−DT、LINC01559 AC063948.1、THUMPD3−AS1和CD27−AS1。然而,低风险组报告了更多的存活病例,高表达LINC00957、LINC01507、LINC02532、AL357140.2、DOCK9−DT和AC002070.1。此外,我们进行了单变量cox回归和多元cox回归分析,以确定EMT相关的lncRNA signature是否可以作为ccRCC患者OS和DFS的独立预后预测因子(图4)。

纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第6张图片
图4 单变量cox回归分析与多元cox回归分析


我们观察到lncRNA siganture、grade和stage被列为OS和DFS的独立预测因子。为了进一步探讨EMT-lncRNA siganture在ccRCC患者中的预后价值,我们根据年龄、性别、分期和级别将患者分为不同的组。考虑到不同的分层分析结果,低危组ccRCC患者的OS时间明显长于高危组(P<0.05)(图5)。

纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第7张图片
图5 高危组和低危组的Kaplan-Meier曲线分析


这些结果表明,EMT相关的lncRNA siganture可以在不考虑临床因素影响的情况下对ccRCC进行预后预测。此外,我们还评估了EMT相关lncRNAs促进ccRCC进展的能力。我们发现风险评分在阶段、等级上呈显著上升趋势(Kruskal–Wallis P<0.05)。此外,男性的风险评分显著高于女性,但随年龄的增长风险评分无显著差异(图6)。

纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第8张图片
图6 EMT-lncRNA siganture与临床因素的关系


这些发现提示ccRCC的风险评分越高,恶性程度越高。因此,EMT-lncRNA siganture可以准确预测ccRCC的进展。

4.TCGA队列的列线图构建与验证

以EMT相关的lncRNA特征、阶段和等级等独立因素为基础建立列线图(图7A)。校准曲线在预测ccRCC 1年、3年和5年OS方面具有较高的性能(图7B-D)。通过ROC分析,评价了列线图的预测精度(图7E)。

纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第9张图片
图7 ccRCC患者总生存率的个体化预测模型


5.EMT相关lncRNA siganture的GSEA富集分析结果

应用基因集富集分析(GSEA)分析,在TCGA队列和ICGC队列中确定与高风险组和低风险组相关的重要途径。低危组患者主要集中在局灶性粘连、MAPK信号通路、癌内通路和肾癌通路(图8 A,B)。然而,在高危组中,没有明显的通路富集。

纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第10张图片
图8 EMT相关lncRNAsignature 基因集富集分析(GSEA)


6.NMF聚类鉴定ccRCC的三种分子亚型

基于EMT相关lncRNAs探讨ccRCC潜在的分子亚型,根据单变量Cox回归分析结果选择存活率差异显著的lncRNAs。筛选后,共有491例lncRNA和512例TCGA患者纳入NMF一致性聚类分析。通过计算相关系数确定最佳k值,综合考虑k=3为最佳k值(图9A)。主成分分析(PCA)结果表明C1、C2和C3之间存在显著差异(图9B)。此外,K-M曲线分析结果表明C1亚型的总生存率比C2和C3亚型好(P<0.001)(图9C)。

纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第11张图片
图9 基于TCGA数据集EMT相关lncRNA表达的ccRCC分子亚型鉴定


7.亚型的基因组图谱和免疫浸润水平

为了探讨TCGA数据集中ccRCC亚型与其临床因素的关系,我们绘制热图来描述lncRNA表达、分子亚型与临床因素之间的关系(图10)。结果发现lncRNA在亚型中具有高度特异性,表明不同亚型表现出不同的功能。以前的研究发现EMT相关基因与肿瘤微环境有关,而在ccRCC中没有发现。这促使我们进一步探讨分子亚型、免疫检查点与免疫细胞浸润水平的关系。我们发现C2的免疫细胞浸润水平(包括CD8 T细胞、滤泡辅助性T细胞、CD4记忆激活T细胞和γδT细胞)高于C1和C3,而C1亚型则有高水平的静止树突状细胞、CD4记忆静止T细胞和M1巨噬细胞(图11)。此外,已知免疫检查点包括IL6、CXCR4、CD276、TGFB1、CCL2、CTLA4、LAG3、CD274和CD4在C2亚型中的总体表达水平相对高于C1亚型和C3亚型(图11)。

图10 在TCGA数据集中显示了临床因素、亚型和EMT相关lncRNA表达之间的关系热图


纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第12张图片
图11 三种亚型的免疫细胞浸润情况及免疫检查点


8.C2亚型对免疫/化学疗法更敏感

为了评估这三种亚型对免疫治疗反应的可能性,我们使用TIDE算法。结果表明,C2亚型(30.3%,44/145)比C3(28.0%,52/186)和C1(16.0%,29/181)更有可能对免疫治疗有反应(Kruskal-Wallis P<0.001)。另外,索拉非尼和舒尼替尼联合化疗治疗转移性肾细胞癌。因此,我们利用GDSC细胞系数据集进一步评估了三种亚型对两种化疗药物的反应。C1亚型和C2亚型对阿非尼B型更敏感。然而,在不同亚型间,舒尼替尼类药物没有显著差异。C2亚型与晚期患者相关,易发生局部复发或远处转移。总之,C2亚型可以从索拉非尼治疗中获益(图12A,B)。

纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定_第13张图片
图 12 三种亚型与化疗药物的关系


讨论

本研究开发并验证了EMT-lncRNA siganture,并可作为预测个体化预后和治疗ccRCC患者决策的可靠工具。此外,还发现了三种分子亚型,有助于了解ccRCC的分子机制,为临床医生制定针对ccRCC的个体化治疗方案提供参考。

可以看出该项研究思路不单单研究基因集调控marker预后分析思路,也结合了基因集分析预后的研究。不管是新颖度还是工作量都是可观的。

生信人 提供新颖、正规、可复现的EMT相关生信分析服务

你可能感兴趣的:(纯生信分析系列 EMT+lncRNA|两个国自然热点,一篇文章搞定)