生信分析 基础分析千篇一律,新奇思路百里挑一

今天跟大家分享的是12月发表在Frontiers in Oncology(IF: 4.848)上的一篇文章,主要是基于代谢相关基因的表达特征,对结直肠癌(CRC)进行预后和分子分型,思路清晰,分析方法简单,是一篇比较典型的基于一组基因表达特征进行分子分型的文章,很适合平移到其他癌症类型或其他基因集合中。

分析意向  http://gaptechsxr.mikecrm.com/1vdMmqy

Metabolism-Associated Molecular Classification of Colorectal Cancer

代谢基因相关的结直肠癌分子分型

1.数据

(1)训练数据:TCGA中CRC表达,临床信息和突变数据。

(2)验证数据:GSE39582中CRC表达数据和临床信息数据。

(3)代谢基因:来自于其他文章总结的2,752个代谢基因。

(4)PD-1治疗数据:来自于其他文献中的47名接受PD-1治疗的黑色素瘤患者表达数据和药物响应数据。

2. CRC分子亚型的识别

首先,基于绝对中位差>0.5和单因素cox回归分析(p<0.05)对代谢基因进行筛选,识别出在大部分CRC样本中可以检测到基因表达且与CRC预后显著相关的1238个基因。基于这些基因表达,分别对训练数据和验证数据进行非负矩阵分解(NMF)聚类(图1a)。当k=3时,训练数据中cophenetic相关系数显著下降,所以将k=3设定为最佳聚类阈值(图1B)。主成分分析进一步表明,三类样本分布在二维坐标系的不同位置(图1C)。在验证数据中可以观察到相似现象(图1D-E)。预后分析表明在训练数据和验证数据的三类样本中存在显著预后差异,C2样本预后最差(图1F-G)。

图1. CRC分子亚型的识别

3. CRC分型与代谢相关特征的相关性

CRC分型是在代谢基因表达基础上完成的,所以研究者进一步对CRC分型与代谢相关特征的关联进行研究。基于GSVA R软件对训练数据中115个代谢过程活性进行量化,并对不同分型的代谢活性进行比较,识别到在不同亚型中存在特异性的代谢相关过程(图2)。

图2. CRC各亚型之间的差异代谢通路

在对三种亚型之间的特异性通路进行整合后,共有58种代谢相关特征在三类间发生差异(图3A)。3个亚类间代谢活性水平不同,其活性水平从高到低依次为C1,C3,C2。研究者还对不同类别间样本中与CRC进展相关的通路活性进行比较,研究结果表明C1主要富集到较高的细胞周期通路活性,C2中PI3K-AKT等通路活性显著增强(图3B)。另外,与代谢通路活性结果一致,核心代谢基因在C1和C3中表达量较高(图3C)。

图3. CRC亚型与代谢和癌症进展相关通路活性

4. CRC亚型的临床特征和差异表达基因识别

在分型完成后,一般都要对不同亚型间临床特征进行比较,检验不同亚型患者的临床特征是否存在差别。基于卡方检验,研究者发现在训练数据中不同亚型间TNM分期显著不同。在验证数据中,除TNM分期外,各亚型TP53等基因突变比例也存在显著差异。

为更深入了解不同亚型的分子特征,研究者分别对三类样本进行两两组队,识别出在不同类型样本中发生差异表达的基因(图4A-B),并对236个亚型特异基因(在不同样本中均表达差异显著的基因,文章中笔误写成263)进行GO富集分析(图4C)。亚型特异基因大多富集于免疫相关通路,表明在三个亚型样本间可能具有不同的免疫通路活性(图4C)。

图4.差异基因识别和GO富集分析

5. CRC亚型与免疫浸润的相关性研究

在亚型特异基因主要富集到免疫相关通路基础上,研究者对不同亚型间免疫浸润特征进行比较。基于ESTIMATE分别对训练数据和验证数据中三类样本的免疫得分,基质得分和肿瘤纯度进行评估和比较(图5)。在不同亚型样本中,免疫相关得分存在显著差异。

图5. CRC亚型和ESTIMATE得分

除ESTIMATE免疫相关打分外,研究者还对不同亚型的22种免疫细胞浸润比例(CIBERSORT计算,图6A),另外的17种免疫细胞类型(ssGSEA富集分析计算,图6B)和可作为潜在药物靶点的免疫检查点基因表达(图6C)进行比较。结果进一步表明,不同亚型之间的免疫浸润状态存在显著差异。

另外,基于代谢相关基因表达特征对47名接受PD-1免疫治疗的黑色素瘤患者进行聚类,不同类别患者的药效响应状态存在显著差异, C3与PD-1响应组存在显著相关性,说明C3亚型对抗PD-1治疗可能更加敏感(图6D)。

图6.CRC亚型和免疫特征

6.CRC亚型与突变状态

对不同亚型的基因突变状态进行比较,在不同亚型中各基因的突变比例存在显著差异(图7A)。此外,C3亚型中突变负荷最高(图7B)。亚型与突变状态的关联分析对抗化疗药物的选择具有重要意义。

图7. CRC亚型与突变状态

7. 基于LASSO回归模型开发和验证代谢相关特征

为建立一个可用于临床的代谢相关特征模型,需要选择在每个亚型中最具代表性的基因。在训练集的三个亚类中共存在3244个差异基因,其中66个与患者总生存期显著相关,基于这66个基因进行代谢相关特征聚类(图8A)。接着,研究者基于LASSO Cox回归模型构建出一个具有最佳预后价值的特征模型(图8B)。该模型由27个基因组成,这些基因在三个亚类中存在显著表达差异 (图8C)。此外,利用回归系数计算代谢相关特征的风险评分。C2亚型得分最高,C1亚型得分最低。生存分析表明得分越高,预后越差(图8E, F)。与上述C2预后最差的结果相吻合。ROC分析表明代谢相关特征的AUC显著高于年龄等其他因素 (图8G)。此外,多变量Cox回归分析也证实该特征存在独立预后价值(图8H)。

图8. 基于LASSO回归模型开发和验证代谢相关特征

今天文章的内容就是这些,让我们简要总结下吧:首先对代谢相关基因进行筛选,识别到可被检测且与预后显著相关的基因进行非负矩阵聚类分析,并通过对不同类型间预后,代谢特征,免疫特征的比较,进而论证分类结果的可靠性和合理性。

不知道小伙伴们有没有发现,这真的是一个超级经典的肿瘤分型套路分析。把代谢基因可以换成你感兴趣的任意基因集合,免疫相关基因,癌症相关基因,DNA损伤修复基因等等。癌型也可以任您选择,乳腺癌,肺腺癌等等。简单的生物信息学分析其实和写作文很像,总说千里文章一大抄,看你会“抄”不会“抄”。生物信息学分析其实也是,新的灵感和火花往往是在模仿简单思路基础上诞生的,再加上细节上的深入研究不断升华就有了一篇很棒的paper。还有,同学们在写作过程中一定要仔细,虽然笔误不是抄袭,数据造假等原则性的错误,但科研总是需要严谨,小心驶得万年船嘛。

更多生信内容可关注小编~

分析意向 http://gaptechsxr.mikecrm.com/1vdMmqy

你可能感兴趣的:(生信分析 基础分析千篇一律,新奇思路百里挑一)