这是一篇于2021年1月发表在《Frontiers in Oncology》(IF: 4.8,2区),题为
生信分析需求 填写生信分析意向表获取更多疾病相关思路
更多精选文章,可关注生信人
数据
TCGA-HNSC的基因表达数据和临床数据来自 https://genome-cancer.ucsc.edu/,在去除了没有生存数据的病人后,最终有501个病人的数据。为了验证聚类出来的三个压型,又从GEO上下载了270个病人的数据。
文章思路
单样本基因集富集分析和聚类
文章根据2013年的一篇文章(1)和 ImmPort 数据库(2)整理了40个免疫特征。使用”GSVA”R包对501个病人进行了单样本基因集富集(Single-Sample Gene Set Enrichment Analysis, ssGSEA)分数的计算。通过对上述免疫分数对聚类,将501个病人聚类成为三个亚型:免疫-高/中/低,病人数分别为264,185,52。聚类的热图见图1A:
为了验证上述分型对可靠性,文章从两个角度进行了验证:对比三个亚型的immune scores, stromal scores, tumor purity;对比三个亚型的六种免疫细胞浸润情况。如图1B-C(原文章的FIGURE 1标错了B和D):
从图1B可以看出,高免疫组显示了最高的immune scores和stromal scores,以及最低的tumor purity;而低免疫组显示了最低的immune scores和stromal scores,以及最高的tumor purity。以上提到的三组分数均是基于ESTIMATE 算法计算的。图1C则印证了六种免疫细胞在三个组别中的分布也契合该分类(通过TIMER数据库计算的免疫细胞分布)。
除此之外,文章使用GEO上下载到的270个病人的数据进行了重复验证,进一步证实他们的三-亚型分类的合理性。得到了与上述类似的结果(图1D-F)。
在验证了该亚型分类的可靠性之后,后面便是应用研究了。
三个亚型与HLA基因表征,DNA损伤,免疫原性的相关性
之前的文章指出免疫状态至少与以下三方面相关:人类白细胞抗原(human leukocyte antigen, HLA)基因表征,DNA损伤,免疫抗原。
HLA基因表达方面
从上图可以看出,所有HLA基因(纵轴)的表达量在高免疫组和低免疫组之间都显著差异(P<0.001)。
DNA损伤
DNA损伤可以从四个方面来看:非整倍性(aneuploidy), 同源重组缺陷(homologous recombination deficiency), 拷贝数变异负荷(copy number variation burden), 肿瘤内部异质性(intratumor heterogeneity)。图2B-E分别展示了三个组别在上述四个方面的差异性。结果显示,前三个方面在不同免疫亚型组之间有显著差异,而在肿瘤内部异质性并没有显著差异(2E)。
免疫抗原
免疫抗原方面,文章从肿瘤突变负荷(tumor mutational burden)和单核苷酸变异相关抗原负荷(SNV-related neoantigen burden)两个方面进行了研究。结果显示(图2F-G)三个亚型在这两个方面都没有显著差异。所以该免疫亚型分类与免疫抗原相关性不是很明显。
(ns: p>0.05)
生存/预后分析
文章使用不同方法对三个免疫组别进行了生存分析。
Kaplan-Meier分析显示,高免疫组比另外两组有更好的生存能力(图3A)。
多元Cox比例风险模型也得到了相同的结论(结果见表1)。
临床信息(包括年龄和TNM等)在三个组别之间并没有显著差异(图3B)。
40个免疫特征跟预后相关性,结果显示大部分免疫特征跟预后相关(图3C的Whole一列大多数p<0.05),但是部分免疫特征在不同免疫组别中预测能力不同,比如Th1和Th2细胞只在高免疫组中有显著预后影响。
三个亚型对治疗方案的不同反应
文章进而探究了治疗方案的有效性在三个亚型之间是否存在差异。
免疫-高/中亚型的病人在接受放射治疗后的存活率明显高于未接受放射治疗的病人,而在免疫-低亚型中则无显著差异:
放疗敏感性病人在免疫-高/中亚型的占比明显高于免疫-低亚型中的占比:
之前有文章提出了IPS分数,用于定义anti-PD-1治疗对不同病人的疗效。图4E显示随着免疫状态降低,IPS分数也随之降低。
并且,免疫治疗标记物,PD-L1, PD1, CTLA-4也显示了相同的趋势(图4F-H)。
文章又对三个亚型在化学敏感性方面的差异(图4I)。结果显示,大多数药物在高免疫组中疗效更好,只有少数药物在低免疫组中效果更好。
蛋白质互相作用网络构建和hub基因的使用
对比免疫-低/高两个亚型,文章使用edgeR得到了677个上调基因和21个下调基因(|logFC|>1,P<0.05)。借助于STRING将上述差异表达基因构建成一个177个节点-437个连接的蛋白质互相作用网络。并且使用Cytoscape中的”cytohubba”软件从该网络中识别出前10个hub基因。
而后对10个hub基因进行了富集分析。在生物过程方面,这些hub基因富集在白细胞转移(leukocyte migration)和细胞趋化性 (cell chemotaxis);在分子功能方面,这些hub基因富集在G蛋白偶联趋化因子受体活性(G protein-coupled chemoattractant receptor activity), 趋化因子受体活性(chemokine receptor activity), 细胞因子受体活性(cytokine receptor activity)等方面(图5C)。
KEGG通路富集分析显示这些hub基因与病毒蛋白与细胞因子和细胞因子受体相互作用(viral protein interactions with cytokine and cytokine receptors), 趋化因子信号通路(chemokine signalling pathways) 和细胞因子-细胞因子受体互相作用(cytokine-cytokine receptor interactions)等通路密切相关(图5D)。
文章进而对比了10个hub基因的生存曲线,发现其中8个有显著差异。并发现CXCR3基因有很好的区分效果,并且其在低免疫组中显著下调。
并进一步在GEO的一个数据中进行了验证:
Hub基因的拷贝数目变异与免疫特性的联系
文章最后10个hub基因的拷贝数变异在低-高免疫组之间的差异。结果显示,CXCR3, CCL1, CXCR5三个hub基因的拷贝数变异在低免疫组中要比高免疫组更加频繁(图6A)。文章而后对比了这三个hub基因的拷贝数变异在低-高免疫亚型组别之间的差异以及它们跟免疫细胞浸润的联系(图6B-D)。结果显示,CXCR3和CCL1基因的拷贝数变异可以调节免疫,而CXCR5基因的拷贝数变异跟免疫的相关性不大。
总结
简单来讲,文章利用40个免疫特征将公共数据库中的头颈癌病人进行聚类分为三个亚型,而后从多个方面,以及使用另一批公共数据进行验证,用来证实他们的分类是合理的。而后基于此亚型分类,从多个角度分析三个亚型之间(更多集中于低-高免疫亚型之间)的差异。使用差异基因构建了蛋白质互相作用网络之后,挑出前10个hub基因,而后利用它们做富集、相关性等分析。此文章的分析角度覆盖面之广充分展示了生物信息分析的“内卷”,同时,该文章又是一个很好的免疫性分析方面的教科书供大家参考。
Bibliography
1. Bindea G, Mlecnik B, Tosolini M, Kirilovsky A, Waldner M, Obenauf AC, et al. Spatiotemporal dynamics of intratumoral immune cells reveal the immune landscape in human cancer. Immunity. 2013 Oct 17;39(4):782–95.
2. Bhattacharya S, Andorf S, Gomes L, Dunn P, Schaefer H, Pontius J, et al. ImmPort: disseminating data to the public for the future of immunology. Immunol Res. 2014 May;58(2–3):234–9.
生信分析需求 填写生信分析意向表获取更多疾病相关思路
更多精选文章,可关注生信人