大家好!今天跟大家分享的是2020年12月发表在Briefings in Bioinformatics(IF = 8.99)上的文章。文章利用了从TCGA数据库、GEO数据库等多种数据库以及最新文献中搜集的乳腺癌患者表达谱数据进行了免疫细胞特征的分析,开发了IRRS风险评分预后模型并从多方面证明了该模型的预后预测价值。说明了该风险评分模型可以作为可靠的预后生物标志物,为新型化学疗法和免疫疗法的开发提供治疗评价,并且可能有助于乳腺癌患者的临床决策。
题目:Clinical significance and immunogenomic landscape analyses of the immune cell signature based prognostic model for patients with breast cancer
基于免疫细胞特征乳腺癌患者预后模型的临床意义和免疫基因组学分析
摘要
乳腺癌是最常见的癌症类型之一,也是全世界女性因恶性肿瘤死亡的主要原因。肿瘤浸润淋巴细胞是乳腺癌患者重要的预后生物标志物。本文基于肿瘤免疫微环境的肿瘤浸润淋巴细胞特征,在训练数据集中开发了风险评分预后模型,用于乳腺癌患者的风险分层和预后预测。在两个测试数据集和TCGA数据集中也验证了此风险评分预后模型的预后价值。在训练和测试数据集中建立了列线图,以验证该模型的临床用途。除此之外,还评估了风险评分、乳腺癌亚型、免疫检查点、肿瘤浸润免疫细胞丰度与对化学疗法和免疫疗法的反应之间的关系。本文可以得出结论,该风险评分模型可以作为可靠的预后生物标志物,为新型化学疗法和免疫疗法的开发提供治疗评价,并且可能有助于乳腺癌患者的临床决策。
流程图
1. 数据的获取和整理
为了获得人乳腺癌的mRNA达谱和临床信息,对GEO数据库进行了系统搜索。从GEO数据库获取了17个具有总体生存时间的公共乳腺癌数据集,每个数据集至少有40个样本,本文还收集了TCGA数据库、METABRIC数据库和ArrayExpress数据库中的3个乳腺癌数据集,此外,还从两篇文献中下载了两个乳腺癌数据集。综上所述,研究包括了来自22个数据集的6415例乳腺癌患者样本。
2. 免疫细胞特征可预测乳腺癌的预后
将10个乳腺癌数据集中具有总体生存信息的4868个乳腺癌样品用于预后模型构建。进行单因素Cox回归分析以评估归一化富集分数(NESs)与乳腺癌患者总生存率之间的预后关系。在155个免疫细胞特征中,选择32个P值小于0.001的特征用于研究。通过LASSO优化的Cox回归模型(图1A和B),选择了23个免疫细胞特征的NES在训练数据集中构建免疫相关风险分数(IRRS)模型。森林图显示了23种免疫细胞特征的浸润水平与总体存活率之间的关联(图1C)。本文计算了训练数据集中每位乳腺癌患者的风险评分,并根据分界值将患者分为高或低IRRS组。使用来自23个免疫细胞特征的NES,绘制了训练数据集中具有高风险评分和低风险评分的患者的热图。IRRS较低的患者在大多数免疫细胞特征有较高的免疫浸润水平,而IRRS较高的患者在大多数免疫细胞特征中以较低的免疫浸润水平为特征。当通过小提琴图观察时,这两种IRRS亚型在23种免疫细胞标记的免疫浸润水平上也显示出显著差异。为了进一步评估IRRS的预后价值,通过在训练数据集中使用KM生存分析比较了高和低IRRS亚型之间的总体生存差异。如图1E所示,IRRS高的患者总生存期比训练数据集中IRRS低的患者短得多。
图1 在训练集中构建和验证IRRS
3. 利用免疫细胞特征构建列线图
通过使用来自训练数据集、测试数据集和整个数据集的患者信息,构建了一个整合IRRS信息的列线图。根据本研究中显示的列线图,可以预测出乳腺癌患者的3年、5年和10年总生存期。与乳腺癌亚型信息相比,IRRS是贡献最大的风险因素(图2A)。图2B–D显示了训练数据集,测试数据集和整个数据集的预测曲线。预测曲线与训练数据集,测试数据集和整个数据集的真实曲线不太吻合,特别是对于10年总生存期的校准曲线。训练数据集,测试数据集和整个数据集的决策曲线如图2E所示。对于所有患者治疗方案或无治疗方案来说,列线图显示的预测总体存活率情况高于其他决策曲线。在训练组,测试组和整个组中,本文的列线图模型预测整体生存率的C指数分别为0.633、0.641和0.652。
图2 改进后列线图预测训练集中的患者1年,3年,5年总体生存率
4. 高和低IRRS患者之间的免疫状况
为了进一步表征和了解高和低IRRS患者之间的生物学和临床差异,本文对TCGA数据集进行了分层分析,该数据集由1095例乳腺癌患者组成。使用从训练数据集中获得的公式,将TCGA数据集中的患者分为高或低IRRS组。图3A中的热图显示了训练数据集显示的两种不同的免疫细胞浸润模式。使用TCGA数据集进行的生存分析显示,这两种乳腺癌亚型的总体生存率存在显著差异(图3B)。IRRS低的患者的预后要好于IRRS高的患者,这与训练数据集,测试数据集和整个数据集的结果一致。
就乳腺癌亚型而言,具有Lum B亚型的患者在5种亚型中的IRRS值最高,而在正常亚型的患者在5种亚型中的IRRS值最低(图3C)。Kruskal–Wallis检验证实了五种乳腺癌亚型的IRRS值存在显著差异。本文研究了IRRS亚型中乳腺癌亚型的分布,并观察到内在乳腺癌亚型方面的不平衡(图3D)。与Lum B肿瘤的58.64%高IRRS值相比,Basal样肿瘤的高IRRS值为26.74%,富含Her2肿瘤的高IRRS值为20.55%,Normal-like肿瘤的高IRRS值为26.81%。有研究发现富含Her2乳腺癌和Basal样肿瘤倾向于具有更高的免疫浸润率,这可能是富含Her2的肿瘤和基底样肿瘤的高IRRS亚型较低的原因。
本文重点研究了IRRS值与免疫相关特征之间的相关性。图3E表明了IRRS值与CYT、基质评分、免疫评分、ESTIMATE评分和肿瘤纯度相关。此外,根据Wilcoxon检验,两种IRRS亚型在CYT、基质评分、免疫评分、ESTIMATE评分和肿瘤纯度方面存在显著差异。PD-1、PD-L1、CTLA-4的表达水平与TCGA数据集的IRRS值之间成负相关关系(图3E)。由于已知STING控制应答中先天免疫基因的诱导,因此还研究了STING的表达水平与IRRS值之间的相关性。发现STING的表达水平与IRRS之间存在中等的Spearman相关性(图3E)。成纤维细胞在对组织损伤的许多免疫反应和炎症反应中起辅助细胞的作用。IRRS值与成纤维细胞信号的ssGSEA得分之间存在中等Spearman相关性(图3E)。
利用GSEA进行了28个免疫细胞标记,以阐明在肿瘤微环境中哪些特征被富集(图3F)。在低IRRS亚型中高度表达的基因在多个T细胞特征中表现出明显的富集,例如1型T辅助细胞、T滤泡性辅助细胞、自然杀伤性T细胞、活化的CD4 + T细胞、活化的CD8 + T细胞、效应记忆 CD8 + T细胞、调节性T细胞和γδT细胞。此外,图3G和图3H显示了在低IRRS亚型中高表达的基因在多种免疫相关方面表现出显著的富集,例如免疫耐受、免疫记忆、淋巴细胞计数、B淋巴细胞亚群、淋巴细胞亚群和T淋巴细胞辅助诱导物。
为了研究低和高IRRS亚型之间的转录差异,筛选了它们之间的差异表达基因。通过使用logFC> 1.5和FDR值<0.05的临界值,总共鉴定出570个上调的差异表达基因。GO条目的生物学过程主要集中在免疫相关过程中,例如免疫应答、适应性免疫应答、T细胞活化、免疫应答调节、淋巴细胞介导的免疫和淋巴细胞活化调节。KEGG通路富集分析显示,这些差异表达的基因主要富集于免疫相关类别,例如Th17细胞分化,Th1和Th2细胞分化,用于IgA产生的肠道免疫网络和原发性免疫缺陷(图3I)。
图3 TCGA数据集中IRRS的临床意义和免疫状况
5. IRRS与抗肿瘤免疫,T细胞浸润和抗肿瘤反应的相关性
cDC1细胞(传统的1型树突状细胞)对于启动CD8 + T细胞抵抗肿瘤抗原和通过产生CXCL10吸引肿瘤特异性CD8 + T细胞至关重要。CCL4和CCL5是已知的两种细胞因子,它们通过刺激cDC1细胞中表达的CCR5来控制cDC1细胞向肿瘤的迁移。CXCR3、CXCL9和CXCL10是已知可控制T细胞迁移和自然杀伤(NK)细胞募集的细胞因子。在低IRRS亚型中CCL4、CCL5、CXCR3、CXCL9和CXCL10的表达水平较高,两种IRRS亚型之间这些基因的表达水平差异具有统计学意义。还发现IRRS值与CCL4、CCL5、CXCR3、CXCL9和CXCL10之间存在显著的负关联。IRRS值与趋化因子之间的强负相关性表明,降低的IRRS值与TCGA乳腺癌患者的肿瘤免疫微环境中抗肿瘤免疫应答的增加有关。
为了阐明在肿瘤免疫微环境中IRRS值与T细胞浸润和抗肿瘤反应之间的关系,本文通过T细胞浸润和抗肿瘤反应的八个指标对来自TCGA数据集的具有高或低IRRS亚型的乳腺癌患者进行了特征鉴定。对于T细胞浸润信号和抗肿瘤反应信号的ssGSEA得分,IRRS低亚型的患者高于IRRS高亚型的患者。在TCGA数据集中发现IRRS值与T细胞浸润信号的ssGSEA得分和抗肿瘤反应信号之间存在强烈的负相关性。在METABRIC数据集中显示了类似的结果。
6. 高和低IRRS亚型患者的免疫细胞比例分析
本文研究了高和低IRRS亚型之间22种免疫细胞类型在免疫细胞比例方面的差异。通过使用具有1000个排列的CIBERSORT算法,可从归一化的基因表达数据推断22种浸润免疫细胞的免疫细胞比例。这两种IRRS亚型的肿瘤免疫细胞比例如图4A所示,其分布如图4B和C所示。低IRRS亚型的记忆B细胞、CD8 +T细胞、记忆CD4 +T细胞、激活的记忆CD4 +T细胞、卵泡辅助T细胞、γδT细胞、M1巨噬细胞、M2巨噬细胞和静止树突状细胞比高IRRS亚型更高。(图4C和D)。然而,高IRRS亚型的浆细胞、巨噬细胞M0、静止的肥大细胞和肥大细胞的比例明显高于低IRRS亚型(图4C和D)。此外,在TCGA数据集中,不同的肿瘤浸润免疫细胞的比例与IRRS值呈弱相关或中等相关,在METABRIC数据集中显示了相似的结果。
图4 TCGA数据集中高和低IRRS患者的免疫细胞比例分析
7. 通过复发风险评估IRRS
本文计算了TCGA数据集中每位乳腺癌患者的复发风险(ROR)评分。ROR评分可以在标准的临床病理特性之上添加重要的预后信息。本文研究了IRRS值是否可以为ROR评分增加显著的预后价值。低IRRS亚型ROR得分高于高IRRS亚型。IRRS值和ROR得分之间也证实了显著的负相关性,在METABRIC数据集中显示了相似的结果。
计算了净重分类改进(NRI)和综合歧视改进(IDI)以衡量风险模型的改进。当将IRRS值添加到ROR分数时,NRI为0.243(0.078-0.408),IDI为0.022(0.008-0.0366)。在TCGA数据集中,METABRIC数据集的NRI为0.229(0.141-0.319),IDI为0.008(0.0049-0.0128)。结果表明,IRRS值可显著改善患者预后的分类。
8. IRRS模型对于治疗的好处
在3个数据集中研究了IRRS对接受辅助化疗的乳腺癌患者的预测价值:GSE18728,GSE5462和GSE20181。通过对GSE18728,GSE5462和GSE20181中的IRRS值进行成对比较,观察到辅助化疗前后患者之间的统计学差异(图5A)。与配对化疗组相比,接受辅助化疗的乳腺癌患者IRRS值在统计学上显著降低。接受辅助化疗14天的乳腺癌患者的IRRS值高于接受辅助化疗90天的配对患者,二者之间的差异是显著的。根据患者对新辅助化疗的反应,将GSE41998中的乳腺癌患者分为四类:进行性疾病(PD)、稳定疾病(SD)、部分反应(PR)和完全反应(CR)。图5B表明,在GSE41998数据集中,CR / PR的乳腺癌患者的IRRS值显著低于SD / PD的乳腺癌患者的IRRS值。
预测指标的确定对于制定免疫治疗策略至关重要。使用接受抗PD-L1治疗的尿路上皮癌数据集(IMvigor210)和接受抗PD-1和抗CTLA4治疗的恶性黑色素瘤数据集(GSE91016)。将IMvigor210数据集和GSE91016数据集的患者分别分为高和低IRRS亚型。KM曲线显示,在IMvigor210和GSE91061数据集中,IRRS亚型低的患者比IRRS亚型高的患者预后要好得多(图5C)。与具有稳定或进行性疾病的患者相比,完全或部分缓解的患者的IRRS值显著降低(图5D)。本文还验证了IRRS值在预测癌症患者免疫疗法反应中的有效性。对于每个对免疫治疗有反应的数据集,评估了不同IRRS亚型的CR / PR和SD / PD分布。本文发现低IRRS亚型的患者对免疫治疗的反应比高IRRS亚型的患者高(图5E)。IMvigor210和GSE91061数据集中的瀑布图也证实了IRRS值对检查点免疫治疗的预测值(图5F)。
还使用IMvigor210和GSE91061数据集中的时间依赖性ROC分析评估了IRRS值在免疫治疗益处中的预测潜力。IMvigor210数据集的总生存期预后模型的ROC曲线的AUC值1年为0.66、1.5年为0.64、2年为0.64、GSE91061数据集在1年为0.74、1.5年为0.69 、2年时为0.67(图5G)。
图5 IRRS模型对于治疗的好处
9. XGBoost算法预测高和低IRRS亚型
为了建立可以预测乳腺癌的高IRRS和低IRRS亚型的分类器,本文应用了XGBoost算法来构建模型,并选择23种免疫细胞类型的NES作为训练中的参数数据集。在10倍交叉估值中,图6A和B展示了SHAP图和五个重要特征对训练数据集的贡献。训练数据集的整体准确性和AUC分别为86.98%和0.943(图6C)。利用测试数据集评估该模型对新数据进行分类的性能。测试数据集的总体准确性和AUC分别为83.94%和0.947(图6D)。通过XGBoost算法训练TCGA和METABRIC数据集,并使用10倍交叉评估来评估该算法的性能。在TCGA数据集中,总体准确度和AUC分别为94.79%和0.987。在METABRIC数据集中,总体准确度和AUC分别为86.12%和0.938。
图6 XGBoost算法的预测结果
结语
文章建立了针对乳腺癌的免疫相关风险评分(IRRS),突出了列线图中IRRS对乳腺癌的预测能力,证明了IRRS在乳腺癌中的预后意义和免疫基因组重要性,强调了IRRS对于接受化学疗法和免疫疗法的患者的重要性。文章全面的分析了公共数据库中现有的乳腺癌数据,分析方法具有系统性、全面性以及创新型,值得深入学习借鉴。
研究中存在以下不足之处:1. 研究中使用的大量乳腺癌患者是从不同的公共数据集中收集的,数据集中可能存在显著的异质性,但分析中未考虑乳腺癌的显著肿瘤内或患者内异质性;2. IRRS仅使用了一系列免疫基因标记,这些标记对于乳腺癌患者特定免疫微环境的组成没有特异性;3. 由于本文研究中使用的大多数乳腺癌数据集均不具有完整的临床病理信息,因此不能确定IRRS是否是独立的预后因素。
版权声明:本文转自“生信发文助手”,文章转载只为学术传播,无商业用途,版权归原作者所有,如涉及侵权问题,请联系我们,我们将及时修改或删除。
沃斯(WOSCI)由耶鲁大学博士团队匠心打造,专注最新科学动态并提供各类科研学术指导,包括:前沿科学新闻、出版信息、期刊解析、论文写作技巧、学术讲座、论文润色等。