An independent poor-prognosis subtype of breastcancer defined by a distinct tumor immunemicroenvironment--nature communications--12.121
思路
nCounter®Pan-Cancer Immune Profiling array测序→MicMa 乳癌队列的760个基因进行无监督聚类,把病人分为三类A、B、C→使用Algorithm Nanosdissect对聚类的总淋巴细胞和骨髓细胞浸润进行评分→发现三个聚类与免疫显著相关→病理学家对聚类的病人的HE片子进行验证,结果与评分所得结果一致→在其它队列中,760个免疫相关基因中共表达的509个基因进行无监督聚类→聚类与免疫评分、生存显著相关。
用lasso训练10个队列,来获得聚类B的特征性基因集,并用另外5个队列测试→通过对比生存对数秩检验的P值发现lasso法比共聚类法更好→把免疫聚类作为一个独立的预后因素进行多因素COX回归分析、筛选最佳预后因素集分析,发现免疫聚类是生存一个重要因素→PAM50分子亚型各型中,免疫聚类均显示出了它作为预后因子的能力→ROR(复发风险评分)应用于免疫聚类,发现免疫聚类为ROR评分带来了额外的预后价值 → 免疫聚类与新辅助化疗反应之间的关系 →
对免疫聚类的免疫进行剖析,Nanodissect lymphocyte scores 与生存率关系不大,因此我们假设特异性免疫细胞类型的混合物,而不是肿瘤微环境中免疫细胞的总数,可以解释B群预后不佳。→cibersort计算免疫浸润、鉴定各个聚类的特征性免疫细胞→免疫聚类的表型分析,差异基因分析,基因富集分析→选择EMT、干细胞、缺氧和增殖相关的共11个基因集,计算每个聚类的每个基因集的平均富集分数→对基因集富集分数进行无监督聚类,可以将AC区分开,将B分为两个亚组→GSVA富集分析发现B的两个亚组为互斥的两个表型→免疫浸润(cibersort)与癌细胞特征(基因集分数)之间的关系。
一、摘要
在15个乳腺癌基因表达数据集中,我们确定了三组具有逐渐免疫浸润水平的患者。
中间免疫滤过簇(B簇)与预后较差相关,与已知的临床病理特征无关。此外,免疫簇与辅助化疗的反应有关。在簇免疫背景解剖中,确定簇A为免疫冷,簇C为免疫热,簇B为致瘤免疫浸润。
通过表型分析,上皮间充质细胞的转化和增殖与免疫簇有关,在乳腺癌中相互排斥。
在这里,我们描述了提高乳腺癌免疫环境预测准确性的免疫簇。我们在乳腺癌中发现了一个新的独立预后因子,这突出了肿瘤表型和免疫环境之间的相关性
二、介绍
①5种临床相关分子亚型:管腔A、管腔B、Her2富集型、基底样和正常样,与临床治疗相关
②炎症微环境也会影响肿瘤的发生和发展,帮助筛选免疫治疗受益的患者。
③高免疫浸润代表较好预后,特别是高CD8+T细胞浸润。
④通过对这些簇的免疫组成特征的分析,我们发现促肿瘤免疫浸润与预后不良有关组。
三、结果
1、乳腺癌免疫聚类
①760个基因,95例福尔马林包埋包块,用nCounter®Pan-Cancer Immune Profiling array测序;
95例中的79例样本先前用Agilent whole-genome 4 × 44K oligo array23测过序
作者分析了这两个平台所测的760个基因之间的相关性(补充图1A)
②为了根据免疫相关基因表达的相似性对患者进行分组,我们对相关矩阵进行无监督层次聚类(图1a:95MicMa nCounter和补充图1B;104 MicMa Agilent样本)。
③从3到10个聚类的轮廓图分析(Silhouette plot analysis)表明,3个聚类最好地捕捉了nCounter和Agilent数据集的分割(补充图1C,D)
④为了证实这些簇与肿瘤微环境相关(图1b),我们使用Algorithm Nanosdissect对总淋巴细胞和骨髓细胞浸润进行评分
⑤Nanodissect scores被证实准确,通过经验丰富的病理学家分析匹配的(H&E)切片的免疫浸润情况,(MicMa队列)(图1c和补充图1E)
⑥我们发现这三个簇与 淋巴细胞(图1b)和骨髓细胞(补充图1F)的Nanodissect scores 显著相关)
2、聚类反应逐渐的免疫浸润
①我们使用其他9个队列的表达数据验证了簇与淋巴/骨髓浸润之间的关联(补充表2)。
thenCounter®PanCancer免疫分析阵列的760个基因中在这9个队列中共表达的有509个基因。这509个基因的表达用于无监督聚类
(图1d--METABRIC对垒;补充图2A--TCGA队列)
②在每个队列中,所获得的三个聚类与淋巴和髓系Nanodissect scores显著相关(淋巴评分:METABRIC--图1e;TCGA--补充图2B)。
淋巴和髓样浸润从簇A(蓝色;低浸润;冷肿瘤)逐渐增加到簇B(浅蓝色;中等浸润)和簇C(粉红色;高浸润;热肿瘤
③为了进一步验证,我们在METABRIC 队列中使用了病理学评估免疫浸润,发现其与Nanodissect scores和免疫簇显著相关(图1f和补充图2C)
3、免疫聚类与预后相关
①我们用Kaplan-Meieranalysis和log-rank检验从生存角度检验了免疫簇。对于最大的两个队列 METABRIC(n=1904)和TCGA(n=981),我们发现ClusterB(具有中等水平的免疫浸润)与较差的预后相关(补充图3A,B)。
②当把ER阴性和阳性病人分开时,生存分析显示,聚类B有着同样较差的预后
(ER- 补充图3C,D;ER+ 补充图3E,F)
③为了完善我们的观察,我们根据B组(浅蓝色)VSA和C组(紫色)绘制了患者存活率,并证实B组患者的预后明显更差(图2)
④我们在另外四个具有相关生存数据的队列中进一步验证了这一结果:TAI(n=327)、VDX(n=344)、STK(n=159)和UPP(n=251)(补充图4)。我们的结论是免疫簇与ER阴性和ER阳性乳腺癌的预后相关。
4、二项logistic回归预测免疫聚类。
①我们通过对10个队列(4546个样本)的训练和对另外5个队列(1555个样本)的测试开发了一个模型。我们使用lasso方法惩罚的二项logistic回归(binomial logistic regression penalized )来获得一组基因(补充数据1),通过受试者操作特征曲线和曲线下面积(AUC)分析(图3a)评估,这些基因敏感而特异地预测样本是否属于B类。
②我们的模型预测免疫簇的AUC=85.8%(82.8%-88.7%)。我们发现96.3%通过聚类分配给A和C簇的样本被模型预测为A和C簇,而68.8%通过聚类分配给B簇的样本被用lasso方法发现在B簇中(图3b)。
看来lasso减少了B群中的样本数量(图3b)。
③由于无监督聚类在小群体中不太可靠,而且从几个群体中学习聚类分配将有助于精确确定免疫聚类的表型
我们假设套索分类法是比聚类法更好的预后因素。
通过比较生存对数秩检验的p值,我们发现lasso分类通常改善了免疫簇与生存之间的显著关联(补充表3)
④lasso模型在其他队列中得到验证:图3c-e用于STAM(n=856)、MAINZ(n=200)和UPSA(n=289),补充图5A、B用于CAL(n=118)和PNC(n=92)
⑤由于二项logistic回归仅预测了两个聚类(聚类B与聚类A和C),我们进行了另一轮二项logistic回归,以高精度区分聚类A和聚类C(补充图5C,D)。
5、免疫聚类是一个独立的预后因素
①在ER阳性和管腔型病例(Luminal cases)中,A群(免疫浸润低)丰富,而在C群(免疫浸润高)中,ER阴性和基底样病例(Basal-like cases)比例较高(图4a,b)。
ER阴性和ER阳性样本以及PAM50亚型在不良预后B组中的比例相同(图4a,B)。
②我们使用多变量cox回归分析检测免疫簇对预后的影响,同时考虑其他预后因素,每个队列可用的变量(状态、PAM50亚型、年龄、淋巴结状态、大小和分级)被纳入每个模型。与每个模型中每个变量相关的奇数比和p值如补充表4所示。
③我们发现免疫簇是模型生存的一个重要因素,如每个队列中与免疫簇相关的显著值所示模特。真的,如果我们从模型中移除免疫簇,Akaike信息标准(AIC)指数增加(补充表5),证明免疫簇在解释乳腺癌生存率的所有其他变量之上的重要价值
④为了进一步检验免疫簇作为重要的预后生物标志物的强度,我们采用了逐步后向选择。从包含所有变量的初始Cox模型中,我们移除了最弱的预测变量,前提是这不会削弱模型(通过aic指数的计算进行监控)。这使我们能够为每个队列找到解释存活率的最佳变量集。对于所有的队列,免疫簇都保持在最佳拟合的最小模型中,11个队列中有9个队列的免疫簇是一个显著的预后变量(表1)
⑤为了进一步强调和阐明免疫簇的临床相关性及其与PAM50分子亚型的独立性,我们为METABRIC和TCGA队列绘制了每个PAM50亚型的Kaplan-Meier生存曲线(补充图6)。
6、具有复发风险(ROR)评分的新RNA-seq数据集的验证
①我们生成了一个新的数据集:EMIT0,它是OSLO2队列研究的一个数据集。OSLO2-EMIT0由食品和药物管理局批准的复发风险(ROR)评分进行评估。正如最近所证明的,ROR评分增加了高于标准临床病理特征的重要预后信息。
我们评估了免疫簇是否能增加ROR评分的预后价值。我们发现B组由具有中等ROR分数的样品组成,与A组和C组相比(图4c)。
这表明与B组相关的不良预后不可能由ROR评分中包含的信息来解释。
②在评估ER阴性(补充图7A)和ER阳性(补充图7A)时,这一观察结果也是正确的。7B)
③对于所有队列,我们按照Parker等人3的方法计算ROR得分,该方法与AM50亚型3相关,并确认B组由中间ROR得分组成,如代谢队列中所示(图4d和补充图7C,D)。
④多变量回归分析证实,免疫簇为ROR评分带来了额外的预后价值(补充表6),正如用ROR评分和免疫簇对生存率建模时免疫簇的显著值所证明的那样。
⑤Through computation of net reclassification improvement (NRI) and integrated discriminationimprovement (IDI)
NRI和IDI的自举置信区间(CI)(Bootstrapping forconfidence interval (CI) construction)构建表明,在几个队列中,免疫簇在ROR得分的基础上显著改善了根据预后进行的患者分类(补充表6)。
7、免疫聚类与新辅助化疗反应
①我们进一步评估了免疫簇与新辅助化疗反应之间的关系,使用了在新辅助化疗环境下(术前化疗)治疗患者的研究中的基因表达数据。这些研究的终点是病理完全反应(pCR),即在术前化疗方案结束时完全清除癌细胞(本节使用的数据集见补充表2)。
②我们使用了8项研究(1377个样本)的基因表达数据,并用套索方法将其免疫簇分配给每个样本。如图4e所示,我们发现C组应答率最高(59%),其次是A组(30%),B组应答率最低(11%)。由于B组也是最小的患者数量组,我们还计算了每个组中应答者的百分比群集。群集C组平均42%的应答者和58%的残留病患,而B组应答者和残留病患分别占18%/82%和A组13%/87%。
③由于pCR率随ER状态的不同而不同29,我们还单独计算了ER阳性和ER阴性病例中的应答者百分比,发现无论ER状态如何,B组的应答率最低(补充图1)。分别为8A、B)。
④对于每个对新辅助化疗有反应的队列,我们评估了pCR和非pCR病例在免疫组群中的分布(卡方值,补充表7),考虑到所有病例,或ER阳性和ER阴性病例。当考虑到整体时,我们发现反应者在免疫簇中的分布有显著差异,B簇中反应者较少,C簇中反应者最多。当按ER状态分裂时,观察到相同的趋势,尽管并不总是显著。这里不是很懂,表格表示的不是很清楚,可能得了解一下卡方检验具体是怎么进行的
⑤我们的结果也显示B组的低应答率,提示这类患者可能是测试新辅助治疗选择的候选者。
8、免疫簇的电子解剖(silico dissection)
①为了评估簇内的逐渐免疫浸润是否可以解释与预后的关系,我们在Cox多变量回归分析中测试了免疫簇或总免疫浸润分数中的哪一个更能预测生存率(补充表8)
Nanodissect lymphocyte scores 与生存率关系不大,因此我们假设特异性免疫细胞类型的混合物,而不是肿瘤微环境中免疫细胞的总数,可以解释B群预后不佳。
②我们使用CIBERSORT算法19估计了22种不同免疫细胞类型的比例。我们计算每个队列免疫浸润,并对细胞类型的浸润中值分数进行无监督聚类(图5a)
C群病例富含巨噬细胞M1、记忆激活T细胞和滤泡辅助性T细胞(图5a)
③正如预期的那样,A组的免疫细胞水平非常低。在不良反应和预后组B中,发现巨噬细胞M2、静止肥大细胞和静止记忆T细胞的水平较高(图5a),代谢组和TCGA组的密度图也说明了这一点(图5b和补充图9)。
如METABRIC和theTCGA队列中CIBERSORT得分的分布所示(图5b和补充图9
④使用广义线性模型(generalized linear models),我们区分B群和AC群的免疫细胞类型,鉴定解释B群的静息和促肿瘤免疫细胞类型(图5c)
⑤我们还测试了哪些免疫细胞类型解释了簇A和簇B之间的差异(补充图。10A)B组和C组之间(补充图。10B)。当比较A群和B群时,所有的免疫细胞类型都可以解释B群,实际上,A群没有或低免疫浸润。当比较B群和C群时,我们再次发现促肿瘤细胞类型巨噬细胞M2和restingmast细胞解释了B群。这些结果表明B群中的促肿瘤免疫浸润可能有利于肿瘤生长。综上所述,A群由免疫性冷肿瘤组成,C群含有免疫性热肿瘤,B群具有致瘤性免疫浸润。
9、免疫聚类的表型分析
①为了进一步描述与预后不良相关的表型,我们通过差异基因表达分析鉴定了B群中显著过度表达的基因。当分别与聚类A和聚类C比较时,我们发现了909个基因在聚类B中上调。(Bonferroni-correctedpvalue< 0.0001; Supplementary Data 3)
②这些基因与干细胞生物学和EMT相关,如使用msigdb31的H和C2集合进行的基因集富集分析(GSEA)所示(图6a)。(using the H and C2 collection of theMsigDB31(Fig.6a).)
③为了进一步研究免疫簇与癌细胞表型之间的关系,我们使用了与EMT、干细胞、缺氧和增殖相关的基因集。总共从MsigDB中选择了11个基因集,并从Tan等人32中选择了一个与EMT相关的额外特征(补充数据3)
使用GSVA方法计算每个集群和队列的平均基因集富集分数;该分数反映免疫集群中每个路径/基因集的活动33。平均基因集分数的无监督聚类清楚地将免疫聚类A和C分开,而聚类B分为两个亚组(图6b)。这些结果表明免疫聚类与干细胞/EMT相关基因特征之间存在关联。
10、乳腺癌中两种相互排斥的表型
①通过GSVA富集分数的监督聚类,我们确定了乳腺癌中两个相互排斥的基因特征,(i)一个与增殖和胚胎干细胞样表型有关,(ii)另一个与EMT和乳腺干细胞表型有关
增殖表型在C群中占主导地位(补充图11A),当计算每个METABRIC样本的基因集得分时也观察到了同样的情况(补充图11A)。第11B条)。在B组中,EMT或增殖相关特征的平均基因集得分较高(补充图第11C)。在METABRIC组的样本水平上,我们观察到一个或另一个状态被激活的样本具有相似的模式(补充图11D)。簇A在EMT和增殖状态下得分较低(补充图。11E,F)。
②为了正式确定哪些基因集分数解释了B群,我们使用广义线性模型测试了每个基因集对B群和A群和C群的贡献。EMT信号与B群呈正相关,而增殖和细胞运动与A群和C群相关(图6c)。
③我们还测试了哪一个基因集分数解释了B组与A组(补充图12A)或C组(补充图12A)的比较。我们发现在这两个病例中,EMT评分是B组的一个重要解释变量。然而,根据Cox回归分析(补充表9),仅EMT特征评分并不具有很强的预后价值。总的来说,这些结果表明EMT与乳腺癌增殖之间存在相互排斥关系。他们还指出,只有当伴有某种免疫环境时,EMT或增殖表型才会导致不良预后。
10、肿瘤表型与免疫浸润的关系。
①由于免疫簇与(i)免疫细胞类型和(ii)基因集特征相关,我们正式评估了免疫浸润(CIBERSORT)和癌细胞特征(基因集分数)之间的关系。图6d显示增殖和EMT评分与不同类型的免疫细胞显著相关。
值得注意的是,高EMT分数与巨噬细胞M2、静息肥大细胞和静息记忆T细胞相关,而高增殖与更活跃的适应性肿瘤微环境(巨噬细胞M1、T辅助细胞、活化树突状细胞和活性记忆T细胞)相关。这些数据表明癌细胞表型和肿瘤微环境的组成之间是一个连续统一体
11、聚类B基因集得分的异质性
①B群主要是具有促肿瘤免疫浸润和高EMT信号的样本;然而,约35%的B群样本也表现出增殖表型。为了探索B群中的这种异质性,我们以无监督的方式根据基因特征分数将样本分组为B1,由EMT表型控制,B2由增殖控制(图6e)。
②在METABRIC和TCGA中,具有增殖表型的B2病例的预后较差(图6f,g,另见补充图13,其中B1和B2的存活概率用聚类a和聚类C绘制)
③为了进一步评估基因集核心的异质性是否伴随着免疫环境的异质性,我们寻求在亚群B1和B2之间特异性免疫细胞类型的差异。补充图14中的无监督聚类显示两个子聚类B1和B2都具有促肿瘤/静息免疫微环境
五、材料与方法
①使用所有管家基因和对数碱基2转换对数据进行标准化
2、Data collection and processing
①Expression data were obtained from Gene ExpressionOmnibus, the European Genome-phenome Archive, ArrayExpress, or TCGA dataportals.
3、基因富集分析:
usingthe Molecular Signatures Database v4.0 (MSigDB31) H and C2 collections.Enrichment was assessed by hypergeometric testing.
4、无监督聚类分析
Hierarchical clustering of patients’correlation matrix wasperformed using the R package pheatmap v1.0.12 using correlation as clusteringdistance and ward.D as linkage,Clusters were identified using the cutree function
为了确定每个队列的最佳聚类数,我们使用聚类R软件包对KMeans进行silhouette分析;对于所选的大多数队列,三个聚类比更多的聚类更好。
5、Nanodissect analysis, lymphoid and myeloid scores.
The algorithm Nanodissect was used as previously described to predict for lym-phoid and myeloid infiltration
6、Single-sample GSEA (GSVA).
使用GSVABioconductor软件包v1.30.033进行基因集分析。我们整理了各种上皮间充质转化、干细胞、增殖和细胞周期相关途径的基因集(补充数据3)。对于每个样本,使用基因表达谱获得一组基因的富集度得分。
6、Binomial logistic regression to predict immune clusters
我们通过glmnet v2.0–16R软件包使用二项半回归来开发一种方法,该方法允许将任何给定的样本分配给预后较差或无预后的组,而无需采用无监督聚类
这种预测方法对于较小的队列是高效的,并且允许将类分配给单个样本。为了进行分析,我们以均值为中心的数据集,并使用二项分布建立逻辑回归来预测两种可能的分类反应结果:处于预后不良组与否。这种方法提供了一个共同捕获与这两类相关变异的目标基因的特征(补充数据1)
7、ROR score calculation
ROR-Score=0.05 × Basal+0.12 × Her2-enriched−0.34 × Luminal A+0.23 × Luminal B; where Basal, Her2-enriched, Luminal A, and Luminal B are thecorrelation of each sample to the centroid obtained using the genefu package in R
8、Statistical, survival, multivariable Cox regression analysis.
统计学,生存率,多变量Cox回归分析。
Code availability
To reproduce all figures published in this study, we provide all codes and relevant data in a source data file. In addition, the code to subtype the immune clusters are available online at http://eurostar.nebdal.no:5000/ as well as the codes to subtype using R or python are available at https://github.com/dnebdal/clusterscore.