突变负荷纯生信分析套路 肿瘤新抗原突变负荷分析

今天跟大家分享的是七月份发表在Frontiers in Bioengineering and Biotechnology杂志(IF:3.644)上的一篇文章Characterization of Neoantigen Load Subgroups in Gynecologic and Breast Cancers,文章主要讲的是对TCGA的812个Pan-Gyn癌症样本,基于负荷百分比分成三个新抗原负荷亚组。然后分析这三个NAL亚组与基因表达、体细胞突变、DNA甲基化和临床病理信息的关联。甲基化TMEscore分析通过不同的免疫细胞富集、PD-1信号和细胞溶解活性对每个亚组进行了表征。最后预测了每个亚组对化疗和免疫治疗的反应。


Characterization of Neoantigen Load Subgroups in Gynecologic and Breast Cancers

妇科和乳腺癌新抗原负荷亚组的特征生信人WX公众号 

免疫检查点抑制剂(ICI)治疗,改变了晚期肿瘤患者的传统治疗方法。但患者对免疫治疗是有个体异质性的。已有工作证实肿瘤突变负荷(TMB)是免疫治疗后临床效益的预测性生物标志物。肿瘤新抗原(Neoantigen)是由肿瘤细胞突变基因编码的新生抗原,主要由基因点突变、删除突变、基因融合等产生的与正常细胞表达的蛋白不一样的新的异常蛋白。一般来说,高TMB患者有更多的新抗原。然而,目前还不清楚高新抗原负荷是否对多种人类肿瘤的临床效益有明显的预测作用。


一、摘要

虽然妇科和乳腺(gynecologic and breast,Pan-Gyn)癌症有许多相似的特征,但它们对免疫治疗的反应是不同的。免疫检查点抑制剂治疗并不是对所有患者都有效,而新抗原负荷(neoantigen load,NAL)可能是一个预测性的生物标志物。对于如何选择NAL 的cutoff点及其预测效果仍有待研究。本工作使用TCGA的812 个Pan-Gyn癌症样本,基于60%和80%的负荷百分比分成三组。然后分析NAL亚组与基因表达、体细胞突变、DNA甲基化和临床病理信息的关联。通过不同的免疫细胞富集、PD-1信号和细胞溶解活性对每个亚组进行了表征。最后预测了每个亚组对化疗和免疫治疗的反应。这三种亚组在生物学功能、遗传信息、临床变量和免疫浸润方面表现出差异。较高的NAL与较好的总生存期以及较高的免疫浸润和较低的肿瘤内异质性有关。此外还发现了一个lncRNA AC092580.4,它与两个显著不同的免疫基因(CXCL9和CXCL13)相关。本工作的新发现为泛妇科肿瘤的进展提供了进一步的见解,并可能为利用免疫疗法进行个性化治疗提供新的机会。

 

二、数据及方法

1. 样本及数据    

使用TCGA的Pan-Gyn肿瘤的突变数据(MAF文件)、DNA甲基化数据和RNA-Seq。共包括 2199 个肿瘤样本:1049个 BRCA、186个 CESC、419 个OV、488 个UCEC和57 个UCS。CIBERSORT算法筛选出931个p < 0.05的免疫相关PanGyn样本。从Firehose获取样本相应的临床和病理学样本。使用从TSNAdb中获取的NetMHCpan 2.8方法预测了4165种妇科肿瘤特异性潜在新抗原。

2.分析方法

(1)新抗原负荷评估

使用突变数据对肿瘤特异新抗原样本过滤,保留个812 Pan-Gyn样本。使用R包maftools对 MAF文件计算 Pan-Gyn NAL。根据不同的免疫状态选取60%和80%的新抗原负荷区间,获得163个样本的新抗原负荷高(NAL-H)组,161个样本的新抗原负荷中(NAL-M)组,488个样本的新抗原负荷低(NAL-L)组。

(2)RNA分析

首先将count值转化为FPKM ,然后过滤掉低表达的基因(在超过90%的样本中表达值低于1)。使用combat方法移除批次效应。使用R包limma计算不同亚组间的差异表达基因,限制FDR< 0.05,fold change大于2的为表达上调,小于0.5为下调。使用R 包 clusterProfiler的Gene Ontology (GO) 注释来对差异表达mRNAs的亚群进行注释。计算lncRNAs与 mRNAs的相关性,对于差异表达的lncRNAs,保留相关性大于0.6的。使用R包clusterProfiler中的基因集富集分析( GSEA),用与lncRNA高度相关的基因来预测这些lncRNA的功能。

(3)DNA甲基化和mRNA表达的整合分析

为识别表观的沉默或激活基因(epi-silenced/activated genes),将DNA甲基化和mRNA表达进行整合分析。即选择了NAL亚组中差异表达的甲基化探针,并排除了与mRNAs相关(相关性大于0.6)的探针。用R包limma对定义的亚群进行差异甲基化分析,FDR < 0.05。

(4)突变分析

使用MutSigCV来通过默认参数推断出显著的肿瘤突变基因(q < 0.05)。用R包limma对定义的新抗原负荷亚群进行差异突变分析,FDR < 0.05。根据hg19人参考基因组,分析了30个突变特征,并比较了所识别的亚组之间的突变特征。

(5)化疗应答预测

基于最大的公共药物基因组学数据库Genomics of Drug Sensitivity in Cancer (GDSC)来预测每个样本的化疗反应。选择了三种通用的和三种其他有用的药物:顺铂(cisplatin)、多西他赛(docetaxel)、紫杉醇(paclitaxel)、依托泊苷(etoposide)、长春瑞滨(vinorelbine)和吉西他滨(gemcitabine)。使用R包pRRophetic进行预测,其采用ridge回归估计样本的IC50,基于GDSC训练集通过10次交叉验证评估预测精度。

(6)统计分析

分类数据使用Fisher’s exact检验,连续数据使用Wilcoxon test (Mann–Whitney test)检验, log-rank检验绘制KM曲线,Cox回归分析计算hazard ratio (HR)。R 包survival进行生存分析。P<0.05为有统计学意义。

 

三、结果解析

1. 新抗原负荷亚组的不同功能通路

对三个亚组的差异表达分析识别出5个显著差异表达基因(CXCL9、CXCL13、IGLL5、AGR3和TFF3)。相比于NAL-L组,三个基因(CXCL9、CXCL13和IGLL5)在NAL-H和NAL-M 组均上调(图1A),这三个基因参与了免疫过程,比如T细胞运输,B淋巴细胞迁移和抗原结合。对这些基因的GO注释显示免疫相关条目的富集。KEGG通路分析显示这些基因参与了细胞因子-细胞因子受体相互作用、Toll-like受体信号通路和白细胞跨上皮迁移(图1B)。由GeneMANIA生成三个差异表达基因的遗传互作网络。图1C中不同的线和节点颜色表示不同的交互类型和不同的免疫相关功能。

接下来比较了lncRNA基因与上述三个基因的相关性,发现一个名为AC092580.4的lncRNA与CXCL9和CXCL13有强相关性,并在NAL-H和NAL-M组中显著上调(图1D)。为了更好地了解其功能,选择了与AC092580.4高度相关的37个基因作为一个基因集,使用GSEA对这个预先排序的基因列表进行分析(图1E)。该lncRNA的相关基因共富集了19个条目,如免疫相关细胞(如CD8 T细胞、CD4 T细胞、细胞和自然杀伤细胞)和通路(如淋巴细胞激活、白细胞激活、细胞死亡和免疫系统过程的正向调节)。

图1. 不同亚组的差异表达基因功能分析


二、新抗原负荷亚组的体细胞突变景观

在严格的q < 0.05阈值下,MutSigCV在所有Pan-Gyn样本中识别出30个显著突变基因(SMGs),包括18个有意义的新抗原基因位点(图2A)。所有突变基因在NAL亚组中体细胞突变的频率不同(FDR < 0.05)。突变频率前5位基因[TP53 (48%)、PIK3CA (33%)、PTEN(22%)、ARID1A(15%)和PIK3R1(12%)],描述了它们在NAL亚组中的分布(图2A)。这5个基因已经在之前一些研究中中报道过。然而,在TCGA所有妇科标志性文献中,没有ACVR2A的报道(18个显著差异的新抗原突变之一),ACVR2A是转化生长因子超家族的成员,在与肿瘤进展和抑制相关的通路中发挥作用。

接下来评估了30个突变特征,以更好地理解复杂的突变过程。得到5个差异显著的特征,分别是特征1、特征3、特征6、特征13和特征30(图2B)。NAL-H在特征6中富集,改特征与DNA错配修复缺陷有关,表明对检查点抑制剂敏感。NAL-M在特征3、13和30中富集,特征3与乳腺癌、胰腺癌和卵巢癌的生殖系和体细胞BRCA1和BRCA2突变密切相关。特征13表示胞苷脱氨酶的AID/APOBEC家族活性。在一小部分乳腺癌中观察到30的特征。NAL-L在特征1中富集,代表由5-甲基胞嘧啶的自发脱矿引起的内源性过程。

图2. 新抗原负荷亚组的体细胞突变特征

 

三、新抗原负荷亚组与临床结果的关系

相比于NAL-M 和 NAL-L,NAL-H的生存最好(图3A)。比较了亚组之间的临床协变量的差异(表1)。然后进行单变量Cox回归以确定影响患者结局的变量(图3B)。老年患者预后不良的风险增加(HR = 2.27)。BRCA、CESC、UCEC患者预后较好(HR分别为0.43、0.81、0.60)。肿瘤早期和较低的组织学分级有利于患者的预后。

图3.新抗原负荷亚组的生存分析及风险因素分析

表1.根据临床参数进行样本比较

四、与新抗原负荷亚群相关的免疫浸润差异

为获得进一步的免疫学见解,接下来进行了单样本GSEA,评估了几个免疫相关的特征。三个亚组之间的免疫富集有显著差异。如图所示,NAL-H和NAL-M在T细胞、B细胞和细胞毒性淋巴细胞中的适应性免疫浸润明显高,而NAL-L在嗜酸性粒细胞、NK细胞、肥大细胞和间化细胞(iDC)的先天免疫浸润中富集(图4)。这些亚群之间的差异有待进一步研究,具体来说,注意到NAL-H具有明显较低的ITH,这与早期发现的低瘤内异质性(intra-tumor heterogeneity,ITH)是检查点治疗良好反应的重要决定因素相一致。肿瘤内异质性与肿瘤突变负荷无关,它会影响肿瘤的侵袭性和免疫。high-ITH 肿瘤具有较强的免疫抑制肿瘤微环境。此外,NAL-H在辅助T细胞细胞中显著富集。最近一篇论文报道了肿瘤抗原的特异性活性CD8C和CD4C T细胞在免疫治疗中可诱导抗肿瘤反应。辅助T细胞的免疫反应是CD4C T细胞能够识别MHC II抗原,在抗肿瘤活性中发挥重要作用。


五、不同亚组的化疗和免疫治疗的差异反应

为了评估NAL亚组的传统化疗反应,使用GDSC细胞系数据集通过ridge回归训练了一个预测模型,并通过10倍交叉验证来评估预测准确性。基于6种化学药物的预测模型,估计了每个泛妇科肿瘤样本的IC50。确定了所有这些化疗药物亚组的IC50估计数的显著差异。NAL-H和NAL-M对这六种药物可能比NAL-L更敏感。具体来说,NAL-M对多西他赛、依托泊苷和紫杉醇的反应非常敏感,NAL-M主要由 basal-like乳腺癌(BLBC)组成。这一发现与报道的BLBC对化疗相对敏感一致,可能为优化治疗提供机会。接下来使用一些免疫标记来评估ICI治疗的反应。早期研究表明,高的免疫溶细胞活性(CYT)与显著的泛癌生存获益显著相关,并对于抗CTLA-4和抗PD-L1 免疫治疗有效。结果发现NAL-H和NAL-M中CYT显著升高,与PD-1信号特征基因的上调相对应(图4)。总之,CYT的存在、高免疫浸润和PD-1信号的存在可能提示NAL-H和NAL-M对免疫治疗有良好的反应,特别是ICI治疗。

图4.妇科肿瘤免疫浸润状态


六、进一步探究NAL-H和NAL-M的区别

基于以上分析,NAL-H和NAL-M在基因表达差异、免疫浸润水平、对治疗的反应等方面具有相似性。为了进一步了解这两个亚组之间的差异,通过差异表达分析,确定了74个显著差异基因,其中过表达基因34个,低表达基因40个(图5A)。GSEA分析显示,这些基因富集在15个条目,其中3个引起了研究人员的兴趣,包括在NAL-H中ESR1靶点下调,在NAL-H中ESR1上调,在NAL-M中马顿斯维甲酸反应上调。GO对ESR1的注释在 DNA-binding转录因子活性和相同蛋白结合。用火山图来显示这些基因在亚组之间的fold差异(图5B)。还比较了差异显著的DNA甲基化探针与上述74个基因之间的相关性。具体来说,发现了一个有趣的甲基化探针,名为cg17240454,与SPDEF显著负相关(图5C,D)

图5. NAL-H和NAL-M的差异基因和甲基化分析有分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)生信人WX公众号

总结:甲基化TMEscore分析

本工作使用TCGA的812个Pan-Gyn癌症样本,基于60%和80%的负荷百分比分成三组。然后分析这三个NAL亚组与基因表达、体细胞突变、DNA甲基化和临床病理信息的关联。通过不同的免疫细胞富集、PD-1信号和细胞溶解活性对每个亚组进行了表征。最后预测了每个亚组对化疗和免疫治疗的反应。这三种亚组在生物学功能、遗传信息、临床变量和免疫浸润方面表现出差异。较高的NAL与较好的总生存期以及较高的免疫浸润和较低的肿瘤内异质性有关。

你可能感兴趣的:(突变负荷纯生信分析套路 肿瘤新抗原突变负荷分析)