8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。

今天给同学们分享一篇泛癌+多组机器学习+分型的生信文章“Comprehensive characterisation of immunogenic cell death in melanoma revealing the association with prognosis and tumor immune microenvironment”,这篇文章于2022年9月23日发表在Front Immunol 期刊上,影响因子为8.786。
8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第1张图片

越来越多的证据突出了免疫原性细胞死亡(ICD)在许多肿瘤中的关键功能。然而,利用ICD治疗黑色素瘤的可能性和机制仍未得到很好的研究。

 

1. 数据处理

图1显示了一个流程图,总结了研究过程。分析包括来自TCGA数据库的472个黑色素瘤样本和来自GEO数据库的额外214个黑色素瘤样本(GSE65904)。在对TCGA和GEO数据集中的所有基因进行交集操作后,共找到了20,188个共同基因。值得注意的是,由于其生存数据不完整,37个TCGA黑色素瘤样本和4个GEO黑色素瘤样本被省略。总共,分别合并了435个TCGA黑色素瘤样本和210个GEO黑色素瘤样本的mRNA表达数据和生存数据。对于接下来的研究,包括了34个与ICD相关的基因。

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第2张图片

图1 本研究的工作流程

 

2. 癌症类型间与ICD相关的基因的mRNA表达及其预后意义

首先,图2A显示了与ICD相关基因的mRNA表达水平。在热图中,IFNG在CESC、KIRC和GBM中显示出明显升高的表达。IFNB1在BRCA和BLCA中显示出显著升高的表达,而IL6在BRCA和BLCA中显示出明显下降的表达。为了更生动地展示mRNA表达水平的差异的重要性,构建了一个显示-lg(pValue)的热图。相应肿瘤中mRNA表达变化越剧烈,颜色越红(图2B)。mRNA表达与生存期(OS)之间的单变量Cox回归分析结果区分了高风险的ICD相关基因(HR>1,p<0.05)和保护性的ICD相关基因(HR<1,p<0.05)。值得注意的是,CD4、FOXP3、CD8A、CXCR3、IFNG、PRF1、MYD88、ATG5、CD8B、IL1R1、TLR4、PIK3CA、TNF、CASP8和EIF2AK3在SKCM中显示出保护功能(图2C)。

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第3张图片

图2 ICD相关基因在泛癌中的概述

 

3. 不同类型的癌症中,CNV、SNV、ICD相关基因的甲基化以及受ICD相关基因影响的免疫相关通路

CNV、SNV和甲基化在各种癌症中存在。泛癌CNV的总结表明CNV在各种癌症中高频率发生(>5%)(图2D)。与ICD相关基因的SNV状态在UCEC中明显且引人注目。而PIK3CA在BRCA、COAD和UCEC中显示出更高的SNV。PIK3CA在UCEC中的突变频率接近50%(图2E)。确切地说,PIK3CA的SNV类型主要是错义突变(图2F)。值得注意的是,PIK3CA的甲基化在大多数癌症中没有意义(图2G)。事实上,ICD相关基因可能与许多免疫相关途径相关,如图2H所示。

 

4. NMF聚类识别出两种黑色素瘤亚型

根据与ICD相关的基因表达矩阵,进行了NMF聚类,并选择了最佳聚类数为2(图3A)。聚类1和聚类2之间的临床特征组成差异表明,这两个亚型在许多方面(如生存状态、癌症状态和肿瘤分期)在统计学上存在差异(图3B)。至于两个聚类中不同的生存状态,聚类2中的样本具有更好的DSS、OS和PFI(图3C-E)。

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第4张图片

图3 通过NMF聚类获得的不同簇亚型之间的临床特征、生存状况和肿瘤免疫微环境的比较

 

肿瘤免疫微环境也存在统计学上的差异。与免疫成分相关的较高的免疫评分存在于C2中。C2中的肿瘤纯度较C1差(图3F)。值得注意的是,不同亚型中的肿瘤浸润免疫细胞显示不同的百分比。C2中存在更多的抗肿瘤免疫细胞,如CD8 T细胞、活化的CD4 T记忆细胞、活化的NK细胞和M1巨噬细胞。至于促癌免疫细胞,C2中的M2巨噬细胞被下调(图3G)。两个亚型中的免疫检查点基因(ICGs)也存在差异。几乎所有的ICGs在C2中的表达都更高。值得注意的是,包括PD-1(PDCD1)、PD-L1(CD274)和CTLA4在内的常见免疫治疗靶点在C2中高度表达(图3H)。

 

5. ICD-DEGs的调查和ICDRS的构建

鉴于两个聚类亚型在统计上具有不同的生存状态和肿瘤免疫微环境,可以将这两个聚类区分开来。然后,确定了聚类1和聚类2之间的534个ICD-DEGs(附图1)。单变量Cox回归分析的结果显示,这534个ICD-DEGs中的237个可能用作预后预测因子。随后,通过LASSO回归分析消除了这237个ICD-DEGs之间的共线性,并避免了预后标志物的过度拟合。选择了3个ICD-DEGs进行进一步的多变量Cox回归分析。最后,使用多变量Cox比例风险回归分析结合3个ICD-DEGs(即GBP2、THBS4和APOBEC3G)开发了一个ICDRS。在R中应用“predict”函数计算了所有四个队列中黑色素瘤患者的风险评分,并使用训练集中的中位数风险评分1.0342095作为分割值将样本分为高风险和低风险亚群。

 

然后进行了主成分分析(PCA)和t-SNE分析,以确定黑色素瘤样本在低风险和高风险亚群中的整体分布情况。两个亚群中的患者可以有效区分(图4A、B)。生存分析显示,两个亚群中的样本对应不同的生存状态:高风险亚群的总生存率较低(p < 0.05)(图4C)。然后,通过热图展示了这三个ICD-DEGs在高风险亚群和低风险亚群中的表达水平:与低风险亚群相比,高风险亚群中GBP2和APOBEC3G的表达水平较低,而THBS4的表达水平较高(图4D)。此外,低风险和高风险亚群的肿瘤免疫微环境也存在统计学差异:高风险患者的免疫评分较低,但肿瘤纯度较高,与低风险患者相比(图4E、F);此外,免疫评分与风险评分呈高度负相关(R=-0.52,P=2.8e-16),而肿瘤纯度与风险评分呈中度正相关(R=0.39,P=2.5e-09)(图4G、H)。此外,ROC曲线下的曲线面积(AUC)值分别为0.922、0.763和0.696,对应0.5年、1年和2年的生存率(图4I)。

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第5张图片

图4 在列车队列中建立ICDRS

 

6. ICDRS在黑色素瘤中的内部和外部验证

首先,根据训练集的中位风险评分,将三个测试队列中的患者分别分组为低风险和高风险亚群。对于内部验证(测试1和测试2队列)和外部验证(测试3队列),通过T-SNE和PCA可以轻松区分两个亚群中的患者(图5A、B,图6A、B,7A、B)。同样,在三个测试队列中,高风险亚群的患者的生存率较差(所有p值<0.05)(图5C、6C和7C)。此外,从三个测试队列获得的热图显示高风险亚群中GBP2和APOBEC3G的表达减弱,而THBS4的表达增强(图5D、6D和7D)。同样,这三个队列中的肿瘤免疫微环境与训练集的结果相同(图5E、F,6E、F和7E、F)。此外,免疫评分在测试1队列(R=-0.4,p=1.2e-09)、测试2队列(R=-0.43,p<2.2e-16)和测试3队列(R=-0.6,p<2.2e-16)(图5G、6G和7G),而TumorPurity也显示出与测试1队列(R=0.25,p=0.00026)、测试2队列(R=0.29,p=5.2e-10)和测试3队列(R=0.39,p=5.2e-09)的风险评分存在显著正相关关系(图5H、6H和7H)。至于风险评分的诊断价值,ROC曲线的AUC值分别为0.768、0.767和0.673(测试1队列)、0.852、0.762和0.684(测试2队列)以及0.729、0.706和0.730(测试3队列),对应0.5年、1年和2年的生存率(图5I、6I和7I)。值得注意的是,内部验证(测试1和测试2队列)和外部验证(测试3队列)的所有结果与训练队列的结果一致。

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第6张图片

图5 ICDRS在test1队列中的内部验证

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第7张图片

图6 ICDRS在test2队列中的内部验证

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第8张图片

图7 ICDRS在test2队列中的内部验证

 

此外,同时考虑基于ICDRS的生存概率差异、AUC值和C指数,与其他三个标志相比,ICDRS在预后价值和诊断准确性方面表现出优势(图8)。根据AUC值,ICDRS在所有四个队列中表现出令人满意且稳定的性能。值得注意的是,由其他三个标志区分的不同风险亚群的生存概率差异有时显示出无统计学意义。而ICDRS的C指数高于其他三个标志,并分别为0.66、0.62、0.64和0.67在四个不同队列中。

 

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第9张图片

图8 ICDRS的比较分析

 

7. 基于ICDRS的四个队列中的免疫相关差异

鉴于低风险和高风险亚群中肿瘤免疫微环境的差异,本研究在所有四个队列中对免疫相关差异进行了更深入的探索。

 

首先,四个队列中低风险和高风险亚群中肿瘤浸润免疫细胞的共识差异表明,高风险亚群存在M1巨噬细胞和活化的CD4+ T记忆细胞浸润丰度较低,但M2巨噬细胞和静息的CD4+ T记忆细胞浸润较多(图9A-D)。随后,皮尔逊相关分析显示,在训练队列中,M1巨噬细胞的比例与风险评分呈显著负相关(R=-0.3,p=0.0037),在测试1队列中(R=-0.22,p=0.021),在测试2队列中(R=-0.23,p=0.0016),在测试3队列中(R=-0.31,p=0.00041)(图9E);M2巨噬细胞的百分比与风险评分呈显著正相关,在训练队列中(R=0.37,p=0.00026),在测试1队列中(R=0.35,p=0.00016),在测试2队列中(R=0.35,p=5.9e-07),在测试3队列中(R=0.56,p=2.2e-11)(图9F);活化的CD4+ T记忆细胞的比例与风险评分呈显著负相关,在训练队列中(R=-0.38,p=0.00018),在测试1队列中(R=-0.3,p=0.0014),在测试2队列中(R=-0.29,p=4.4e-05),在测试3队列中(R=-0.36,p=4.6e-05)(图9G);休息的CD4+ T记忆细胞百分比与训练队列中的风险评分呈显著正相关(R=0.3,p=0.0029),测试1队列(R=0.26,p=0.0048),测试2队列(R=0.24,p=0.00082)和测试3队列(R=0.25,p=0.0049)(图9H)。

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第10张图片

图9

 

此外,四个队列中低风险和高风险亚型中ICGs表达的差异显示,共有52个ICGs在高风险亚群中表达下降(图10A-D)。其中30个ICGs(HLA-A,BTLA,CD80,HLA-C,CD27,CD40,CD86,BTN3A1,HLA-DMB,CD96,HAVCR2,HLA-B,HLA-DMA,ICOS,HLA-DOB,LGALS9,PDCD1,HLA-DPB1,HLA-F,HLA-DOA,HLA-DRA,HLA-E,HLA-DQA1,IDO1,KIR2DL4,LAG3,PDCD1LG2,HLA-DPA1,HLA-DQB1和TIGIT)在四个队列中同时与风险评分呈中度负相关关系(所有R<-0.3,所有p<0.05)(图10E-H)。

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第11张图片

图10

 

接下来,与ICD相关的基因在低风险和高风险亚群中也存在差异。总共有17个与ICD相关的基因(ATG5,CASP1,CASP8,CD4,CD8A,CD8B,CXCR3,ENTPD1,IFNG,IFNGR1,IL1B,LY96,MYD88,NLRP3,PRF1,TLR4,TNF)在所有四个队列的高风险亚群中表达下降(图11A)。此外,低风险和高风险亚群中每个免疫相关通路的激活也不同。高风险亚型的免疫相关通路激活程度下降。在四个队列中,有21个通路在两个亚群中同时显示出统计学差异(图11B)。值得注意的是,6个与ICD相关的基因(CD8A,PRF1,IFNG,CXCR3,TNF,CD8B)在四个队列中与风险评分呈中度负相关(所有R<-0.3,所有p<0.05)(图11C-F)。在四个队列中,有20个中的21个统计学上不同的免疫相关通路(例如MHC I和II类介导的抗原呈递和处理、Toll样和NOD样受体信号通路、T细胞和B细胞受体信号通路、NK细胞介导的细胞毒性、IL-1、IL-2和IL-10相关的信号通路、PD-1和CTLA-4相关的通路)与风险评分呈中度负相关(所有R<-0.3,所有p<0.05)(图11G-J)。

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第12张图片

图11

 

8. 基于ICDRS的黑色素瘤免疫治疗反应预测和潜在药物治疗

最近的研究表明,基于免疫原性的IPS对免疫疗法的反应预测有所帮助。分析了在不同ICDRS亚群中使用抗PD-1抗体和抗CTLA-4抗体的反应概率。结果显示,高风险亚群的IPS较低,可能有较差的免疫疗法反应(图12A-C)。在高风险中,通过筛选标准为FDR < 0.05和log2 FC > 1在所有四个队列中,探索了上调的目标DEGs。根据四个队列中各自的潜在药物预测,以下31种药物作用于上调的目标DEGs:阿西替尼、布利万、西地那非、蟾蜍毒苷、达沙替尼、多维替尼、ENMD-2076、GTP-14564、HG-6-64-01、伊马替尼、利尼非尼、马西替尼、米多吡嗪、莫替西布、尼洛替尼、奥利司他、缩宫素、帕唑帕尼、苯基丁酸、PD-173074、奎扎替尼、RHC-80267、RO-08-2750、罗非昔布、塞马昔尼、索拉非尼、斯特罗凡丁、SU-11652、舒尼替尼和替伏替尼。其作用机制如图12D-G所示。

8+纯生信,多组机器学习+分型探讨黑色素瘤发文思路。_第13张图片

图12

 

总结

作者成功地将TCGA-黑色素瘤样本根据ICD相关基因的表达分为两个亚型,并基于两个亚型之间的差异表达基因(DEGs)开发了一个包含3个基因(即GBP2、THBS4和APOBEC3G)的预后ICDRS。ICDRS在训练队列、内部验证队列(测试1和测试2队列)以及外部验证队列(测试3队列)中展现出良好的诊断价值,并与不同的肿瘤免疫微环境相关。因此,基于三个ICD依赖的DEGs表达的ICDRS可能被应用于确定黑色素瘤的预后、M1/M2巨噬细胞的浸润、ICGs和ICD相关基因的表达水平,以及免疫相关通路的功能。这将有助于为个体化的黑色素瘤治疗进行患者分类。

你可能感兴趣的:(零知识证明)