Predicting the Risk of Melanoma Metastasis Using an Immune Risk Score in the Melanoma Cohort
在黑色素瘤数据集中,用免疫相关的基因来预测患者的体内肿瘤瘤的转移状态
发表期刊:Front Bioeng Biotechnol
发表日期:2020 Mar 31
影响因子:5.12
DOI:10.3389/fbioe.2020.00206
01—分析流程图
02—研究背景
黑色素瘤是一种侵袭能力很强的癌症,虽然占皮肤癌的2%左右,但能很快的转移至淋巴结和远处器官,所以是皮肤癌中死亡人数最多的癌种。多项研究表明,手术切除原发性黑色素瘤的患者具有较高的治愈率,但是如果黑色素瘤已经转移至淋巴结或远处器官,会威胁患者的生命,其5年生存率仅为15%至20%。因此,迫切需要寻找黑色素瘤生物标志物,来预测黑色素瘤的转移。
免疫系统在肿瘤起始,进展和转移起的决定性因素,免疫细胞与癌细胞之间有复杂的相互作用,可以抑制、促进肿瘤的生长,现在认为癌症免疫逃逸是癌症的新兴标志。黑色素瘤是一种免疫原性癌症,可以通过在免疫微环境中产生可耐受的细胞因子和生长因子来抵抗对免疫系统的控制。因此,有几项研究说明,基因表达谱可以影响黑色素瘤患者预后,但很少有研究基因表达谱与黑色素瘤转移的关键。所以,本研究构建一个与免疫相关的风险评分,来预测黑色素瘤患者的转移情况。
03—材料与方法
1.数据来源
-----------
训练集:TCGA 470个样本(103个原发肿瘤样本+367转移肿瘤样本),
内部验证集:470名TCGA患者中有110名患者(65名原发肿瘤+45名转移肿瘤),这些患者是初次诊断为诊断为黑色素瘤的患者。
验证集:GSE8401,GSE15605和GSE46517
2.分析方法
-----------
差异分析:首先在表达矩阵中去掉在50%以上的样本中表达值为0的基因,然后使用R包limma在原发样本和转移样本中进行差异分析(FC > 2 or < 0.5, P value < 0.05, and FDR < 0.05),筛选与免疫相关的差异基因(IRGs),使用R包clusterProfiler进行KEGG分析。
建立预后模型:使用单因素和多因素logistic分析,识别与黑色素瘤转移风险相关的IRGs(P<0.05)。
评估模型的预测性能:使用ROC曲线和Precision-Recall curve(PR曲线)来评估模型的预测性能,
利用风险模型对临床信息进行预测:使用约登指数选择最佳的分险评分阈值,将患者分为高低分险两组,并用风险模型和其他临床信息一起构建logistic回归模型来预测黑色素瘤患者的生存状态,并绘制多变量列线图。
04—结果
1.TCGA训练集患者和内部验证集的临床信息展示,如表1所示:
-----------
表1 TCGA训练集的临床信息展示
2.识别与预后相关的风险基因(IRGs)
-----------
根据方法中提到的筛选条件,在TCGA数据集103个肿瘤原发样本和367个转移样本之间共筛选出124个与免疫相关的差异基因(火山图见图1A)。然后将差异基因进行KEGG富集分析,结果显示这124个差异基因富集了38个KEGG途径,主要功能是参与了黑色素瘤的转移,免疫代谢等与癌症相关途径(见图1B)。进一步,使用单因素和多因素logistic分析,最终识别出8个风险IRGs并构建了一个评分公式来预测黑色素瘤患者的转移情况。8个IRGs的多因素logistic分析结果如表2所示,免疫风险得分(IRS)、基因表达与患者是否发生黑色素瘤转移状态(见图1C-D)。
表2.8个IRGs多变量logistic分析结果
3.评估预后模型的预测性能
-----------
使用ROC曲线中的AUC来评估风险模型对黑色素瘤患者是否发生转移的预测性能,IRS的ROC曲线和PR曲线(如图2),结果显示,在TCGA训练集中,IRS对黑色素瘤转移的AUC为0.90 (95%CI 0.86–0.93),在内部验证集中,IRS对黑色素瘤转移的AUC为0.80(95%CI 0.71–0.89)。然后使用临床因素对黑色素瘤患者的转移情况进行预测并和风险基因模型的预测性能进行对比(表3),结果显示,风险模型对患者转移能力的预测情况要优于其他临床变量。
表3.免疫风险模型对黑色素瘤是否发生转移的预测预测能力
进一步,根据约登指数选择最佳的分险评分阈值(IRS=0.60),分析TCGA训练集与内部验证集患者的accuracy(准确度)、sensitivity(敏感度)、specificity(特异度)、positive predictive value(阳性预测值)、negative predictive value(阴性预测值)等统计指标(表4),进一步说明IRS预测的可靠性。最后,使用IRS的PR曲线分析TCGA训练集中与临床初步诊断黑色素瘤患者中,黑色素瘤转移患者的比例(图3A-B)。
表4.The summary statistics for IRS
4.IRS与黑色素患者的临床信息分析
-----------
使用相同的阈值(IRS = 0.60)将训练集和内部验证集分为低IRS组和高IRS组,并将年龄等临床变量和风险评分构成变量logistic回归模型,对黑色素瘤患者是否发现转移进行预测。结果显示,在加入了年龄作为协变量,在训练集样本中,高IRS组的患者比低IRS组的患者发生黑色素瘤转移的可能性高18.45倍,在内部验证集中也观察到相似的结果(表5)。最后在训练集和内部验证集中使用诺模图进一步评估风险模型的预测性能(图4)。
表5.临床因素与IRS综合预测黑色素瘤的转移情况
5.外部数据集验证
-----------
为了验证模型的鲁棒性,使用三套GEO数据集(即GSE8401,GSE15605和GSE46517)作为外部数据集来验证风险模型,作者使用这些数据集来评估IRS对黑色瘤患者是否发现转移进行评估。结果显示三个外部数据集具有很高的AUC,进一步使用单变量logistic回归分析估算三个数据集了OR值(表6),最后PR曲线分析还显示IRS可以增加对黑色素瘤患者是否发生的预测能力(图2C–E)。
表6.外部数据对风险模型的验证
05—结果图展示
图1.识别与免疫相关的分线模型
图2. IRS的ROC曲线和PR曲线
图3.风险评分PR曲线
图4 列线图
06—结论
在TCGA黑色素瘤数据中,提取出与免疫相关基因的表达谱,在原发肿瘤样本和转移肿瘤样本筛选出124个与免疫相关的差异基因,通过单因素多因素logistic分析构建了8个基因风险模型来预测黑色素瘤患者是否发生转移,并用三套外部数据进行验证。