一套数据建立预后模型也能发4分+?


文章简介  ⏬ 

Development of an autophagy-related gene expression signature for prognosis prediction in prostate cancer patients

构建与自噬相关signature来预测前列腺癌患者的预后状态发表期刊:

J Transl Med   发表日期:2020 Apr 7影响因子:4.24DOI: 10.1186/s12967-020-02323-x

1. 流程图,在后台回复“20200706”获取 

2. 研究背景 

自噬是一个维持细胞内环境稳定的重要过程,也称为II型程序性细胞死亡,自噬过程发生异常与多种疾病密切相关,如免疫紊乱、神经型性疾病和癌症。

一些研究报告表明,自噬在癌症发展的不同阶段可能对肿瘤进展或肿瘤抑制发挥重要的作用。

前列腺癌(PCa)是泌尿系统常见的恶性肿瘤,在欧美地区男性相关癌症中死亡率排名第二。尽管,大多数早期PCa患者预后良好,死亡率较低,然而大量PCa患者对雄激素治疗(ADT)产生耐药性,导致生存时间较短。

研究发生自噬与前列腺癌的多种生物学过程之间有密切关系,然而,众多基因表达signature很少用来研究自噬与前列腺癌预后之间的关系。作者为了更了解肿瘤相关基因对临床结果的影响,基于癌症基因组图谱(TCGA)数据库,构建了一个基因signature,来预测患者的预后情况。

3. 材料和方法 

1.数据来源

特征基因集:234个自噬相关基因(ARGs),来源于人类自噬数据库(HADb)

表达谱矩阵:来源于TCGA数据,包括485个前列腺癌组织样本和51个相邻的非肿瘤组织样本。

临床生存信息:来源于cBioPortal数据库,包含OS和DFS

2.生物信息分析

差异基因分析:R软件包limma,阈值:|log2 (FC)|> 2 和FDR < 0.05.

富集分析:DAVID网站进行GO富集分析,阈值:FDR < 0.05.,R软件包ggplot2和GOplot进行可视化

3.构建预后模型

单因素cox回归分析、多因素cox回归分析建立预后模型,ROC曲线评估模型的预后性能

4. 主要结果展示 

1.肿瘤组织和正常组织样本中识别差异ARGs

作者首先从TCGA数据集中提取出234个ARGs,设定阈值:|log2 (FC)|> 2,在正常组织和PCa组织中共筛选出13个ARGs(图1A-C),其中包含5个上调基因(ATG9B、BIRC5、CAMKK2、CDKN2A和NKX2-3)和8个下调基因(DNAJB1、FAM215A、HSPB8、ITGB4、ITPR1、NRG1、NRG2和TP63)。


图1.筛选与自噬相关的差异基因

2.差异ARGs进行GO功能富集分析

使用DAVID网站对差异ARGs进行GO功能富集分析,结果显示这些基因在 autophagy、process utilizing autophagic mechanism和odontogenesis of dentin-containing tooth过程中显著富集(图2A-B)。

3.构建预后风险模型

作者首先将正常组织样本剔除丢,将485个带有OS和DFS生存信息的癌症样本用于构建预后模型。首先作者对ARGs进行单因素cox风险分析,结果显示有14个基因与患者的OS显著相关,然后作者对单基因显著分析的基因进行多因素cox回归分析,结果显示有5个基因(FAM215A,FDD,MYC,RHEB和ATG16L1)与患者的OS显著相关。

最后作者基于多因素cox回归分析建立了一个风险评分公式,

即 OS-risk score = 17.20896*FAM215A  +  4.319028*FADD  +  0.674838*MYC  + 1.869633*  RHEB +  2.071004* ATG16L1。

并且基于这个公式对485个PCa患者进行风险评分,并根据所有患者风险得分的中位数将患者分为高低风险两组,KM生存曲线显示低风险组患者的死亡率显著低于高风险组(HR = 6.391, 95% CI = 1.581–25.840, P < 0.001,图3A) 。ROC曲线显示模型AUC=0.84,说明风险模型对患者预后的预测具有高的准确性(图3B),TCGA数据集中患者的OS与风险得分、和基因表达量之间的关系如图3C-D。


图3. 构建与OS相关的风险模型

接下来,作者分析模型中每个基因对患者生存情况的影响,并根据基因表达值的中值将患者分为高低风险,结果显示5个基因中有3个基因能将患者分为高低风险两组(图4),即FAM215A (HR = 4.347, 95% CI = 1.175–16.290, P = 0.041)、FADD (HR = 7.009, 95% CI = 1.892–25.960, P = 0.031)和MYC (HR = 7.153, 95% CI = 1.932–26.470, P = 0.029),且高表达预后患者预后好。


图4.风险模型基因表达情况与患者OS的关系

进一步,作者利用TCGA数据集样本携带的DFS信息,分析了ARGs与患者DFS的关系。在单因素cox比例分析中有53个ARGs与患者的DFS显著相关,在多因素cox回归分析,有22个ARGs与患者的DFS显著相关。然后基于多因素cox回归分析建立了一个风险评分公式:

DFS -risk score = 0.97225*  ULK2  +  − 1.74297*  NLRC4  +  − 1.11799*  MAPK1  +  − 1.12182*  ATG4D  +  − 0.73348*  MAPK3  +  1.40252*  ATG2A  +  − 0.49364*  ATG9B  +  − 1.09886*  FOXO1  +  − 0.68955*  PTEN  +  1.80095*  HDAC6  +  − 0.99993*  PRKN  +  0.35846*  HSPB8  +  − 0.51552*  P4HB  +  1.56551*  MAP2K7  +  − 0.96348*  MTOR  +  1.65516*  RHEB  +  0.73934*  TSC1  +  0.27799*  BIRC5  +  1.43484*  RGS19  +  − 0.63037*  RAB24  +  − 0.28580*  PTK6  +  − 1.05312*  NRG2.

并且基于这个公式对485个PCa患者进行风险评分,并根据所有患者风险得分的中位数将患者分为高低风险两组,KM生存曲线显示低风险组患者的DFS显著低于高风险组(HR = 7.407,95%CI = 4.850-11.320,P <0.001,图5A) 。ROC曲线显示模型AUC=0.85,说明风险模型对患者DFS的预测具有高的准确性(图5B),TCGA数据集中患者的DFS与风险得分、和基因表达量之间的关系如图5C-D。

图5. 构建与DFS相关的风险模型

接下来,作者分析模型中每个基因对患者DFS的影响,并根据基因表达值的中值将患者分为高低风险,结果显示22个基因中有10个基因表达水平高患者预后好,且能将显著的将患者分为高低风险两组(图6),

即ATG2A (HR = 2.266, 95% CI = 1.492–3.442, P < 0.001), ATG4D (HR = 1.665, 95% CI = 1.096–2.530, P = 0.017), ATG9B (HR = 1.803, 95% CI = 1.187–2.738, P = 0.007), BIRC5 (HR = 2.013, 95% CI = 1.384–3.195, P < 0.001), MAPK3 (HR = 2.148, 95% CI = 1.414–3.263, P < 0.001), NLRC4 (HR = 2.053, 95% CI = 1.352–3.119, P = 0.001), RAB24 (HR = 2.811, 95% CI = 1.851–4.270, P < 0.001), RGS19 (HR = 2.019, 95% CI = 1.329–3.068, P = 0.001), RHEB (HR = 2.137, 95% CI = 1.407–3.245, P < 0.001), ULK2 (HR = 1.579, 95% CI = 1.039–2.399, P = 0.033), 和 TSC1 (HR = 1.622, 95% CI = 1.067–2.464, P = 0.024) 。


图6.风险模型基因表达情况与患者DFS的关系(高表达患者预后好)

有5个基因表达水平高患者预后差,且能将显著的将患者分为高低风险两组(图7),即 FOXO1 (HR = 2.087, 95% CI = 1.373–3.172, P < 0.001), HSPB8 (HR = 1.673, 95% CI = 1.101–2.541, P = 0.017), MTOR (HR = 1.897, 95% CI = 1.247–2.885, P = 0.002), NRG2 (HR = 1.944, 95% CI = 1.280–2.955, P = 0.002) 和PRKN (HR = 2.308, 95% CI = 1.518–3.508, P < 0.001)。


图7.风险模型基因表达情况与患者DFS的关系(高表达患者预后差)

4.风险模型对不同类型临床患者的预测性能

最后作者分析风险模型对不同临床类型的患者的预后情况进行预测,结果显示:OS相关的基因风险模型中,T3-4患者的风险得分比T1-2要高且两组之间存在显著差异(P = 0.008), Gleason得分大于7的患者的风险得分比小于7患者的风险的高且两组之间存在显著差异(P = 0.015),而在不同阶段的年龄和不同N分期患者的风险得分没有出现差异(图8)。


图8.OS相关预后模型对不同临床类型患者的预测性能

DFS相关的基因风险模型中,T3-4患者的风险得分比T1-2要高且两组之间存在显著差异(P<0.001), N1患者的风险得分比N2要高且两组之间存在显著差异(P<0.001),Gleason得分大于7的患者的风险得分比小于7患者的风险得分高且两组之间存在显著差异(P<0.001),而在不同阶段的年龄患者的风险得分没有出现差异(图9)。


图9.OS相关预后模型对不同临床类型患者的预测性能

好了,以上就是我对这篇文献的思考,希望对你们有一些帮助。

你可能感兴趣的:(一套数据建立预后模型也能发4分+?)