使用深度学习开发癌症复发风险分层模型,可改善早期发现和推进早期干预(IF5+)

Deep Learning-Based Multi-Omics Integration Robustly Predicts Relapse in Prostate Cancer

基于深度学习的多组学整合有力地预测了前列腺癌的复发情况

发表期刊:Front Oncol

发表日期:2022 Jun 23

DOI:  10.3389/fonc.2022.893424

期刊相关信息

一、背景

        随着芯片和测序等先进技术在生物医学领域的发展和应用,数据积累正在呈指数级增长。结合最先进的算法,它正在揭示各种癌症的病理机制中强大的生物学关联。多组学数据整合技术已被广泛用于识别亚型,多项研究显示,深度学习(DL)方法可能有效地转化多组学数据,以构建更准确的预后模型。

        前列腺癌(PCa)是老年男性最常见的恶性肿瘤之一,占所有癌症的26%,占2021年男性癌症死亡估计数的11%。在PCa患者接受根治性前列腺切除术(RP)或外照射放疗后,27-53%的患者经历了生化复发(BCR)。结合手术边缘状态,临床应用的预后因素如前列腺特异性抗原(PSA)值、肿瘤结节-转移(TNM)状态和Gleason评分可以帮助评估前列腺切除术(RP)术后复发的风险。然而,这些参数缺乏预测的准确性。近年来,一些研究已经确定了PCa的分子亚型。基因组学、表观基因组学、转录组学和其他组学方法可以广泛定义为收集多种生物数据的系统方法,这些技术可以揭示肿瘤的异质性,提供新型的分子分类。

二、材料与方法

1.数据来源

1) 来自TCGA的多组学PCa数据,包括mRNA、miRNA、DNA甲基化、CNVs和lncRNA

2) 应用五个额外的验证集来评估表现最好的模型的预测稳健性:GSE70768为mRNA,GSE70768重新注释为lncRNA,GSE26367为miRNA,GSE26126为DNA甲基化,GSE21035为CNVs

2.实验流程

图1    流程图

三、实验结果

01 - 识别TCGA PCa样本中两个差异性复发亚群

        从TCGA PCa项目中共获得417个肿瘤样本,其中包括五个组学数据(mRNA、miRNA、DNA甲基化、CNVs和lncRNA)。在研究人群中,所有患者都因PCa接受了前列腺切除术,265人(63.5%)经历了BCR,152人(36.5%)没有。作者随后对这些数据进行了预处理。应用了自动编码器结构或DL框架,将这五种组学特征堆积在一起(图 1)。

        基于不同的隐藏层,构建了八个DL模型。然后对每个深度特征进行单变量Cox-PH回归,以验证与复发相关的重要性。使用K-means进行聚类分析,并使用10倍交叉验证(CV)来计算与复发有关的不同聚类的C-指数。结果显示,所有8个DL框架模型都产生了良好的C-指数值(>0.64),而这个值对于model_3和model_8来说是>0.75。

        使用从model_3和model_8得到的与复发有关的深层特征,分别采用了分组程序。然后用Kaplan-Meier绘图仪(KM图)来评估各亚组之间的复发差异。model_3的两个亚组显示出更显著的差异,一半患者的复发时间~3.5年(图2A,补充图1)。

补充图1      model_8 的显着生存差异

02 - 在五个独立验证组中评估复发情况

        选择特征标签并构建Lasso模型,有43个mRNAs、22个miRNAs、24个lncRNAs、30个甲基化基因和72个CNV基因。然后应用基因表达包括GEO数据库中的五个独立验证集来证明该模型对PCa复发结果的预测分类稳健性,每个验证集分别代表mRNA、miRNA、DNA甲基化、CNVs或lncRNA(图2B-F)。GSE70768数据集是一个有111名患者的mRNA验证集,两个PCa复发相关的亚组(低风险S1与高风险S2;图2B)之间的对数rank p值为4.46e-07。GSE26367 miRNA验证集包括150个样本,S1和S2之间的对数秩P值为0.000319447(图2C)。GSE26126 DNA甲基化验证集包括85个样本,两个亚组的对数rank p值为0.003265681(图2D)。GSE21035 CNVs验证集包括198名患者,两个亚组之间的对数rank p值极低,为0(图2E)。最后,GSE70768重新注释的lncRNA验证集在S1和S2之间的对数rank p值为0.017250485(图2F)。

图2     model_3和五个外部验证集的显著生存差异

03 - 复发亚组的DEGs分析

        通过DESeq2软件包对两个确定的亚组之间的DEGs进行鉴定,得到了1530个DEGs,包括S2亚组(高复发风险亚群)与S1(低复发风险亚群)相比,678个上调和852个下调的基因。这1530个基因归一化后的基因表达谱比较见图3A,结果以火山图(图3B)呈现。S2亚群中三个最明显上调的基因,即含von Willebrand因子a域的5B1(VWA5B1)、尿苷5'-二磷酸葡萄糖醛酸转移酶2B15(UGT2B15)和尿囊素II相关肽(URP,也叫UTS2B),都与遗传多态性有关。此外,还注意到下调的基因如CCK、NRAP和PAH。

图3 来自TCGA PCa样本的两个亚组的差异表达基因(DEGs)

        接下来,对明显上调或下调的DEGs进行GO和KEGG通路分析。上调基因的GO分析结果富含与癌症相关的细胞增殖术语,如细胞器裂变、核分裂、染色体分离、有丝分裂的核分裂、核染色体分离、细胞周期的中期/后期转变等(图4A),KEGG分析结果显示,上调的基因也参与了细胞周期,其他一些途径包括神经活性配体-受体相互作用、细胞周期、卵母细胞减数分裂、蛋白质消化和吸收也被高度富集(图4B)。GO分析显示,这些下调的基因在许多与肌肉相关的生物过程术语中富集,包括肌肉系统过程、肌肉器官/组织发育、肌动蛋白介导的细胞收缩、肌动蛋白-肌球蛋白丝滑动和肌纤维装配(图4C)。KEGG分析显示,DEGs在钙信号传导、IL-17信号传导、心肌细胞的肾上腺素信号传导、扩张型心肌病(DBM)、矿物质吸收、唾液分泌和其他方面富集(图4D)。

图4 上调和下调的基因的GO和KEGG富集度

        接下来,进行了基因集富集分析(GSEA),结果显示了几个恶性肿瘤的标志和途径,其中上调的前五个标志是E2F靶点、G2/M检查点、有丝分裂纺锤体、myc靶点v1和myc靶点v2(图5A),下调的前五个标志是顶端表面、雌激素反应早期、雌激素反应晚期、成肌作用和通过NF-kb的TNFA信号(图5B)。此外,还发现了几个恶性肿瘤的KEGG途径,其中上调的前五个途径是细胞周期、同源重组、错配修复、卵母细胞减数分裂和核糖体(图5C),下调的前五个途径是致心律失常性右室心肌病、心肌收缩、扩张型心肌病、谷胱甘肽代谢和肥大型心肌病hcm(图5D)。

图5 在Hallmarks和KEGG的GSEA富集分析(S2 vs S1)

        此外,热图显示了标志基因组的不同表达水平(图6A),柱状图进一步显示了基于基因集变异分析(GSVA)评分顺序(图6B)。5个标志基因组上调,13个标志基因组下调。

图6 在Hallmarks中的GSVA富集分析

04 - CNVs分析

        由于功能差异结果分析显示,同源重组和错配修复等DNA损伤修复途径在S2亚组中明显富集,作者比较了两个亚组之间的CNVs差异。结果显示,S2亚组中30.18%的基因明显上调,而两个亚组之间的其他基因没有发现明显的差异(图7A)。进一步分析不同染色体的基因拷贝数,S1亚组有265个样本,S2亚组有152个样本,结果显示,S2亚组的7号和8号染色体的基因扩增量明显大于S1亚组(图7B-H)。

图7 S1和S2的CNVs差异分析

        对CNV差异基因进行GO分析,结果显示蛋白质-DNA复合体亚单位组织,染色质组装、拆卸和沉默,核糖体组织,基因表达的负调控(表观遗传),以及DNA复制依赖的核糖体组装和组织被富集(图8A)。关于重叠的CNV差异基因和表达差异基因,443个基因表达水平发生了改变,其中190个上调,253个下调(图8B)。随后对上调的CNV基因进行GO分析,发现在染色体分离、核分裂、细胞器裂变、骨骼系统形态发生、有丝分裂核分裂等方面富集(图8C),而下调的CNV基因在肌肉系统过程、抗菌体液反应、细胞对锌离子的反应、甲状腺激素代谢过程中富集。有趣的是,体液免疫反应也参与其中(图8D)。

图8 CNV差异性基因的功能分析

05 - 肿瘤浸润性免疫细胞的分析

        作者计算并显示了两个复发风险明显不同的亚组的TCGA分析中每个样本的22个TIICs。热图显示了两个样本亚组之间TIICs的相对水平(图9A)。最后,四种类型的TIICs,即CD4幼稚T细胞、CD4记忆激活T细胞、单核细胞和M2巨噬细胞,在两个亚组之间有显著差异(图9B-E)。其中,M2巨噬细胞、CD4幼稚T细胞和CD4记忆激活T细胞在S2亚组中更为丰富,而单核细胞在S1亚组中更为丰富。

图9 S1和S2之间的免疫浸润分析

四、结论

        作者成功地构建了一个基于DL的预测模型,整合了五个组学的PCa复发,在两个亚组之间有明显的复发差异。此外,使用五个独立的omics数据集进行验证,证实了其稳健性。发现一些关键的基因组、途径和功能与PCa复发有关。该模型为区分复发风险患者提供了新的见解,由于其早期预测能力和随后的早期治疗干预,它可以使患者受益。

你可能感兴趣的:(使用深度学习开发癌症复发风险分层模型,可改善早期发现和推进早期干预(IF5+))