Identification of Potential Key Genes for Pathogenesis and Prognosis in Prostate Cancer by Integrated Analysis of Gene Expression Profiles and the Cancer Genome Atlas
GEO数据和TCGA数据联合分析,构建与前列腺癌预后相关的基因标志物
发表期刊:Front Oncol.
发表日期:2020 Jun 1
影响因子:4.137
DOI: 10.3389/fonc.2020.00809
01—流程图
02—研究背景
目前,前列腺癌(PCa)严重威胁人类健康,是男性泌尿生殖系统常见危害之一。
最新的研究中显示,PCa的发病率和死亡率逐年上升,占生殖器官癌发病率和死亡率的90%以上。临床上最常用的前列腺癌检测标志物是血清前列腺特异性抗原(PSA),其特异性低,局限性大。因此,利用生物信息学构建前列腺癌诊断和预后标志物对前列腺癌患者的发病和预后具有重要意义。
芯片测序技术和高通量测序技术的发展为研究肿瘤的发生、发展提供了有效的手段,在筛选肿瘤诊断、治疗和预后的标志物方面得到了广泛的应用。
与此同时,为了解决不同测序平台或不同数据集中小样本的局限性,本研究作者将多个数据集进行整合,获得更多的临床样本进行数据挖掘,为筛选新的癌症生物标志物提供了巨大的巨大的潜能。
03—材料和方法
1.数据来源
-GEO数据库:下载三套芯片原始数据(表1),注释平台均为GPL570
表1. 三套GEO数据样本数据统计
-TCGA数据库:499个PCa组织样本和52个正常样本的RNA-seq表达数据以及相应的临床随访信息。
2.GEO数据预处理
-数据背景校正和标准化:RMA算法(生信人小工具实现)
-数据合并与去除批次:R软件包SVA
-去除缺失值:k近邻法(KNN)
3.数据分析
-差异分析:R软件包limma,R软件包edgeR,阈值:P<0.05和log2|FC|>2
-富集分析:R软件包ClusterProfiler进行GO与KEGG富集分析,阈值:P<0.05
-PPI分析:STRING数据库构建PPI网络分析,阈值:score>0.4,Cytoscape插件MCODE进行模块分析,Cytoscape插件ClusterProfiler进行GO富集分析
-Hub基因验证:GEPIA数据库验证hub基因mRNA表达水平,阈值:|Log2FC|>2, p<0.05
-生存分析:单因素Cox回归分析,多因素Cox回归分析,阈值:P<0.05,根据风险得分的中值将患者分为高低风险两组;R软件包survival和survminer用于生存分析,R软件包survival ROC计算模型的ROC曲线。
04—主要结果
1.筛选差异基因(DEGs)
--------
根据阈值P<0.01和log|FC|>2,在三套GEO数据集PCa组织和正常组织共获得547个DEGs,包括118个上调基因和429个下调基因(图1A-B),在TCGA-PRAD数据集中,共获得5817个DEGs,其中上调基因3141个,下调基因2676个。对GEO数据集和TCGA数据集差异基因取交集,得到397个差异基因,其中上调基因312个,下调基因85个(图1C-D)。
图1. 差异基因筛选结果
2.差异基因功能富集分析
--------
然后作者对在GEO和TCGA数据均存在差异的基因进行GO与KEGG富集分析,GO分析表明,这些DEG主要富集肌动蛋白结合,跨膜受体蛋白激酶活性,酒精结合,跨膜受体蛋白酪氨酸激酶活性等生物学功能(图2A)。KEGG富集分析表明,这些DEGs参与粘着斑,癌症蛋白聚糖合成过程,cGMP-PKG信号通路,Wnt信号通路和PI3K-Akt信号通路等统计(图2B)。
图2. 差异基因富集分析
3.PPI网络分析与hub基因验证
--------
将GEO和TCGA数据均存在差异的基因投入到SRTING在线数据库,构建蛋白质互作用网络(图3A),从图中可以得到包括381个节点和675个边。然后作者挑选出degree最大的10个基因,即:FGF2, FLNA, VCL, FLNC, CAV1, ACTC1, EZH2, BDNF, MYH6和MYLK(图3B)。进一步,作者使用Cytospace插件MCODE分析蛋白质互作网络中两个基因之间的联系,结果显示有了两个重要的cluster,其中一个cluster有13个节点和60个边组成,另一个cluster由23个节点和57个边组成(图3C)。
图3. PPI蛋白质网络分析
进一步,作者从TCGA-PRAD数据集提取10个hub基因的表达谱,分析这10个基因在正常组织和肿瘤组织中的表达情况(图4)。
图4. TCGA数据集中10个hub基因在肿瘤样本和正常样本中的表达情况
最后,作者对两个重要cluster进行GO富集分析,GO分析结果显示,cluster1中基因主要参与有丝分裂核分裂过程、细胞分裂过程、有丝分裂胞质分裂等功能;cluster2中基因主要参与谷胱甘肽转移酶活性、谷胱甘肽结合、寡肽结合、转移酶活性等功能(图5A)。通路富集分析结果显示,cluster1中基因主要参与主要富集在肌肉收缩、平滑肌收缩、信号转导、细胞外基质相互作用、信号转导诱导的细胞迁移和生长锥胶原等生物途径。cluster2中基因主要参与主要与生物途径有关,包括谷胱甘肽介导的解毒、A/1类(视紫红质样受体)、生物氧化等生物途径。
图5.模块中基因富集分析
4.GEPIA数据库验证hub基因mRNA表达水平
--------
使用GEPIA数据库进一步验证hub基因在正常组织与PCa组织中mRNA表达水平,结果如图6所示。从图中可以得出FGF2,FLNC,VCL,FLNA,CAV1,ACTC1,MYLK可能与PCa的发生和发展密切相关。
图6 GEPIA数据库hub基因在正常组织与PCa组织中mRNA表达情况
5.构建预后模型
--------
在TCGA患者的随访信息中,最长的随访时间为5024天,最短的随访时间为23天,平均随访时间为1088天。首先作者对DEGs进行单因素cox回归分析,共得到28个与预后显著的DEGs(p<0.05),然后使用多因素cox回归分析,得到7个基因即BCO1,BAIAP2L2,C7,AP000844.2,ASB9,MKI67P1,TMEM272,将这7个基因作为PCa患者的预后signature。在7个风险基因中,C7和BAIAP2L2的HR<1,为保护基因。AP000844.2,ASB9,MKI67P1和TMEM272的HR>1,为危险基因。作者在这里使用所有患者风险得分的中值将患者分为高低风险两组,其中有246位患者的风险得分大于中位风险得分的患者被分为高风险组,而其他小于风险得分的257位患者被分为低风险组(图7A),且高低风险组中患者的生存率随着时间的增加而减少。但是高风险组与低风险组患者的生存率差异较小,可能原因是和其他恶性肿瘤相比,前列腺癌的生存率较高。高风险组1年、3年、5年和10年的OS率分别为98.30%(95%CI=96.40-100%)、95.30%(95%CI=91.50-99.30%)、93%(95%CI=87.1-99.10%)和64.7%(95%CI=36-100%)。在低风险组1年、3年和5年的OS率为100%,10年的OS率为66.7%(95%CI=30-100%)。1年、3年、5年和10年的AUC分别为0.995、0.886、0.812和0.606,结果显示预后基因风险模型对患者的预后情况有良好的预测能力(图7C)
图7.构建基因风险模型
最后,作者分析了基因风险模型对不同年龄阶段,不同T分期,不同N分期患者生存结果的预测情况,结果显示基因风险模型对不同类型的临床特征患者均有良好的预测性能。
图8 基因风险模型对不同临床类型患者的生存结果预测性能