纯生信分析套路 5+TF-lncRNA肿瘤调控网络构建

今天跟大家分享的是五月份发表在Frontiers in Bioengineering and Biotechnology(IF:5.122)杂志上的一篇关于TF-lncRNA调控网络预测卵巢癌患者临床结果的文章。

Dynamic TF-lncRNA Regulatory Networks Revealed Prognostic Signatures in the Development of Ovarian Cancer

动态TF-lncRNA调控网络揭示卵巢癌发展的预后标志

卵巢癌(OC)的病理发展是一个复杂的过程,取决于编码和非编码基因的多种改变。因此,重要的是在OC发展过程中确定转录调节事件,并确定可靠的标志物来预测患者的临床结果。研究分析了TCGA的399个处于不同阶段的卵巢浆液性囊状腺癌患者的数据集。通过整合高通量RNA分子概况和TF结合信息,构建了阶段特异性转录因子(TF)长非编码RNA(lncRNA)调控网络。进行系统分析,表征OC不同阶段的TF-lncRNA调节。使用Cox回归分析和Kaplan-Meier生存曲线评估TF-lncRNA调控的预后效率。研究揭示了TF-lncRNA调控网络的拓扑性质和动态原理,为进一步分析OC的特定阶段调控机制提供了可能。


材料和方法

1.OC mRNA和lncRNA表达数据集

从先前的研究得到包括编码和非编码RNA的全基因组转录本表达谱,GENCODE(v19)下载编码mRNA和lncRNA的转录物注释,最后从RNA测序数据中鉴定出29,250个mRNA和10,412个lncRNA。另外两个独立的OC数据集(GSE26193和GSE9891)从GEO下载。使用Affymetrix Human Genome U133 Plus 2.0 Array平台测试两个微阵列数据集(http://gaptechsxr.mikecrm.com/1vdMmqy)。为了从微阵列数据集获得lncRNA和mRNA表达,使用SeqMap软件将探针序列映射到GENCODE(v19)的人类基因组中。如果将多个探针定位到同一基因,则计算表达均值。

2.OC患者临床特征

从TCGA下载OC患者的临床和病理特征。保留具有临床随访信息的399例患者(包括20个II期,318个III期和61个IV期)的子集用于生存分析(表1)。


表1 卵巢癌患者的临床病理特征(n = 399)

3.TF-lncRNA调控相互作用

从UCSC下载基于转录因子结合位点multiz46way比对的位置和保守评分。对每个lncRNA,保守的转录因子结合位点的基因组位置被定位到启动子区域。从ENCODE下载共690个不同细胞系和组织中的ChIP-Seq数据集。使用PeakSeq方法计算测序读数的峰,保留位于启动子区域的峰。通过整合保守转录因子结合位点和ChIP-Seq数据集的TF-lncRNA关系,获得151个TF和3,981个lncRNA之间58,119个潜在的TF-lncRNA相互作用。为了确定实际的TF-lncRNA调控关系,在不同的OC阶段进行共表达分析。根据每个潜在的TF-lncRNA对在II,III和IV期患者中的表达谱,计算Pearson相关系数。使用P> 0和FDR<0.05作为阈值来确定TF和lncRNA之间的正相关关系。

4.网络图和拓扑分析

通过Cytoscape内置的网络分析器工具分析拓扑属性,例如节点度,拓扑系数和中间性。biclique模块是一个完整的二分图,其中所有TF与所有lncRNA连接。使用R包确定了TF-lncRNA调节biclique,用于枚举最大的完整二分图。

5.TF-lncRNA相互作用的活性得分

对于TF-lncRNA相互作用,将OC各个阶段的共表达系数用作活性评分,并通过z评分法将其标准化。

6.TF-lncRNA相互作用和群体的特异性得分

每个TF-lncRNA相互作用在OC的不同阶段的特异性由特异性得分决定。对于TF-lncRNA调控集团,通过其中所有TF-lncRNA关系特异性得分平均值评估特异性。

7.风险评分模型的构建

为了评估TF-lncRNA集团预测OC患者生存率,将399例OC患者随机分为两组,分别作为训练(n = 200)和测试(n = 199)数据集。两组患者的临床特征无显著差异(表1)。使用单变量Cox回归分析评估每个TF和lncRNA的存活率和表达水平之间的关联。根据单变量Cox回归分析中系数加权表达值的线性组合,计算每个患者的风险评分。

8.功能分析

使用基于Enrich网络的工具(http://amp.pharm.mssm.edu/Enrichr/)对TF和lncRNA进行功能注释。可以通过分解零分布来计算模糊的P值富集得分。

9.统计分析

绘制不同组患者的Kaplan-Meier生存曲线,并使用logrank检验评估统计学显著性(P <0.05)。在两组OC患者中,考虑和评估了几种OC临床病理因素(例如分期,年龄,组织学等级类型和生存状态)的显著差异(卡方检验或t检验)。基于不同OC阶段的调节活性,使用K均值聚类方法将TF-lncRNA关系分为不同的组。Jaccard系数用于评估两个TF-lncRNA集团之间的相似性。


结果和讨论

1.OC发展中特定阶段TF-lncRNA调控网络的构建

在151个TF和3,981个lncRNA之间获得了58,119个潜在的TF-lncRNA相互作用(图1A)。根据每个潜在的TF-lncRNA对在不同阶段的表达值,计算出Pearson相关系数(图1B)。最后构建了阶段特异性的TF-lncRNA调控网络(图1C)。特定阶段的网络大小不同,表明OC发育过程中TF-lncRNA相互作用的异质性。


图1 OC特定阶段TF-IncRNA调控网络的构建


2.特定阶段TF-lncRNA调控网络的共同和特定特征

基于特定阶段的TF-lncRNA调控网络,对网络结构和拓扑特性进行了分析。检查TF和lncRNA节点的度分布,观察所有阶段网络中的幂律分布(图2A–C)。在每个阶段,TF结点的度值均明显高于lncRNA结点,表明在TF协同调节和lncRNA多重性方面复杂的组合。TF和lncRNA节点的拓扑系数与邻近数之间的负相关(图2D-F),该结果表明TF-lncRNA调控网络具有分级模块化和子网。此外,在TF-lncRNA网络中发现了一些熟知的TF和lncRNA,它们显示出更高的中间中心度和程度值(图2G–I)。


图2阶段特异性TF-lncRNA调控网络的拓扑特性


3.TF-lncRNA调控的动态活性分布

为了评估OC进展期间常见和特定TF-lncRNA关系的比例,探索了三个阶段特异性网络之间TF,lncRNA的重叠及其调节关系。OC的所有三个阶段共有超过90%的TF(图3A),而这三个阶段只有大约28%的lncRNA是共有的,这表明lncRNA在时间上比TF更具特异性(图3B)。在这三个阶段中仅保留了1.8%的TF-lncRNA关系,他们中的大多数只涉及一个阶段(图3C)。为了提供所有可能的TF-lncRNA关系及其动态调节状态的概述,建立了跨不同OC阶段的TF-lncRNA关系的活性分布(图3D)。结果显示了在OC的不同阶段中TF-lncRNA相互作用的高度特异性。


图3 OC进展动态的TF-lncRNA相互作用


4.特定阶段TF-lncRNA关系的功能表征

对于每组lncRNA,发现了不同OC阶段的一系列常见功能和特定功能。功能注释结果表明,a组中的lncRNA在OC早期参与了不受控制的肿瘤细胞生长和发育过程(图4A)。对于IV期患者的c组,在富集中发现了硫酸软骨素的生物合成通路和过程(图4B)。对于d组,富集了一系列免疫细胞激活和分化过程,包括调节B细胞激活和巨噬细胞分化(图4C),e组与FGFR配体结合和激活通路相关(图4D)。


图4阶段特异性TF-IncRNA调节基团的功能分析


5.与癌症标志相关的动态TF-lncRNA调控分子的鉴定

基于每两个对之间的相似性,建立了这前50个集团的聚类图(图5A)。这些集团通常分为五个集群,研究发现不同集团的簇与广泛的癌症标志(图5B)相关联,这些标志已被确定可促进肿瘤的生长和转移。建立一个风险模型来评估这50个高度特异性的TF-lncRNA预后效率。每个集团的危险比和相应的置信区间如图5C所示。为了说明哪些TF参与了这些集团,构建了一个显示TF频率的云图(图5D)。这些发现表明,高度特异性的TF-lncRNA在OC肿瘤发生中起关键作用,并且可能是潜在的预后标志物。


图5 TF-lncRNA调节与癌症相关


6.STAT3-FOS调节TF-lncRNA的生存分析

在TF-lncRNA(图5A中)中,发现TFs STAT3和FOS选择性调节不同的靶lncRNA,包括两种已知的OC风险lncRNA,MALAT1和NEAT1(图6A-C)。在训练数据集中,风险中位数被用作将患者分为两个亚组的阈值(图6D–E)。Kaplan-Meier生存分析显示,训练数据集中两个亚组患者之间的生存差异显著(图6F)。接受测试的患者分为高风险和低风险亚组(图6G–I)。通过单因素和多因素分析评估了与其他已知临床和病理风险因素的预后关联,除了已经是已知的OC危险因素的患者年龄(表2)之外,STAT3-FOS与单变量生存率也显著相关(表2)和多因素分析(表2),表明该集团潜在的独立预后能力。

表2 399例OC患者临床病理因素和STAT3-FOS的单因素和多因素分析


图6 STAT3-FOS调节TF-lncRNA分子的生存分析

7.两个独立的数据进一步验证预后

为了进一步测试STAT3-FOS群体的预后效率和应用范围,收集了另外两个独立的OC数据集(GSE26193和GSE9891),并对其应用了相同的生存风险模型。单变量Cox回归分析表明,它与GSE26193和GSE9891的数据集显著相关。Kaplan-Meier生存分析表明,它可以将107例GSE26193数据集的患者分为高危和低危亚组(图7A,B)。此外,该TF-lncRNA群体还可以将278例GSE9891病人分为具有不同生存期的两个亚组(图7C,D)。这些结果表明,STAT3-FOS系可以用作OC的潜在预后因素。


图7在另一个独立于两个数据集中的STAT3-FOS调节TF-lncRNA的生存分析

结束语

该研究通过分析TCGA卵巢癌患者数据集,整合高通量RNA分子和TF结合信息,构建了TF—lncRNA调控网络,进行系统分析表征OC不同阶段的TF-lncRNA调节行为,使用Cox回归分析和Kaplan-Meier生存曲线评估TF-lncRNA调控的预后效率。这种研究套路相对完整,条理清晰,值得借鉴。

你可能感兴趣的:(纯生信分析套路 5+TF-lncRNA肿瘤调控网络构建)