Front Oncol. 2019; 9: 1054.
Published online 2019 Oct 18. doi: 10.3389/fonc.2019.01054
PMCID: PMC6813197
PMID: 31681590
Identification of Candidate Biomarkers and Analysis of Prognostic Values in Oral Squamous Cell Carcinoma
目的:口腔鳞状细胞癌(OSCC)是最常见的口腔癌,由于对其疾病机制的了解有限,预后较差。本研究的目的是通过综合生物信息学分析探索和鉴定 OSCC 中的潜在生物标志物。
材料和方法:从癌症基因组图谱 (TCGA) 下载长链非编码 RNA (lncRNA)、微小 RNA (miRNA) 和信使 RNA (mRNA) 的表达谱,随后通过生物信息学分析在 OSCC 中鉴定出差异表达的 RNA (DERNA)。使用基因本体论 (GO) 和京都基因和基因组百科全书 (KEGG) 通路分析来分析 DERNA。然后,在Cytoscape中构建竞争性内源RNA(ceRNA)网络,并在STRING数据库中建立蛋白质-蛋白质相互作用(PPI)网络。我们在DElncRNAs的基础上用Kaplan-Meier分析并结合logrank p检验建立了预测OSCC总体生存的风险模型。此外,我们通过将单变量 Cox 回归与总生存率相结合,确定了潜在的生物标志物,
结果:共发现 1,919 个 DEmRNA、286 个 DElncRNA 和 111 个 DEmiRNA 在 OSCC 中失调。一个ceRNA网络包括46个DElncRNAs、7个DEmiRNAs和10个DEmRNAs,PPI网络包括712个DEmRNAs,包括31个枢纽基因。此外,建立了7个lncRNAs风险模型,并确定了4个基因(CMA1、GNA14、HCG22、HOTTIP)作为OSCC患者总生存期的生物标志物。
结论:本研究成功构建了在 OSCC 中起关键作用的 ceRNA 网络和 PPI 网络。建立了预测预后的风险模型,揭示了 OSCC 患者总生存期的四种 DERNA,表明它们可能是肿瘤诊断和治疗的潜在生物标志物。
关键词:竞争性内源 RNA,蛋白质-蛋白质相互作用,长链非编码 RNA,生物标志物,口腔鳞状细胞癌
DEmRNA、DEmiRNA 和 DElncRNA 的鉴定
口腔鳞状细胞癌 (OSCC) 中差异表达基因的分布(|log2FC| > 2.0 和调整后的P值 < 0.01)在 316 个肿瘤组织和 32 个正常组织之间。热图中的升序归一化表达水平从绿色变为红色。红色表示基因上调,绿色表示下调,黑色表示正常表达。此外,每一列代表一个样本,每一行代表一个差异表达的基因。热图绘制了 1919 个 DEmRNA (A)、192 个 DElncRNA (B)和 111 个 DEmiRNA (C)。与热图类似,红色代表上调,绿色代表下调,黑色代表火山中的正常表达。每个点代表一个基因。
DERNA 的 GO 和 KEGG 通路分析。(A)每个 GO 类别中富集的基因数量。y 轴代表 GO 类别,包括生物过程、细胞成分和分子功能,x 轴代表富集分数。此外,颜色代表p值。(B) GO 分析包含生物过程(BP,绿色)、细胞成分(CC,蓝色)和分子功能(MF,紫色)。y 轴代表目标基因,x 轴代表生物过程。(C) DERNA 中最重要的通路。y 轴代表通路,x 轴代表富集的基因数,颜色表示调整P值。(四)KEGG 通路的 Netplot,表示不同通路中基因的平均富集情况。与节点相邻的数字代表基因 ID。
基于 DEmRNA 的蛋白质-蛋白质网络 (PPI) 的综合评分 > 0.90。(A)列出了 31 个拥抱基因,因为在 PPI 网络中度数 >25。(B)加入 PPI 网络的 DEmRNA 的模块分析,使用标准切割。高度 = 0.8,最小尺寸 = 10。相同颜色表示属于同一个模块。在 Cytoscape (C-E)中可视化了 3 个模块。节点之间的连接表示不同mRNA之间的潜在相互作用,红色代表PPI网络中的枢纽基因。同时,在 DAVID 中对 3 个模块进行了 GO 和 KEGG 分析
CeRNA 网络在 Cytoscape (A) 中可视化。黄色代表 miRNA 上调和紫色下调。红色表示 lncRNA 上调和绿色下调。mazarine 表示 mRNA 上调和蓝色下调。灰色边缘表示 lncRNA-miRNA-mRNA 相互作用。(B) DEmiRNAs 的维恩图可能靶向 DEmRNAs。
Cox回归模型的建立与验证. (A)与 OSCC 总生存相关的基因的 LASSO 系数谱。(B) 将偏似然偏差与 log(c) 作图。垂直虚线表示具有最小误差和最大 lambda 值的 lambda 值,其中偏差在最小值的一个 SE 内。(C)基于风险评分模型的森林地图。左侧垂直虚线表示保护基因和右侧风险基因。(D)风险评估模型概述。y 轴代表百分比,x 轴代表 log2(风险评分)。(E)基于生存时间和 log2(风险评分)的散点图。红色代表死亡,绿色代表生命。log2(风险评分)越高,生存时间越短。(F) 纳入风险模型热图中的差异表达 lncRNA。
将 Kaplan-Meier 生存分析与单变量 Cox 回归相结合,筛选 OSCC 患者的生物标志物。三个保护基因 GNA14 (A)、CMA1 (B)和 HCG22 (C)以及风险基因 DKK1 (D)、HOXC6 (E)和 HOTTIP (F) 的Kaplan-Meier 生存曲线和 GEO 基因表达谱分别为与 OSCC 的总生存期相关。GNA14:G蛋白亚基α14;CMA1:糜酶 1; DKK1:dickkopf WNT信号通路抑制剂1;HOXC6:同源盒C6;热点提示:HOXA 远端转录反义 RNA;HCG22:HLA 复合物组 22。
生物标志物验证. 2 种 mRNA、GNA14 (A)和 CMA1 (B)以及 2 种 lncRNA HCG22 (C)和 HOTTIP (D)在 5 个 OSCC 细胞系和 49 对邻近组织和肿瘤组织中的表达水平。HOK 用作控制。然后,使用 Kaplan-Meier 分析以及 logrank p 来比较低表达组和高表达组的存活率。然而,DKK1 (E)和 HOXC6 (F) 的mRNA 水平在 OSCC 组织中没有显示出差异。* p < 0.05;** p < 0.01;*** p < 0.001;**** p < 0.0001。