肝细胞癌中关键生物标志物的筛选和鉴定:来自生物信息分析的证据


摘要

肝细胞癌是世界上最常见的癌症之一。人们对其病因进行了大量的研究,但对其分子机制尚不清楚。从基因表达综合数据库(Gene Expression Omnibus, GEO)下载芯片数据集GSE19665、GSE33006和GSE41804,以确定肝癌发生和进展中的候选基因。鉴定差异表达基因(DEGs),并进行功能富集分析。构建蛋白-蛋白相互作用网络(PPI),并使用STRING和Cytoscape进行模块分析。共鉴定出273个DEGs,其中下调基因189个,上调基因84个。其丰富的功能和途径包括蛋白激活级联、补体激活、碳水化合物结合、补体和凝血级联、有丝分裂细胞周期和卵母细胞减数分裂。鉴定出16个中枢基因,生物学过程分析表明这些基因主要富集于细胞分裂、细胞周期和核分裂。生存分析显示,BUB1、CDC20、KIF20A、RACGAP1和CEP55可能参与了肝癌的发生、侵袭或复发。综上所述,本研究发现的DEG和hub基因有助于我们了解肝癌发生和发展的分子机制,为肝癌的诊断和治疗提供候选靶点。


介绍

肝细胞癌(HCC)是最常见的恶性肿瘤之一,主要由慢性乙型肝炎病毒(HBV)或丙型肝炎病毒(HCV)感染、肝硬化或酒精性肝病引起,全球每年新增病例呈上升趋势。与发达国家相比,部分东亚发展中国家的HCC发生率更高。越来越多的证据表明,异常表达和突变的基因参与了HCC的发生和发展,包括细胞周期蛋白D1 (CCND1),表皮生长因子受体(EGFR), c-myc和Ras,以及肿瘤抑制基因的突变。研究发现,CCND1基因外显子4的G870A多态性可能增加中国人群发生HBV相关HCC的风险。EGFR的慢性刺激在HCC的肿瘤转化和发展中起着关键作用。c-myc mRNA和蛋白在HCC不同的恶性阶段中均呈进行性增高。不同水平的Ras通路异常激活可能在HCC中发挥重要作用。此外,H-ras的过表达、B-Raf的DNA拷贝数增加和Ras结合蛋白的高甲基化与HCC患者不良预后有关。然而,由于缺乏有效的诊断方法在疾病的早期阶段,肝细胞癌的死亡率仍然很高。因此,准确了解HCC发生、增殖和复发的分子机制,从而制定有效的诊断和治疗策略至关重要。

近几十年来,微阵列技术和生物信息分析已广泛应用于基因组水平的基因改变筛选,帮助我们识别参与HCC发生和发展的差异表达基因(DEG)和功能通路。然而,独立芯片分析的假阳性率使其难以获得可靠的结果。因此,在本研究中,我们从Gene Expression Omnibus (GEO)中下载并分析了3个mRNA芯片数据集,获得了肝癌组织和非癌组织之间的差异基因。随后,我们进行了基因本体论(Gene Ontology, GO)、京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路富集分析和蛋白-蛋白相互作用(protein-protein interaction, PPI)网络分析,以帮助我们了解肿瘤发生和发展的分子机制。总之,共鉴定出273个DEGs和16个hub基因,这些基因可能是HCC的候选生物标志物。


结果

HCC中DEG的鉴定

对芯片结果进行标准化后,分别鉴定出GSE19665中的1558个、GSE33006中的1330个和GSE41804中的717个差异基因。3个数据集的重叠包含273个如维恩图(图1A)所示的基因,其中肝癌组织与非癌组织间下调基因189个,上调基因84个。
(这里的重叠基因数量和韦恩图中的总是让人迷惑)

图1 维恩图,PPI网络和DEG最重要的模块。(A)从GSE19665、GSE33006和GSE41804三组mRNA表达谱中筛选出fold change > 2和P-value < 0.01的DEGs。3个数据集显示273个基因重叠。(B)利用Cytoscape构建了DEGs的PPI网络。(C)最显著的模块来自PPI网络,共有15个节点,102条边。上调的基因用浅红色标记;下调的基因用浅蓝色标记。

DEG的KEGG和GO富集分析

利用DAVID进行了功能和pathway富集分析,以明确基因的生物学分类。GO分析结果显示,DEG生物过程(BP)的变化在蛋白激活级联、补体激活、防御反应、有丝分裂细胞周期和细胞周期过程中均显著富集(表Ⅰ)。分子功能(MF)的变化主要集中在碳水化合物结合、氧化还原酶活性、甘露糖结合、清道夫受体活性和单糖结合方面(表Ⅰ)。KEGG通路分析显示,下调的DEG主要富集在补体和凝血级联、糖酵解/糖异生和代谢通路中。而上调的DEGs主要富集于卵母细胞减数分裂、细胞周期和孕酮介导的卵母细胞成熟过程中。

PPI网络建设及模块分析

构建了DEG的PPI网络(图1B),并使用Cytoscape获得了最显著的模块(图1C)。利用DA VID对该模块相关基因进行功能分析。结果表明,该模块的基因主要富集于细胞分裂、有丝分裂核分裂和细胞周期(表Ⅱ)。

Hub基因选择与分析

共鉴定出16个等级≥10的hub基因。这些hub基因的名称、缩写和功能见表Ⅲ。利用cBioPortal在线平台分析中心基因及其共表达基因的网络(图2A)。hub基因的生物学过程分析如图2B所示。分层聚类显示,hub基因基本能够区分肝癌样本和非癌样本(图2C)。随后,采用Kaplan-Meier曲线对hub基因进行总体生存分析。具有 BUB1、CCNB2、CDC20、CDK1、KIF20A、KIF2C、RACGAP1 和 CEP55 改变的 HCC 患者的总生存期较差(图3A)。然而,发生BUB1、CDC20、KIF20A、NUSAP1、RACGAP1、PRC1和CEP55改变的HCC患者无病生存率更低(图3B)。

图2 hub基因的相互作用网络及生物学过程分析。(A)利用cBioPortal分析hub基因及其共表达基因。黑体轮廓的节点代表中心基因。黑色细轮廓的节点代表共表达基因。(B)利用BiNGO构建hub基因的生物学过程分析。节点的颜色深度是指本体校正后的p值。节点的大小是指本体中涉及的基因的数量。P<0.01认为有统计学意义。(C)利用UCSC构建hub基因的分层聚类。粉色条下的样本是非癌性样本蓝色条下的样本是HCC样本。基因的上调用红色标记;基因的下调用蓝色标记。

图3 (A)通过cBioPortal在线平台对hub基因进行总生存期和无病生存分析。P<0.05认为有统计学意义。

在这些基因中,TOP2A和CDK1的节点的度最高,有33个,提示它们可能在HCC的发生或进展中发挥重要作用。使用来自cBioPortal的数据,我们注意到TOP2A基因组改变相关的HCC患者总体生存率和无病生存率降低。然而,这些观察结果没有统计学意义(总生存期P=0.506,无病生存期P=0.124)。此外,CDK1改变与较差的总生存期显著相关,但与无病生存期无关(总生存期P=0.00111,无病生存期P=0.280)(图3B)。使用SAGE检测人组织中TOP2A和CDK1的表达谱。我们发现,与匹配的正常组织相比,大脑、视网膜、乳腺、胰腺、肝脏、肾脏、结肠和腹膜中的TOP2A mRNA水平较高(图4A)。与匹配的正常组织相比,大脑、视网膜、甲状腺、乳腺、胰腺、肝脏和前列腺的CDK1 mRNA水平较高(图4B)。Oncomine癌症与正常组织的分析表明,TOP2A和CDK1明显在肝细胞癌中不同数据集(图5 A和B)。在Wurmbach肝脏数据集, TOP2A和CDK1有更高的mRNA水平与肿瘤相关的等级, 肝炎病毒感染状态, 卫星和血管侵袭(图6A-H)。

图4 使用SAGE分析了(A) TOP2A和(B) CDK1在人类癌症中的表达谱。

图5 肿瘤与正常组织(A)TOP2A和(B)CDK1的合并症分析。临床肝细胞癌样本与正常组织中TOP2A和CDK1基因表达的热图1. 肝细胞癌与正常肝细胞癌的比较,中华医学杂志,2002(20)。2. 肝细胞癌与正常肝的比较,中华医学杂志,2010(21)。3.肝细胞癌与正常肝的比较,中华医学杂志,2010(21)。4. 《肝细胞癌与正常肝的比较》,《国际肝病》2007年第22期。

图6 在Wurmbach肝脏数据集中,TOP2A和CDK1表达与肿瘤分级、肝炎病毒感染状态、卫星和血管侵袭之间的关系。 (A-D)与正常肝组织比较,HCC中TOP2A mRNA的表达。(E-H)肝细胞癌样本中CDK1 mRNA的表达。


讨论

ACC与不良预后、有限的治疗选择和高肿瘤复发率有关。ACC的发病机制包括胰岛素样生长因子系统、Wnt/β-连环蛋白通路激活、TP53突变和与癌细胞侵袭特性和血管生成有关的预后分子标记物的改变,在阐明ACC的肿瘤发生和进展方面似乎非常有前景。然而,ACC的分子机制仍知之甚少。迫切需要识别与ACC肿瘤发生、进展和预后相关的生物标志物。

微阵列技术与生物信息学分析相结合,使研究人员能够探索基因改变,并已被证明是识别几种疾病中新生物标记物的有用方法,如肝细胞癌和肾上腺皮质肿瘤。在本研究中,共鉴定出228个DEG,其中14个被选为中心基因(度)≥10)。 生物学过程分析表明,这些hub基因在细胞分裂和有丝分裂细胞周期中显著富集,这表明细胞周期的去调控可能在ACC的肿瘤发生和发展中起关键作用。本研究还结合了各种数据库,以确定和验证ACC中hub基因的诊断和预后价值。Kaplan-Meier分析显示,AURKA、TYMS、GINS1、RACGAP1、RRM2、EZH2、ZWINT、CDK1、CCNB1、NCAPG和TPX2与总生存率和无病生存率呈负相关,表明这些基因可能在ACC的进展中发挥关键作用。

调节细胞周期和减数分裂,在儿童肾上腺皮质肿瘤中过度表达,表明其可能与更具侵袭性的疾病和不良预后有关,并可能有助于开发一种有趣的治疗ACC的方法。MAD2L1和CCNB1也被报道为区分ACC和腺瘤的潜在标志物。特别是,过度表达的CCNB1在G2-M期转换中失调了细胞周期,大多数实体瘤的存活率较低。类似地,在本研究中,肿瘤组织中MAD2L1和CCNB1的上调预测使用cBioPortal平台的ACC患者总体和无病生存率更差,这表明预后不良。CDK1通过与细胞周期蛋白B结合形成一种称为细胞周期蛋白B-CDK1的复合物,在调节细胞周期进程和介导Bcl-2磷酸化中发挥重要作用。在肾上腺皮质肿瘤中,CDK1过度表达与肿瘤抑制因子miR-7下调有关,这可能是抑制ACC进展的靶点。EZH2与ACC预后较差显著相关。Drelon等人最近的一项研究报告,EZH2作为一种去调节的组蛋白修饰物,可以去调节P53/RB/E2F途径的活性,并通过WNT信号调节促进细胞增殖,这可能是ACC的一个新的治疗靶点。此外,Yuan等人强调了TPX2、PRC1和RACGAP1作为ACC诊断和预后标志物的潜力,这与当前研究的假设一致。

虽然其他六个hub基因(TYMS、RRM2、ZWINT、GINS1、SMC4和NCAPG)尚未被广泛报道参与ACC的进展,但观察到它们与各种肿瘤有关。本研究通过肿瘤评估发现,ACC中TYMS、GINS1、RRM2、ZWINT和SMC4的mRNA表达水平高于正常组织。此外,ACC与正常组织的肿瘤分析显示,hub基因的上调与更高的Weiss分级显著相关。

在这六个hub基因中,在肺、胃、结直肠、肾细胞和前列腺癌中也报告了TYMS的高表达,这表明它可能是肿瘤诊断、治疗和预后的一个有价值的生物标记物。在目前的研究中,PPI网络表明,TYMS直接与其他枢纽基因相互作用,如CDK1、AURKA和PRC1,并且它可能通过调节细胞周期和多种信号通路影响细胞增殖。此外,TYMS的过度表达与更短的生存时间和更高的肿瘤Weiss分级显著相关,表明在ACC的肿瘤发生或进展中起关键作用。RRM2在DNA合成和细胞增殖中起关键调节作用。据推测,RRM2通过产生活性氧激活ERK1/2信号通路,并在人类宫颈癌中诱导HIF-1α和VEGF表达,从而促进血管生成,这与某些类型癌症的不良预后有关。ZWINT对有丝分裂检查点信号至关重要。最近的研究表明,ZWINT与PCNA、细胞周期蛋白B1、Cdc25C和CDK1等细胞周期蛋白的表达密切相关,可能被认为是肝细胞癌的潜在治疗靶点。在本研究中,GINS1,也称为PSF1,与更差的总体生存率显著相关,但与无病生存率无关。然而,PSF1在几种类型的癌症中高度表达。此外,之前的研究已经证明,PSF1基因的转录活性通过影响细胞周期和增殖与癌细胞恶性肿瘤相关,强调它是一种潜在有用的生物标记物,用于识别可能有不良预后的患者。据报道,SMC4参与肿瘤细胞的生长、迁移和侵袭。然而,它在ACC中的作用尚未完全阐明。在目前的研究中,尽管SMC4改变与更差的总体和无病生存率没有显著相关性,但hub基因的层次聚类和来自Oncomine的数据表明,它在ACC肿瘤发生中起着关键作用。NCAPG在细胞有丝分裂和减数分裂期间组织单个染色单体的卷曲拓扑,这与肝癌的进展有关。因此,有人推测它们可能在ACC的癌变和进展中起关键作用。

总之,本研究利用生物信息学分析确定并分析了ACC的关键生物标志物。结合两个数据库筛选228个DEG,并鉴定出14个hub基因,这些基因可能被认为是预测ACC的肿瘤发生和进展的强大且有希望的生物标记物。这些中心基因与肿瘤细胞增殖和细胞周期调控有关。值得注意的是,候选hub基因上调与较差的生存率和较高的Weiss分级有关;如果这些潜在基因被开发为新的有用的诊断和预后标志物,并阐明潜在的病理致病途径或相关信号靶点,这可能为进一步的临床分子靶向治疗实验和ACC诊断方法提供基础。然而,还需要进一步的研究来证实这些基因在ACC中的生物学功能和作用机制。


材料和方法

Microarray data

GEO (http://www.ncbi.nlm.nih.gov/geo)是一个公共功能基因组学数据仓库,提供高通量基因表达数据、芯片和微阵列。从GEO (Affymetrix GPL570平台,Affymetrix Human Genome U133 Plus 2.0 Array)下载3个基因表达数据集[GSE36668,GSE18520和GSE14407]。根据平台中的注释信息将探针转换为相应的基因符号。GSE19665数据集包含10个HCC组织样本和10个非癌性样本。GSE33006包含3个HCC样本和3个非癌样本。GSE41804包含20例HCC和20例非癌性样本。

Identification of DEGs

使用GEO2R (http://www.ncbi.nlm.nih.gov/geo/geo2r)筛选HCC和非癌样本之间的DEGs。GEO2R是一个交互式网络工具,允许用户比较一个GEO系列中的两个或多个数据集,以确定不同实验条件下的差异基因。调整P值(adj. P)和Benjamini和Hochberg假发现率被用于在发现有统计学意义的基因和假阳性限制之间提供一个平衡。分别取去无相应基因符号的探针组或取平均有多个探针组的基因。logFC(fold change) > 1和adj.P-value < 0.01被认为有统计学意义。

KEGG and GO enrichment analyses of DEGs

注释、可视化和集成发现数据库(DAVID;http://david.ncifcrf.gov) (version 6.7)是一个集成了生物数据和分析工具的在线生物信息数据库,为用户提取生物信息提供了一套全面的基因和蛋白质功能注释信息。KEGG是一个数据库资源,用于了解高通量实验技术产生的大规模分子数据集的高级功能和生物系统。GO是一种主要的生物信息学工具,用于注释基因和分析这些基因的生物过程。利用DAVID在线数据库进行生物分析,分析基因的功能。P < 0.05认为有统计学意义。

PPI network construction and module analysis

PPI网络的预测使用搜索工具检索相互作用基因(STRING;http://string-db.org) (10.0版本)在线数据库。分析蛋白质之间的功能相互作用可能为了解疾病的发生或发展机制提供线索。本研究使用STRING数据库构建DEG的PPI网络,综合评分>0.4认为交互作用具有统计学意义。Cytoscape(版本3.4.0)是一个开源的生物信息学软件平台,用于可视化分子相互作用网络。Cytoscape的插件Molecular Complex Detection (MCODE) (version 1.4.2)是一款基于拓扑对给定网络进行聚类以找到密集连接区域的APP。使用Cytoscape绘制PPI网络,使用MCODE识别PPI网络中最重要的模块。选取标准为:MCODE评分>5, degree cut-off=2, node score cut-off=0.2, Max depth=100, k-score=2。随后,利用DAVID对该模块中的基因进行KEGG和GO分析。

Hub genes selection and analysis

选择等级≥10的hub基因。利用cBioPortal在线平台(http://www.cbioportal.org)分析了这些基因及其共表达基因网络。利用Cytoscape的生物网络基因肿瘤学工具(BiNGO) (version 3.0.3)插件对hub基因的生物学过程进行分析并可视化。利用UCSC Cancer Genomics Browser (http://genome-cancer.ucsc.edu)构建中心基因的层次聚类。在cBioPortal中使用Kaplan-Meier曲线分析中枢基因的总生存期和无病生存期。采用在线数据库SAGE;http://www.ncbi.nlm.nih.gov/SAGE)。使用在线数据库Oncomine(http://www.oncomine.com)分析表达模式与肿瘤分级、肝炎病毒感染状况、卫星和血管侵袭的关系。


你可能感兴趣的:(肝细胞癌中关键生物标志物的筛选和鉴定:来自生物信息分析的证据)