文献翻译Identification of potential cancer-related pseudogenes in lung adenocarcinoma based on ceRNA h...

ABSTRACT

假基因最初被认为是由于在进化过程中失活基因突变而导致的非功能性基因组。然而最近有研究证明假基因远非沉默,通过体内microRNA海绵的功能调节蛋白质编码基因的表达。我们的研究目的是提出一种综合系统生物学方法,以基于竞争性内源RNA(ceRNA)假说鉴定疾病假基因。在这里,我们将我们的方法应用于来自TCGA的肺腺癌(LUAD)RNASeq数据并鉴定了33个候选假基因。我们描述了候选假基因的特征并进行了功能富集。通过分析邻近基因,我们发现这些假基因被肿瘤基因包围并可能涉及肿瘤通路。此外,DNA甲基化分析表明21种假基因与其竞争性mRNA共甲基化。在共甲基化网络中,我们发现了6个差异表达的假基因,我们将其称为潜在的LUAD相关假基因。我们进一步揭示3个ceRNA三联体(miR-21-5p-NKAPP1-PRDM11,miR-29c-3p-MSTO2P-EZH2和miR-29c-3p-RPLP0P2-EZH2),其高风险组与预后不良有关LUAD,可被视为潜在的预后特征。此外,通过整合microRNA的目标信息,我们还为潜在的小分子药物的发现提供了新的视角。这项工作可能有助于癌症研究,并作为未来努力的基础,以了解假基因的作用,开发新的生物标志物和提高肿瘤生物学的知识。

Introduction

假基因是一类长非编码RNA(lncRNA),来源于蛋白质编码基因(PCGs)却失去了产生蛋白质的能力,长期以来被认为是非功能性基因组[1]。 然而,越来越清楚的是,一些假基因在细胞中具有重要的调节作用。 假基因远非沉默,参与各种生物活动,包括参与转录过程[2],或参与通过RNA干扰途径调节基因表达的小干扰RNA(siRNA)的形成[3,4]。 一些研究也暗示了人的失调假基因作为人类癌症的促成因素,早期例如KRASIP [5]。
值得注意的是,越来越多的研究描述了假基因在癌症进展中起关键作用[6]。 例如,NANOG和OCT4是维持胚胎干细胞多能性的必需转录因子[7,8],而它们的假基因NANOGP1和POU5F1P1在人类癌症中异常表达[9]。 Poliseno等人。 结果表明假基因PTENP1通过结合microRNA调节肿瘤抑制因子PTEN的表达,参与肿瘤生物学过程[10]。 最近,Florian等人。 已经提供了BRAF假基因作为竞争内生的证据RNA(ceRNA)和体内诱导的淋巴瘤[11]。这些研究为假基因在肿瘤生物学中的潜在作用提供了关键见解。虽然有趣,但它们都仍然受限于少数的个体假基因,并且很可能更多的假基因在致癌程序中起作用。因此,必须对大型患者样本组进行系统分析,以确定与癌症相关的假基因。这个想法首先在13个癌症中使用293个样本的RNA-Seq资源进行了探索,揭示了假基因表达与癌症进展之间的关联[12]。然而,据报道,假基因可作为microRNA海绵,与mRNA竞争吸引microRNA进行相互作用并影响mRNA的表达。[13]但是作为ceRNA起作用的假基因的生物学特性和临床相关性仍不清楚。
为了系统地描述充当ceRNA的癌症相关假基因,在这里,与先前确定ceRNA对的研究相比[14-16],我们开发了一个计算框架并逐渐识别出与LUAD相关的假基因。我们首先获得了从TCGA获得的LUAD的RNA-seq转录物数据,并基于ceRNA假设选择了正性的假基因和mRNA相互作用。这些候选假基因以几种方式表征,包括转录长度,外显子数,进化保守性,邻近基因分析和共甲基化分析。然后我们推断了用于LUAD治疗的潜在预后生物标志物和小分子药物。总之,我们的研究系统地表征了假基因,为更深入地了解LUAD相关假基因的作用和改进肿瘤生物学知识奠定了基础。

Result

鉴定作为ceRNA起作用的LUAD相关候选假基因

我们构建了一个框架来识别和分析疾病假基因(图1)。 首先,我们提出了流程来逐步识别显着的假基因-miRNA-mRNA调控机制。 在处理576个LUAD样品的RNASeqV2数据后,我们分别获得了729个假基因和16,610个mRNA。 此外,基于目标信息,我们获得了434,691个假基因 - 微小RNA-mRNA三元组。 这些三元组中的mRNA和微小RNA是LUAD相关的,其选自癌症数据库。 最近的研究表明,如果两个microRNA海绵共享更多的microRNA,它们之间的相关性更高[14]。 为了鉴定候选假基因 - mRNA竞争对,使用超几何测试来计算每个可能基因对的miRNA的重要性。 所有p值均经历FDR校正和750个假基因
此外,为了降低结果的假阳性率,所有具有Pearson Correlation Coefient(PCC)≥0.259且p-调整<0.05的候选假基因 - mRNA对被鉴定为ceRNA-ceRNA相互作用。 总共有33种假基因被鉴定为候选LUAD相关基因(补充数据1)。 此外,我们发现候选ceRNA对中的mRNA富集在几个关键途径中,例如Jak-STAT信号传导途径,脂肪细胞因子信号传导途径,癌症中的MicroRNA和叶酸的一个碳库。 这些观察结果表明,一些候选假基因可能是这些信号通路的成员并促进癌症发展。

Method

LUAD中假基因和mRNA的表达特征

LUAD患者样品的RNA-seq V2数据获自TCGA项目(http:// cancergenome.nih.gov/)[42],包括517个肿瘤样品和59个相邻的正常样品(补充表1)。 使用GENCODE hg19基因组作为参考。 将读数定位于mRNA和假基因的外显子。 排除与mRNA /假基因重叠的假基因/ mRNA。 计算RPKM值以评估假基因和mRNA的表达水平:
其中C是假基因或mRNA的定位读数的数目,N是总映射读数的数目,L是假基因或mRNA的长度。 为了降低假阳性率,去除了> 50%样品中缺失值的假基因或mRNA[14]。 接下来,我们将0.00001添加到每个基因的表达值并进行log2转化。 总之,我们获得了729个假基因和16,610个mRNA用于进一步分析。

Argonaute CLIP支持的microRNA-target相互作用

最近,一些研究报道使用交联和Argonaute(Ago)免疫沉淀结合高通量测序(CLIP-Seq)可以鉴定microRNA的内源全基因组相互作用图[43,44]。 为了研究人类microRNA-靶标调控关系,人类microRNA-mRNA相互作用是从五个预测程序中收集的,包括TargetScan [45],PicTar[46],PITA [47],miRanda [48]和RNA22 [49]在starBase v2.0 [50]中。 通过整合上述数据库,在我们的研究中总共使用了423,405个非冗余的microRNA-mRNA相互作用。 还从starBase v2.0收集microRNA-假基因相互作用,包括16,126个相互作用对。

LUAD相关mRNA和微小RNA的集合

已提出若干数据库系统提供各种人类疾病中mRNA和miRNA失调的综合资源。LUAD相关从四个数据库收集mRNA,包括COSMIC [51],OMIM [52],GAD [53]和Phenopedia-Genopedia数据库[54]。 此外,实验验证的LUAD相关microRNAs来自HMDD [55],miR2Diease [56],miREnvironment [57]和OncomiRDB [58]。

鉴定潜在的LUAD相关假基因

获得了Ago CLIP支持的mRNA-microRNA和假基因 - microRNA调控数据后,我们进行了三步管道,逐步鉴定出基于ceRNA假设的作为microRNA海绵的LUAD相关假基因。 首先,使用预测的microRNA靶信息获得假基因 - 微小RNA-mRNA三元组,其中所有的microRNA和mRNA都是通过疾病数据库选择的。 其次,为了鉴定竞争性假基因 - mRNA相互作用,进行了超几何测试以评估每个可能基因对的共有microRNA的重要性:
其中N是与假基因或mRNA相关的微小RNA的总数,M是与该给定假基因相互作用的微小RNA的数量,L是与该给定mRNA相互作用的微小RNA的数量,x是与之相互作用的微小RNA的数量。他们俩分别。使用小于0.05的p值和FDR校正作为阈值[59]。最后,为了降低结果的假阳性率,P <0.05,PCC≥0.259(75对,10%顶部相关假基因mRNA对,包括33个假基因和40个mRNA)的假基因 - mRNA对被认为是潜在的假基因-mRNA相互作用[16]。

进化保护分析

我们评估了所有假基因,lincRNA,PCG,候选假基因及其邻近PCG的进化保守性。通过来自UCSC Genome Browser网站的46路phastCons脊椎动物保守元件评估进化保守性[60]。我们将基数视为一个单位,并计算外显子的平均phastCons得分。

DNA甲基化分析

为了估计给定探针的甲基化水平,我们使用β值:甲基化和未甲基化等位基因之间的强度比。 β值从TCGA中的3级Infinium 450k数据获得;每个探针的相应p值从2级Infinium 450k数据获得。 我们仅在计算中使用具有显着检测p值(p <0.05)的β值,以避免使用缺失的数据[61]。 基因内探针的平均值被认为是甲基化值。

生存分析

LUAD患者样本的临床信息来自TCGA。 Cox回归分析用于评估存活时间和假基因表达之间的相关性。风险比用于计算每个样本的风险评分。然后根据风险评分的中间值将这些样本分为高风险和低风险组[62]。 Kaplan-Meier生存方法用于评估假基因对患者预后的影响。 Log-Rank检验p值用于检验两组患者之间相关性的显着性(p值<0.05)。 Cox p值用于评估总体存活与基因之间的显着相关性(p值<0.05)。
统计分析
在超几何测试中使用小于0.05的p值和FDR校正作为阈值。FC> 1.5且FDR <0.01的假基因被认为是差异假基因。 mRNA的功能富集由DAVID v6.8(https://david-d.ncifcrf.gov/)。 Wilcox秩和检验用于检验两组数据之间的显着性(p <0.05)。

你可能感兴趣的:(文献翻译Identification of potential cancer-related pseudogenes in lung adenocarcinoma based on ceRNA h...)