lncRNA纯生信套路 基因组不稳定性相关的LncRNA,速度来

今天跟大家分享的是发表在Briefings in Bioinformatics(IF: 8.99)上的一篇文章, 主要是基于突变分析构建乳腺癌基因组不稳定相关的lncRNA预后标志。出发点新颖思路清晰,不得不佩服其奇思妙想的的生信分析文章,大家可以好好研究研究。

 

构建基因组不稳定相关的突变驱动性lncRNA特征以改善乳腺癌临床结局

lncRNA纯生信套路 基因组不稳定性相关的LncRNA,速度来_第1张图片

lncRNAs在维持基因组不稳定性方面发挥着重要作用。本篇文章结合lncRNAs表达和体细胞突变数据,开发出一个基于突变的计算框架,并在乳腺癌中识别出128个基因组不稳定相关lncRNAs。接着基于这个128个lncRNAs构建乳腺癌预后标志(GILncSig),将患者分为高危险组和低危险组,并进一步在多套独立数据集中进行验证。

1.数据有分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)生信人WX公众号

(1)TCGA中乳腺癌患者的lncRNA表达,mRNA表达、生存信息、体细胞突变信息和常见临床病理特征等数据。

(2)GEO中GSE3494和GSE31448两套独立乳腺癌数据集。

(3)TCGA中卵巢癌患者的lncRNA表达,体细胞突变信息和常见临床病理特征等数据。

2. 识别与乳腺癌患者基因组不稳定相关的lncRNA

基于乳腺癌患者中携带的突变个数,分别把携带突变最多和最少的25%患者,定义为GU-like 和 GS-like组,识别在两类样本中发生差异表达的lncRNAs(图1)。

lncRNA纯生信套路 基因组不稳定性相关的LncRNA,速度来_第2张图片

图1. 基因组不稳定相关的lncRNA的识别框架

基于这128个差异的lncRNA表达信息,对TCGA中所有乳腺癌患者进行无监督聚类,将样本分成GU-like 和 GS-like组(图2A), GU-like组中往往携带更多的突变基因(图2B),且UBQLN4基因(基因不稳定性的驱动因素之一)表达在GU-like组显著上调(图2C)。为进一步确定这些lncRNAs影响的生物学功能,研究者选择与每个lncRNA表达最相关的蛋白质编码基因(PCGs)构建出lncRNA-PCGs共表达网络(图2D),对网络中这些PCGs基因进行富集分析,发现主要富集到细胞周期检查点等与基因组不稳定相关的生物学过程中(图2E)。

lncRNA纯生信套路 基因组不稳定性相关的LncRNA,速度来_第3张图片

图2. 乳腺癌患者中基因组不稳定相关lncRNA的识别与分析

3.基因组不稳定相关lncRNA预后标志的识别

将TCGA中乳腺癌患者分成训练数据和验证数据集,首先基于单因素cox比例风险回归在乳腺癌患者中识别出预后相关的10个lncRNAs,并对这些候选lncRNAs以及年龄等常见临床特征进行多因素Cox比例风险回归分析,以筛选出具有独立预后价值的lncRNA。最终识别出由两个lncRNAs构成的GILncSig特征,可以将患者分成高低风险组(图3A-B),两类患者的lncRNA表达模式,突变计数和UBQLN4表达比较如图3C-E所示。另外,研究者发现,在卵巢癌数据中,GILncSig特征分数和突变计数也存在一定的相关性(图3F-G)。

lncRNA纯生信套路 基因组不稳定性相关的LncRNA,速度来_第4张图片

图3.训练数据集中GILncSig的分类效能

4. GILncSig预后标志的验证

验证主要分为两部分,一部分是TCGA数据的内部验证,另一部分是两套独立数据集的外部验证。

1)内部验证:在TCGA验证数据和所有TCGA数据中的分类效能如图4所示。

lncRNA纯生信套路 基因组不稳定性相关的LncRNA,速度来_第5张图片

图4. GILncSig 在TCGA数据中的分类效能

2)外部验证:接下来是两套独立外部数据集验证,在GSE3494和GSE31448数据中,肿瘤grade较高和淋巴结阳性患者中,危险因素RP11-358L4.1表达较高(图5A-B)。并且,在RP11-358L4.1表达较高的患者中UBQLN4表达也越高(图5C)。

lncRNA纯生信套路 基因组不稳定性相关的LncRNA,速度来_第6张图片

图5. GILncSig 在GEO数据中的分类效能

5. GILncSig 与其他lncRNA标志的生存预测比较,显然对疾病的生存预测效能是最好的(图6)。

lncRNA纯生信套路 基因组不稳定性相关的LncRNA,速度来_第7张图片

图6.与其他lncRNA标志的比较

6. GILncSig独立于其他临床特征

在不同年龄和级别的患者中,GILncSig都可以有效将患者分成高低风险组,具有独立的预测效能(图7)。

lncRNA纯生信套路 基因组不稳定性相关的LncRNA,速度来_第8张图片

图7. GILncSig独立于其他临床特征

7.GILncSig与TP53突变状态

对于TCGA中患者而言,GILncSig得分较高的患者往往携带更多的TP53突变(图8A),在GEO的两套验证数据集中也可以发现携带TP53突变的患者,RP11-358L4.1表达较高(图8B),说明 GILncSig打分和TP53突变状态间存在一定的相关性,因此研究者认为可以根据GILncSig打分打分预测TP53状态,分别将TP53突变患者和TP53野生患者根据GILncSig分数分成TP53 wt/mut-like, TP53 wt/wt-like, TP53 mut/mut-like和TP53 mut/wt-like组,几类患者预后存在显著差异。

lncRNA纯生信套路 基因组不稳定性相关的LncRNA,速度来_第9张图片

图8. GILncSig与TP53突变状态有分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)生信人WX公众号

不知道大家BIB上的文章看多了,有没有这种感觉:研究结果不一定要有多好,但一定要方法原创,在有一定创新性和启发性的同时,还保持着科研思维的严谨性和逻辑性。这篇文章其实就很好体现出BIB喜欢的风格,方法简单富有新意,思维严谨,前后连贯。这是一篇很值得我们学习的文章,文章可添加的分析还有很多,eg:lncRNA可变剪切,浸润等;方向也是比如说miRNA、TF等等,赶紧行动吧,BIB在向你招手哦!

你可能感兴趣的:(lncRNA纯生信套路 基因组不稳定性相关的LncRNA,速度来)