Metaminer:TCGA新玩法,代谢亚型(metabolic subtypes)分类

引言:挖掘TCGA数据库的文章在PubMed中有超过10000篇,可以说基本被我们玩的差不多 了,什么肿瘤亚型,生存预后,免疫浸润,等等,在你找不到新思路的时候,不妨来看看这篇有关TCGA代谢亚型分类的文章,支持在线查询哦!

 The Cancer Genome Atlas (TCGA)数据库是一个综合的肿瘤基因组数据库,里边包含了常见的33种癌症的各种数据,从基因组、表观基因组、转录组到蛋白质组等等,总数据量超过了2.5 拍字节(1PB=1024TB)。也是我们日常中除了GEO外分析最多的一个数据库。

通过下载TCGA的数据或者使用特定在线工具,我们可以分析以下几个方面的内容:

  1. 比较肿瘤样品和对照样品的基因表达差异,miRNA表达差异,甲基化差异,蛋白表达等
  2. 比较肿瘤不同分期的基因表达
  3. 比较不同性别、临床分期、种族等的生存曲线
  4. 拷贝数,SNV变异情况(参考:maf汇总图,和瀑布图
  5. 预后模型等

在TCGA数据库基础上的二级数据库也是很多,比如https://www.cbioportal.org/,http://gepia2.cancer-pku.cn/等,极大地方便了我们对TCGA数据库的挖掘。

本着挖掘无止境的原则,今天我们来看看另一个思路:从代谢方面进行分析。

参考这篇2022年刚出炉的文章:

Cancer metabolic subtypes and their association with molecular and clinical features

Metaminer:TCGA新玩法,代谢亚型(metabolic subtypes)分类_第1张图片

能量代谢重编程(reprogramming of energy metabolism)和免疫逃避(immune evasion)是癌细胞的基本过程。最近有研究表明拷贝数改变和代谢表型,代谢基因表达谱所反映的代谢通路与患者生存密切相关。

本研究系统研究了人类肿瘤和它们的分子特征,临床特征与代谢谱间的关联,显示代谢谱能够在分子水平(体细胞突变,结构基因组变异,表观修饰)和临床方面(生存概率,肿瘤分期,组织类型)将肿瘤分成显著不同的亚型。

当然,理论上应该直接使用代谢组学来研究,但是数据不足,因此使用转录组谱作为跳板(proxy)进行分析,并将数据做成了界面友好的数据库,供大家查询。

地址:https://metaminer.unito.it/

Metaminer:TCGA新玩法,代谢亚型(metabolic subtypes)分类_第2张图片

以胃癌为例,这里给出了不同代谢过程的各种信息。

Tumor Types:癌症类型

Metabolisms:作者从KEGG,Reactome,GO等数据库中挖掘出来的各种代谢过程

Features:TCGA的各种数据集,包括,临床,表达,突变,生存等

根据不同的数据,一般会出来两个图,左侧是热图,右侧可以是correlation图、box图,生存曲线等。

Metaminer:TCGA新玩法,代谢亚型(metabolic subtypes)分类_第3张图片

Top20最差异基因的表达情况,其中K1和K2是使用partitioning around medoids (PAM)算法将样品进行cluster后的结果,即代谢亚型(metabolic subtypes)。一般是2个,部分高达10个cluster。

Metaminer:TCGA新玩法,代谢亚型(metabolic subtypes)分类_第4张图片

该图是不同组织学类型中cluster1和cluster2的相关性。这里的数值是Pearson Residuals(皮尔森残差)。当然还有不同分期的,突变和野生的比较等等。

例如

Metaminer:TCGA新玩法,代谢亚型(metabolic subtypes)分类_第5张图片

不同cluster的miRNA表达box图

Metaminer:TCGA新玩法,代谢亚型(metabolic subtypes)分类_第6张图片

不同cluster的生存曲线

希望在你思路枯竭的情况下,本研究可以让你眼前一亮!

微生信简介

微生信云平台(微生信-您身边的数据分析、可视化专家)以130多款在线作图、在线数据分析为基本方式,致力于0代码分析科研数据,0代码展示数据结果,帮助生命科学、医学等领域的科研工作者更便捷地分析数据,了解数据,挖掘数据背后的生物医学意义,助力科研,促进知识传播。

你可能感兴趣的:(数据挖掘)