TCGA pan-cancer 分析

随着TCGA计划内各个癌症项目内多组学数据测量完毕,基于TCGA的针对特定生物学问题的泛癌分析不断开展,且已经有大量文章发表 -links。

泛癌分析的基础数据可以从如下网站轻松下载:

https://gdc.cancer.gov/about-data/publications/pancanatlas

其中突变数据为.maf格式,可以采用R语言的maftools包进行分析;

RNA-seq,甲基化数据,临床数据都可以直接读取后分析。

其中最为基础的一些癌症基因组学分析包括:

1. 差异表达分析

   最为基本的差异表达分析可以采用T-test, wilcox-test来实现,但是对于规模较大的组学来说最好采用limma包提供的差异表达分析算法。

2.生存分析

  基于survival包可以分析不同基因高、低表达情况下对潜在生存率的影响。

3.通路富集分析

  在差异表达或者生存分析后对有意义的一系列基因,可以分析其显著相关的通路,就此可以采用piano包进行通路分析。

4.聚类分析

  为了识别新的癌症分型或者不同癌症是否呈现组织上的聚类特性,可以在多个组学基础上利用ConsensusClusterPlus包及iCluster进行聚类分析,并利用热图形式(推荐complexHeatmap包)进行结果的可视化。

5.网络分析

  基于共表达网络(WGCNA)或者贝叶斯网络算法(BiDAG,pcalg)进行分子网络的建模,推断不同分子间的相互调控。

6.功能预测

  基于分类、回归(此处可灵活选择各类机器学习算法)算法针对特定的生物学问题,从组学数据中确定输入输出维度并训练和测试特定模型。

7.自行设计算法

  根据具体的问题,自己来开发一套算法。

如果在TCGA数据资源的基础上可以对分析结果另外再通过外部完全独立的数据集进行验证,结果更为有说服力。

然而,无论数据再多,分析算法再精巧,都不及找到一个精彩的分析切入点。

你可能感兴趣的:(TCGA pan-cancer 分析)