TCGA数据库的数据下载

本文首发于“生信大碗”公众号,转载请注明出处

各位小伙伴们大家好!

今天带大家学习一下数据挖掘经常用到的一个数据库——TCGA数据库的数据下载

首先我们要知道TCGA数据库即肿瘤基因组图谱计划,是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和  National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,包括基因组、转录组、表观遗传、蛋白组等各个组学,提供了一个大型的癌症研究参考数据库。TCGA数据库目前收录了33种癌症类型,涵盖的数据类型广泛,包括:Clinical、mRNA、microRNA、CopyNumber、Mutation、Protein、Methylation等。

TCGA数据库数据的下载方法有很多,我们今天主要以肝癌为例,给大家介绍两种最常用的数据下载方法,快来一起学习一下吧!

第一种方法

通过TCGA官方提供的下载工具GDC下载数据

1、登录GDC官网:https://portal.gdc.cancer.gov/

2、点击Repository

3、点击Case

4、选择TCGA、TCGA-LIHC

5、点击Files,勾选图中标记的地方

6、点击Add All Files to Cart,点击进入Cart

7、点击Clinical下载临床信息,点击Metadata 下载样本信息,点击cart 下载基因文件

然后等待下载就可以了,需要注意的这样下载下来的数据文件,将每个样本放在一个单独的文件里面,因此,下载完成后我们会得到成百上千的文件,后续需要再进行读取合并。

第二种方法

通过UCSC Xena网站下载数据,这种方法更简单哦!

1、登录UCSC Xena官方网站https://xenabrowser.net,点击DATA  DETS

2、跳转页面后,下翻找到目标癌症并点击

3、选择需要要下载的数据类型

进入该癌种的页面后,我们可以看到有很多种数据,选择需要要下载的数据类型,这里我们以基因表达数据为例,可以看到这里的表达数据有三种类型,分别是Counts 、 FPKM 和FPKM-UQ ,根据需要选择对应的类型,以Counts为例,点击进入,在这里我们可以看到这个数据详细的信息,包括队列、数据集 ID、下载链接、样品数等。


4、点击下载链接

即可下载基因表达的RNAseq数据


小tips:

大家需要注意的是,UCSC的数据更新并不及时,如果你要下载的是最新的临床信息,还是推荐从TCGA官网下载,因为TCGA官网的临床信息一般间隔一段时间是会更新的。但如果你需要的数据是甲基化、基因表达RNAseq、拷贝数等,那就没有什么影响,因为这些数据即使TCGA官网更新,也不会发生很大的变化。

今天的分享就到这里结束了,我们下次再见啦!

本文首发于“生信大碗”公众号,转载请注明出处

—END—

你可能感兴趣的:(TCGA数据库的数据下载)