TCGA数据库的初次了解

对于研究cancer相关的小伙伴们,相信你们在看文献的过程中,经常可以看到有些作者利用TCGA数据库里的数据进行分析、整合,得到很多有意思的思路。那么TCGA数据库是个啥?里面有写什么东西?我也很好奇,所以决定来学习一下这个数据库的相关知识和使用。

这里有几篇参考文章:
1.TCGA数据库简介--生信修炼手册
2.医学生信(一) TCGA和GEO介绍
3.TCGA数据库-肿瘤基因组图谱

Q1:TCGA数据库是什么?
TCGA: The Cancer Genome Atlas Program。 翻译过来的意思是:癌症基因组图谱计划。顾名思义,这个数据库是收录癌症患者相关信息的。目前收录了来自20000个病人,33个癌症的数据。

官方网站:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

打开长这样:

Q2:TCGA数据库里都储存了什么信息?
1、临床样本信息:Biospecimen、Clinical
2、测序数据:RNA sequencing, MicroRNA sequencing, DNA sequencing,SNP-based platforms,Array-based DNA methylation sequencing,Reverse-phase array(RPPA)。可以说包括了基因组,转录组,表观遗传,蛋白组等各个组学数据。

NOTE: 这里面不是所有的信息都可以下载的,有些你可以下载到,有些却不能。测序数据共分为四层:level1、level2、level3、level4,其中,level3、level4的数据一般都开放下载的,level1是最原始的数据,level2是做了进一步的处理的,这些数据一般是不开放的,需要申请才能下载。

Q3:这个网站收集的数据那么多,我怎么知道应该去哪儿找到我想要的数据?
上面简单的说了一下这个数据库里有什么,那么这些数据应该在哪里下载?上面的官方网站向下拉,你会看到这些:

点击"Access TCGA Data"这一块,然后会转到下面这个页面:

那么我们需要的数据都在哪里呢?

根据网上的教程:使用GDC在线查看TCGA数据, 这个数据库为了方便管理大量的数据,建立了一个统一的数据模型,如下所示:

最高层级为program,对应不同的数据来源,如TCGA, TARGET等;第二层为project, 代表一系列患者对应的;第三层为case,代表的是同一个患者的所有相关数据,包括SNV, CNV,基因表达谱等多种数据,需要注意的是case和sample是一对多的关系,一个患者可以取多份样本;最后一层是每个case相关的数据,即Files, 数据类型是多种多样的,包括序列,基因表达谱,SNV, CNV, 甲基化,临床信息等多种数据。

那么根据教程里的,下面就来探索一下这个网站。首先试着点击上面打开的网页里绿色方块的"Projects":

可以看到左边有一栏可以供你选择,那么按照课程说的,最高级是Program,这里可以看到有TCGA、TARGET、GENIE等等数据库来源可以选择。那么接下来就是projects了(Primary Site),你可以选择疾病类型,比如肾、肠、乳腺之类的。比如这里,我在projects里输入的是head and neck,然后program我选择的是TCGA数据库,那么根据我的过滤条件,得到这样的结果:

然后点击TCGA-HNSC,就可以看到summary信息:

再往下拉,你会看到对应每一种的primary site有多少例case:

Q4:大概知道了我想要的数据在哪里了,那么如何下载?
还是根据课程里的走,你可以从以下3个方面来查看和筛选数据:
(1)Cases
(2)Genes
(3)Mutations
这里以case为例。刚才我找到了13个primary site的case,比如说我只想要第一种:base of tongue的case数据。那么点击"24",会弹出下面的页面:

点击第一个case:TCGA-CV-7406:

那么在这个页面,你可以看到一些测序的信息,在Experimental strategy一栏里。比如我对RNA-seq的信息感兴趣,可以点开看一下:

这里你就可以看出来,有些文件是open的,你可以下载,而有些则是controlled的,是没法下载的,需要申请。那么仔细一看这些可以下载的数据,有的是htseq.count,有的是FPKM,还有的是FPKM-UQ,这些都代表什么意思呢?

教程里(医学生信(一) TCGA和GEO介绍)告诉我们了,根据这张图,你就大概知道这些可以下载的数据都经过哪些处理了:

那么知道了自己想下载的数据在哪里,你只需要点击你选择的那一行的购物车的图标,就可以下载啦。这是对于少量数据下载的方式,如果你需要下载特别多的数据,有另外的方法可以进行。

你可能感兴趣的:(TCGA数据库的初次了解)