TCGA数据库详解

TCGA(The cancer genome atlas,癌症基因组图谱)由 National Cancer Institute(NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于 2006 年联合启动的项目, 收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。

TCGA官网:https://portal.gdc.cancer.gov/

1. 数据等级和分类:

TCGA存储的数据包括SNV、转录组分析、生物样本信息、原始测序数据、CNV、DNA甲基化、临床信息等。这些数据可分为三个级别:

Level 1: 原始的测序数据(fasta,fastq等)

Level 2:比对好的bam文件

Level 3:为经过处理及标准化的数据


2.如何寻找数据:

2.1 如何进入Project

如图1所示,点击以下五个标注的地方都可以找到自己需要的Project。1会把所有的Project全部列出,然后点击自己需要的ProjectID;2会列出所有的case,在左侧的导航栏可以选择自己需要的条件,然后点击自己需要的ProjectID;3可以直接搜索ProjectID;4可以直接点击身体器官进入对应的一个或多个Project,然后点击自己需要的ProjectID;5和4是一样的,只不过变成了文字。进入某一个Project的页面如图2(Project ID为TCGA-BRCA)所示。

TCGA数据库详解_第1张图片

 

TCGA数据库详解_第2张图片

2.2 如何选择数据

如图2所示,从自己所需数据类型的Files属性点进去,也可以点击右上角的FILES,然后通过左侧导航栏筛选。如图3、图4所示,导航栏分为Cases和Files两部分,Cases的筛选条件有Case ID、Primary Site、Program、Project、Disease Type、Gender、Age at Diagnosis、Vital Status、Days to Death、Race、Ethnicity;Files的筛选条件有Data Category、Data Type、Experimental Strategy、Workflow Type、Data Format、Platform、Access。

TCGA数据库详解_第3张图片

在网页上方会显示出勾选条件,如图5所示,选择条件是TCGA-BRCA中用MuTect2 call出的原始体细胞变异的SNV文件,文件数量是1080个,然后我们可以通过购物车按钮单个添加或全部添加到我们的下载清单中,下载清单可以通过页面右上角的Cart查看。

TCGA数据库详解_第4张图片

3.如何下载数据:

TCGA中的数据分为controlled和open,controlled数据需要申请账号才可以下载,open数据不需要账号。数据下载支持本地下载和官方下载工具下载,官方下载工具支持Windows、Ubuntu、OSX和CentOS系统。

官方下载工具下载页面:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool

点开Cart页面后,如图6所示,可以点击Download=>Cart本地下载,也可以下载Manifest文件后用官方下载工具下载,如果数据是controlled并且用官方下载工具下载,需要下载token文件作为身份验证,下载方式如图7所示。

Centos命令行下载示例

gdc-client download -t gdc-user-token.2018-10-25T07_07_18.260Z.txt -m gdc_manifest_20181025_070650.txt

TCGA数据库详解_第5张图片

TCGA数据库详解_第6张图片

你可能感兴趣的:(生信数据库)