linux下载TCGA数据,TCGA数据库讲解与数据下载

原标题:TCGA数据库讲解与数据下载

前几期,生信草堂和大家分享了一篇TCGA数据下载的文章,有小白表示TCGA还是好深奥,找不到下载地址的,看不懂数据格式。今天小编就从头开始,娓娓道来,再给大家介绍一下TCGA数据库和下载方法,希望大家都能用好这个宝库。

TCGA (The cancer genome atlas)是一个非常重要的癌症数据库,其主要收录各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。

首先,TCGA官网:https://cancergenome.nih.gov/abouttcga/overview

1.数据等级:

TCGA存储的数据可分为三个级别:

Level 1: 原始的测序数据(fasta,fastq等)

Level 2:比对好的bam文件

Level 3:为经过处理及标准化的数据

Level 1和Level 2文件很大,若要下载可使用官方提供的小工具:GDC Data Transfer Tool,然后自己重新比对来call mutation, 或者提取count data做差异表达分析(不适合懒人操作,且大多数人很难拿到权限,下面会说)。

2.数据权限

Level 1和Level 2数据为controlled-access(限制下载),Level 3有部分是controlled-access,其余是开放下载,若你想下载的数据level显示“Unauthorized”,则表示不能直接下载,需要先向TCGA申请使用权

你可能感兴趣的:(linux下载TCGA数据)