TCGA数据分析系列(一:数据下载清洗)

废话不多说,直接上干货。

一、确定肿瘤代码

TCGA涵盖30多种癌症,9000多个病人,数据库里的癌症名称是缩写的形式,TCGA癌症中英文对照可以参考:
TCGA癌症中英文对照
以结肠癌为例,首先查找到TCGA的结肠癌名称缩写是COAD。

二、数据下载(网页下载/R语言下载)
墙裂建议R语言下载,一键download和清洗,非常方便。

1、网页下载

然后进入GDC数据库网站。

按照以下步骤,依次选择repository,cases,在program里面选择TCGA,然后在project里面根据自己的癌症缩写选择相应的数据打勾,这边结肠癌勾选TCGA-COAD。

下面还有一些其他的筛选选项比如性别,年龄等。

image.png

然后进入Files选项卡,以基因表达数据为例,Data category选择transcriptome profiling,Data Type选择Gene Expression Quantification,Experimental Strategy选择RNA-seq,Workflow Type选择SATR-Counts。


image.png

然后可以看到右边就是符合筛选标准的一个个数据了,如下图所示,点击Add all files to cart按钮,然后点击Cart进入购物车。


image.png

进入购物车后可以看到下载按钮,点击Download-Cart就等着数据下载完成了,点击Clinical data可以下载这批数据的临床数据。
image.png

用网页下载TCGA数据就完成了。

2、R语言下载数据

同样需要先进入GDC网页,主要是为了查看下并且确定数据的各类参数。

R语言数据下载以胆管癌(CHOL)为例,数据参数如下:

project:TCGA-CHOL

Data category:Transcriptome Profiling

Data Type:Gene Expression Quantification

Workflow Type:SATR-Counts

有了以上信息就可以去R里面下载了。

library(TCGAbiolinks) #加载R包,没装包的自行搜索去安装
project <- "TCGA-CHOL" #肿瘤缩写
data_category <- "Transcriptome Profiling"
data_type <- "Gene Expression Quantification"
workflow_type <- "STAR - Counts"
query <- GDCquery(project = project,
                  data.category = data_category,
                  data.type = data_type,
                  workflow.type = workflow_type
)
#下载数据
GDCdownload(query = query,files.per.chunk = 50)
#整理数据并存储为R对象
GDCprepare(query,save = T,save.filename = paste0(project,"_transcriptome.Rdata"))
#如果想下载其他类型的数据,可自行去GDC数据库查看各参数情况,然后更改参数即可

3、导入下载好的数据

在上一步种,我们把数据存储为了Rdata,现在直接导入这个Rdata即可。

load(file = paste0(project,"_transcriptome.Rdata"))

随后可以在环境中看到名为data的数据,这就是我们准备好的数据,该数据包含表达矩阵及临床数据,可直接提取使用,数据格式为SummarizedExperiment,可使用SummarizedExperiment这个R包操作。

library(SummarizedExperiment) #加载R包
a <- assays(data)#这里包含表达矩阵
r <- rowRanges(data)#这里包含基因数据
c <- colData(data)#这里包含临床数据

看下表达矩阵对象,包含表达Count,FPKM,TPM等。

image.png

看下基因数据的信息,可以看到包含基因的区域链信息,名称,id,类型等。

image.png

看下临床数据信息,如下:

image.png

以上数据基本上就可以直接在R里面用了,无需再次清洗。

不得不说,新版TCGA实在是太方便了。

点个关注吧~

点击阅读公众号原文

你可能感兴趣的:(TCGA数据分析系列(一:数据下载清洗))