TCGA数据分析系列（一：数据下载清洗）

废话不多说，直接上干货。

一、确定肿瘤代码

TCGA涵盖30多种癌症，9000多个病人，数据库里的癌症名称是缩写的形式，TCGA癌症中英文对照可以参考：
TCGA癌症中英文对照
以结肠癌为例，首先查找到TCGA的结肠癌名称缩写是COAD。

二、数据下载（网页下载/R语言下载）
墙裂建议R语言下载，一键download和清洗，非常方便。

1、网页下载

然后进入GDC数据库网站。

按照以下步骤，依次选择repository，cases，在program里面选择TCGA，然后在project里面根据自己的癌症缩写选择相应的数据打勾，这边结肠癌勾选TCGA-COAD。

下面还有一些其他的筛选选项比如性别，年龄等。

image.png

然后进入Files选项卡，以基因表达数据为例，Data category选择transcriptome profiling，Data Type选择Gene Expression Quantification，Experimental Strategy选择RNA-seq，Workflow Type选择SATR-Counts。

image.png

然后可以看到右边就是符合筛选标准的一个个数据了，如下图所示，点击Add all files to cart按钮，然后点击Cart进入购物车。

image.png

进入购物车后可以看到下载按钮，点击Download-Cart就等着数据下载完成了，点击Clinical data可以下载这批数据的临床数据。

image.png

用网页下载TCGA数据就完成了。

2、R语言下载数据

同样需要先进入GDC网页，主要是为了查看下并且确定数据的各类参数。

R语言数据下载以胆管癌（CHOL）为例，数据参数如下：

project：TCGA-CHOL

Data category：Transcriptome Profiling

Data Type：Gene Expression Quantification

Workflow Type：SATR-Counts

有了以上信息就可以去R里面下载了。

library(TCGAbiolinks) #加载R包，没装包的自行搜索去安装
project <- "TCGA-CHOL" #肿瘤缩写
data_category <- "Transcriptome Profiling"
data_type <- "Gene Expression Quantification"
workflow_type <- "STAR - Counts"
query <- GDCquery(project = project,
                  data.category = data_category,
                  data.type = data_type,
                  workflow.type = workflow_type
)
#下载数据
GDCdownload(query = query,files.per.chunk = 50)
#整理数据并存储为R对象
GDCprepare(query,save = T,save.filename = paste0(project,"_transcriptome.Rdata"))
#如果想下载其他类型的数据，可自行去GDC数据库查看各参数情况，然后更改参数即可

3、导入下载好的数据

在上一步种，我们把数据存储为了Rdata，现在直接导入这个Rdata即可。

load(file = paste0(project,"_transcriptome.Rdata"))

随后可以在环境中看到名为data的数据，这就是我们准备好的数据，该数据包含表达矩阵及临床数据，可直接提取使用，数据格式为SummarizedExperiment，可使用SummarizedExperiment这个R包操作。

library(SummarizedExperiment) #加载R包
a <- assays(data)#这里包含表达矩阵
r <- rowRanges(data)#这里包含基因数据
c <- colData(data)#这里包含临床数据

看下表达矩阵对象，包含表达Count，FPKM，TPM等。

image.png

看下基因数据的信息，可以看到包含基因的区域链信息，名称，id，类型等。

image.png

看下临床数据信息，如下：

image.png

以上数据基本上就可以直接在R里面用了，无需再次清洗。

不得不说，新版TCGA实在是太方便了。

点个关注吧~

点击阅读公众号原文

TCGA数据分析系列（一：数据下载清洗）

你可能感兴趣的:(TCGA数据分析系列（一：数据下载清洗）)