使用TCGAbiolinks进行GDC数据下载

本笔记来源作者: 研平方 帖子 TCGAbiolinks包下载数据
想愉快的开始生信分析之旅,但是第一步TCGA数据下载整理就迈步过去。试了网上很多方法,都没有成功。内心好木乱。最后找到这个作者的code,自己跑了一下,竟然成功了。欣喜之情溢于言表。向作者致谢!

1.TCGAbiolinks 近期更新内容:

1.more accurate and flexible pipelines for differential expression analyses.
2.different methods for tumor purity estimation and filtering.
3.integration of normal samples from other platforms.
4.support for other genomics datasets, exemplified here by the TARGET data.

2. 各种包的对比

TCGAbiolinks和别的方法对比.png

3.在学习该包过程中容易出现的疑问

  1. TCGAbiolinks可供下载的数据有两种,一个是Harmonized数据;另一个是Legacy数据。两者的差别请见【工具】TCGAbiolinks分析TCGA数据(DEA篇)。实际上,在使用过程中,知道以下就行:Legacy数据hg19和hg18为参考基因组(老数据)而且已经不再更新了,Harmonized数据以hg38为参考基因组的数据(新数据)。
  2. 下载转录组层面的数据使用hg38,下载DNA层面的数据使用hg19,因为比如做SNP分析的时候很多数据库没有hg38版本的数据,都是hg19的**就可以了。

4.下载转录组数据

# TCGA数据的下载与整理
setwd("E:/My Master's Graduation Design/data analysis/TCGA")

library(TCGAbiolinks)
library(dplyr)
library(DT)
library(SummarizedExperiment)

getGDCprojects()$project_id  #获取TCGA中最新的不同癌种的项目号
TCGAbiolinks:::getProjectSummary("TCGA-LIHC")  #查看肝癌的数据类型

query <- GDCquery(project = "TCGA-LIHC",
                  legacy = FALSE, 
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification", 
                  workflow.type = "HTSeq - Counts")

GDCdownload(query)
TCGA_RNASeq <- GDCprepare(query, save = TRUE, save.filename = "TCGA_query.Rdata")
TCGA_counts <- assay(TCGA_RNASeq)
TCGA_counts <- as.data.frame(TCGA_counts)
colnames(TCGA_counts) <- substr(colnames(TCGA_counts),1,15) #整理样本名
save(TCGA_counts, file = "TCGA_counts.Rdata")

## 临床数据下载
TCGA_clinical <- GDCquery_clinic(project = "TCGA-LIHC", type = "clinical")
save(TCGA_clinical, file = "TCGA_clinical.Rdata")

有用的链接:
TCGA数据下载—TCGAbiolinks包参数详解

你可能感兴趣的:(使用TCGAbiolinks进行GDC数据下载)