TCGAbiolinks数据下载

TCGA系列教程

下载TCGA数据的方法有很多,但比较好用的包我认为就是TCGAbiolinks
TCGAbiolinks是一个可用于检索,下载,并准备TCGA数据用于下游分析的R包,该包发表在
著名的 核酸研究 杂志上。
先从数据下载开始

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("TCGAbiolinks")
library(TCGAbiolinks)

数据来源

不同的数据来源 Legacy 与 harmonized

  • GDC Legacy Archive:以前在CGHUB和TCGA数据门户中存储的数据的原始数据,由TCGA数据协调中心(DCC)托管,在该门户中用GRCH37(HG19)和GRCH36(HG18)作为参考基因组
  • GDC harmonized database:可用数据与grch38(hg38)使用gdc生物信息学流程进行协调,该流程提供了生物标本和临床数据标准化的方法,简单讲就是对数据进行了一定标准化处理。
  • harmonized数据库包括转录谱数据,甲基化数据,miRNA数据,但缺少芯片数据

数据检索

使用GDCquery函数
示例展示-

Sys.setlocale('LC_ALL','C')
## 检索BRCA甲基化数据
query.met <- GDCquery(project = "TCGA-BRCA",
                      data.category = "DNA Methylation",
                      legacy = FALSE,
                      platform = c("Illumina Human Methylation 450"))
## 检索BRCA-基因表达数据
query.exp <- GDCquery(project = "TCGA-BRCA",
                      data.category = "Transcriptome Profiling",
                      data.type = "Gene Expression Quantification", 
                      workflow.type = "HTSeq - FPKM-UQ")
query.exp[1:5,1:5]
query.met[1:5,1:5]
datatable(getResults(query.met, cols = c("data_type","cases")),
          filter = 'top',
          options = list(scrollX = TRUE, keys = TRUE, pageLength = 5), 
          rownames = FALSE)

为什么推荐TCGAbiolinks包?

我认为有以下几个理由:

  • 这个包发表在核酸研究杂志上,相对比较权威
  • 下载的数据都是更新的,直接从TCGA获取
  • 提供整理数据的函数,不需要自己花大功夫就能轻松的将单个文件都整理到一起,完全不需要什么perl,事实证明真正专业上的牛人确实是牛,可不是有些半桶水,拿自己的专业在人家的业余爱好面前膨胀, 更何况这个还算不上人家的业余爱好,写道这里突然隐隐感觉到这句话有人说过,如果说过这里要引用一下了[忘记哪位仁兄说多了,见谅]

你可能感兴趣的:(TCGAbiolinks数据下载)