运用TCGAbiolinks下载癌症RNAseq数据

作为非专业人士,生信对本人来讲,是一个实用性较高的方法。本人目前从事的科研工作是癌症转录组方向,主要是miRNA、LncRNA等非编码RNA。分析表达差异应该是科研工作的第一步,今天我通过自身的亲测,为大家浅显地叙述一下我的操作。

首先,我们从TCGA里下载某种癌症的RNAseq数据,代码如下:

##使用TCGAbiolinks从GDC Data Portal上下载
BiocManager::install("TCGAbiolinks")
library(TCGAbiolinks)
TCGA_ID="TCGA-THCA"
download_tcga=function(TCGA_ID){
  query = GDCquery(project = TCGA_ID, legacy = FALSE, experimental.strategy = "RNA-Seq", data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.type = "HTSeq - Counts")
  GDCdownload(query)
  #GDCprepare: Reads the data downloaded and prepare it into an R object
  dataAssy = GDCprepare(query)
  expMatrix <- TCGAanalyze_Preprocessing(dataAssy)
  save(expMatrix,file = paste0(TCGA_ID,"_RNAseq.rda"))
}
download_tcga(TCGA_ID)
load("TCGA-THCA_RNAseq.rda")

上面的代码用了函数封装的方法,使用起来方便、简洁,只需更改TCGA_ID即可。下载好的数据可以用rda文件储存,rda是rdata的简写,由load("数据名.rda")读取。

关于从RNAseq中分离mRNA和LncRNA,我们下回分解。

你可能感兴趣的:(运用TCGAbiolinks下载癌症RNAseq数据)