除了之前提到的,使用GDC 官方提供的gdc-client.exe对TCGA数据进行下载外(TCGA数据分析(1)),还可以使用R包对TCGA数据进行下载,这个神奇的R包叫做TCGAbiolinks。
注: 它下载数据成功率非常低,官方API中也未推荐,所以这也是我没用它的原因,但是做出的分析结果相当丰富
01 TCGAbiolinks 安装与加载
运行如下命令即可
if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager")BiocManager::install("TCGAbiolinks")library(TCGAbiolinks)
02 TCGA数据下载
以下载TCGA-GBM数据为例,完全不需要gdc-client.exe的命令行操作,数据下载如下
proj "TCGA-GBM"query project = proj,data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.type = "HTSeq - Counts")GDCdownload(query)data
在这一步,你极有可能会出现以下几种情况:
2.1 网络链接超时
--------------------------------------o GDCquery: Searching in GDC database--------------------------------------Genome of reference: hg38Error in is.response(x) : Timeout was reached: Operation timed out after 10000 milliseconds with 0 out of 0 bytes received
或者这种
2.2 Server down
Error in value[[3L]](cond) : GDC server down, try to use this package later
2.3 下载成功
也有可能很幸运,出现了这种,这个时候就说明数据开始下载了。
--------------------------------------o GDCquery: Searching in GDC database--------------------------------------Genome of reference: hg38--------------------------------------------oo Accessing GDC. This might take a while...--------------------------------------------ooo Project: TCGA-GBM--------------------oo Filtering results--------------------ooo By data.typeooo By workflow.type----------------oo Checking data----------------ooo Check if there are duplicated casesooo Check if there results for the query-------------------o Preparing output-------------------Downloading data for project TCGA-GBMOf the 174 files for download 2 already exist.We will download only those that are missing ones.GDCdownload will download 172 files. A total of 43.787024 MBDownloading as: Fri_Apr_17_22_27_19_2020.tar.gzDownloading: 44 MB
03 数据下载结果
下载数据的速度还可以,一共有174套数据,会下载到当前工作目录下的,这个文件夹。
TCGA-GBM\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification
如果你出现2.1,2.2 的情况怎么办呢?采用之前gdc-client.exe进行下载喽。为什么会出现2.1,2.2 的错误,一方面是自己本身网络的问题,可能需要设置代理才可以访问并下载数据,另一方面可能是数据库不稳定。关于2.2 网上给出了这个解决方案
devtools::install_github("BioinformaticsFMRP/TCGAbiolinks")
注:我试了,依然不行
TCGAbiolinks看起来真的很香!有机会还会继续尝试。