tcga数据下载_使用R下载TCGA数据

除了之前提到的,使用GDC 官方提供的gdc-client.exe对TCGA数据进行下载外(TCGA数据分析(1)),还可以使用R包对TCGA数据进行下载,这个神奇的R包叫做TCGAbiolinks。

注: 它下载数据成功率非常低,官方API中也未推荐,所以这也是我没用它的原因,但是做出的分析结果相当丰富

01 TCGAbiolinks 安装与加载

运行如下命令即可

if (!requireNamespace("BiocManager", quietly = TRUE))    install.packages("BiocManager")BiocManager::install("TCGAbiolinks")library(TCGAbiolinks)

02 TCGA数据下载

以下载TCGA-GBM数据为例,完全不需要gdc-client.exe的命令行操作,数据下载如下

proj "TCGA-GBM"query   project = proj,data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification",  workflow.type = "HTSeq - Counts")GDCdownload(query)data 

在这一步,你极有可能会出现以下几种情况:

2.1 网络链接超时

--------------------------------------o GDCquery: Searching in GDC database--------------------------------------Genome of reference: hg38Error in is.response(x) :   Timeout was reached: Operation timed out after 10000 milliseconds with 0 out of 0 bytes received

或者这种

2.2 Server down

Error in value[[3L]](cond) :   GDC server down, try to use this package later

2.3 下载成功

也有可能很幸运,出现了这种,这个时候就说明数据开始下载了。

--------------------------------------o GDCquery: Searching in GDC database--------------------------------------Genome of reference: hg38--------------------------------------------oo Accessing GDC. This might take a while...--------------------------------------------ooo Project: TCGA-GBM--------------------oo Filtering results--------------------ooo By data.typeooo By workflow.type----------------oo Checking data----------------ooo Check if there are duplicated casesooo Check if there results for the query-------------------o Preparing output-------------------Downloading data for project TCGA-GBMOf the 174 files for download 2 already exist.We will download only those that are missing ones.GDCdownload will download 172 files. A total of 43.787024 MBDownloading as: Fri_Apr_17_22_27_19_2020.tar.gzDownloading: 44 MB

03 数据下载结果

下载数据的速度还可以,一共有174套数据,会下载到当前工作目录下的,这个文件夹。

TCGA-GBM\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification

如果你出现2.1,2.2 的情况怎么办呢?采用之前gdc-client.exe进行下载喽。为什么会出现2.1,2.2 的错误,一方面是自己本身网络的问题,可能需要设置代理才可以访问并下载数据,另一方面可能是数据库不稳定。关于2.2 网上给出了这个解决方案

devtools::install_github("BioinformaticsFMRP/TCGAbiolinks")

注:我试了,依然不行

TCGAbiolinks看起来真的很香!有机会还会继续尝试。

tcga数据下载_使用R下载TCGA数据_第1张图片

你可能感兴趣的:(tcga数据下载)