TCGA数据下载教程:使用官方gdc-client软件下载

前言

本教程涉及内容:

  1. TCGA网页数据下载,检索方式
  2. gdc-client软件安装和配置
  3. 使用gdc-client下载TCGA数据

[补充]

  1. 怎么根据TCGA官方的API下载数据?简单几句命令轻轻松松下载想要的TCGA大数据
  2. Python脚本下载TCGA大数据,非常简单,开放源代码
  3. 图形界面下载TCGA大数据,GitHub项目
  4. 插播:CPI Retrieval System
    自己搭建的化合物和 蛋白质相互作用关系检索系统。本系统是基于深度学习模型自动提取文献摘要中的关系而来。欢迎访问指教。
    TCGA数据下载教程:使用官方gdc-client软件下载_第1张图片

正文开始

本教程使用原生态的TCGA官方数据下载方式,比使用第三方的工具具有数据更新快,真实的特点,当然如果觉得麻烦可以使用第三方的一些工具,单对于想要真正了解TCGA数据库的人,还是使用原生态的TCGA方式。

TCGA改版后,下载方式变得大为不同,数据都整合在GDC(Genomic Data Commons)的DATA PORTAL中。
TCGA官网:https://cancergenome.nih.gov/
TCGA数据下载网址:https://portal.gdc.cancer.gov/
Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
如果下载慢,我这提供一份下载好的连接:
https://github.com/chenwi/TCGAD/blob/master/gdc-client_v1.3.0_Windows_x64.zip

TCGA官网数据检索

如果在官网下,需要点击右边的Launch Data Portal,也就是上面TCGA数据下载的网址
TCGA数据下载教程:使用官方gdc-client软件下载_第2张图片
进入到数据下载页面(可以直接点击上面TCGA数据下载网址)后,看到的目前版本如下,目前已有40个project,32555个case。
TCGA数据下载教程:使用官方gdc-client软件下载_第3张图片

我以白血病(AML)为例,下载与白血病相关的miRNA数据。
首先点击上图的Repository进入数据检索界面,你看到的界面如下:
TCGA数据下载教程:使用官方gdc-client软件下载_第4张图片
File栏目下,选择Experiment StrategymiRNA-Seq 还有Data TypemiRNA Expression Quantification;然后在Case栏目下选择Primary Site 中的BloodBone Marrow,和Disease TypeAcute Myeloid Leukemia,这时候你会看到界面变成下面这样了:
TCGA数据下载教程:使用官方gdc-client软件下载_第5张图片
因为一般只能下载open数据,所有,可以再上面图中Access Level的地方点击一下 ,就会得到知识open的数据了(不点击也没关系,反正后期只会下载open的数据)

这次选择下载的是miRNA-Seq数据,上图显示共有265个case,301个文件,为什么会比case数多呢,说明一些case不止对应1个miRNA-Seq样本的文件,有些是重复。所有数据一共15.14MB,也不大,可以直接在网页下载,但是,本教程是讲解使用官方API下载,数据小更好演示,下面具体讲解使用gdc-client下载数据。(TCGA数据库在数据下载有规定:让Cart文件夹大于50M时,只能通过Data Transfer Tool工具进行下载。所以我这次要使用Data Transfer Tool工具来下载数据。)

首先点击上图中Manifest 这时候会下载一个包含所有文件名的小txt文件,是后面下载TCGA数据所必须准备的。我下载保存到下面文件夹了:
TCGA数据下载教程:使用官方gdc-client软件下载_第6张图片

安装配置 Data Transfer Tool

如何安装Data Transfer Tool,也就是gdc-client这个接口软件呢?
要安装Data Transfer Tool,需要到下载页面下载该工具。
Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
进去界面后,找到下图的地方,并选择windows环境下的工具,也就是打钩的那个。下载后解压缩即可使用。至于怎么用,我刚开始看到是.exe文件,但是这个软件是需要用命令行来使用的。

TCGA数据下载教程:使用官方gdc-client软件下载_第7张图片
我把该工具解压到下面这个文件夹,根据图标,说明这个软件是用Python写的,然后使用Pyinstaller打包的。
!!!!!!!!!!!!!!!**注意**!!!!!!!!!!!!!!!!!
该软件不能解压到含有中文名的文件夹下,否则会报错,不能使用!!!
TCGA数据下载教程:使用官方gdc-client软件下载_第8张图片
具体使用:打开CMD命令行窗口,输入-h命令,可以看软件是否能使用。
TCGA数据下载教程:使用官方gdc-client软件下载_第9张图片

把gdc-client加入环境变量

有没有发现我的这个命令很长?那是因为,我还没把这个软件加入环境变量,如果以后想在任何一个路劲简单使用gdc-client这个命令,那就需要把这个软件的路径加到环境变量。就是在Path加入刚刚软件所在的路径即可”。具体操作如下:
打开电脑控制面板——》系统和安全——》系统——》高级系统设置——》环境变量——》Path——》“加入你的gdc-client所在路径” ,然后应用保存。

  1. 打开电脑控制面板
    TCGA数据下载教程:使用官方gdc-client软件下载_第10张图片
  2. 系统和安全
    TCGA数据下载教程:使用官方gdc-client软件下载_第11张图片
  3. 系统
    TCGA数据下载教程:使用官方gdc-client软件下载_第12张图片
  4. 高级系统设置
    TCGA数据下载教程:使用官方gdc-client软件下载_第13张图片
  5. 环境变量
    TCGA数据下载教程:使用官方gdc-client软件下载_第14张图片
  6. Path
    TCGA数据下载教程:使用官方gdc-client软件下载_第15张图片

上面配置都完成后,看下图,现在简单输入gdc-client -h 就行了。
TCGA数据下载教程:使用官方gdc-client软件下载_第16张图片

使用gdc-client下载TCGA数据

下载方式很简单,还记得上文中下载的Manifest文件吧,然后在windows下打开cmd,并在其中输入下载命令:

gdc-client download -m gdc_manifest.2018-07-02.txt

然后就是慢慢下载了,如果中间有报错断了,一般就是网络不好的原因,重新下载或者换个时间段就行了。
最后就下载完了,一共301个文件,命令行界面和文件夹界面如下所示:
TCGA数据下载教程:使用官方gdc-client软件下载_第17张图片
TCGA数据下载教程:使用官方gdc-client软件下载_第18张图片

此教程结束。

其他使用python自定义脚本下载,以及将多个文件合并到一起的教程,请参考我的其他博文。

你可能感兴趣的:(生物信息)