Win10使用gdc-client下载TCGA数据集【安装使用教程】成功解决闪退问题!

做实验需要下载TCGA数据集,数据量比较大的时候,直接从网页下载速度非常慢,容易出现下载不全等情况。

调研后选择在Win10端使用gdc-client来帮助下载Cart文件。

一、下载软件、配置环境

下载软件

下载网站链接:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool

找到自己想要下载的版本,我这里通过Windows10举例

Win10使用gdc-client下载TCGA数据集【安装使用教程】成功解决闪退问题!_第1张图片

【注意】该软件不能放在含有中文名的文件夹下,否则会报错。

解压后双击【gdc-client.exe】打开软件,会闪退

该软件不能直接点击使用,需要配置后在命令行中使用

配置环境

使用【win+R】组合键,输入【cmd】,打开命令行窗口

输入:

# 程序安装路径 -h
D:\Application\gdc-client\gdc-client.exe -h

Win10使用gdc-client下载TCGA数据集【安装使用教程】成功解决闪退问题!_第2张图片

出现以上信息,代表程序可以正常运行!

但是为了后续更方便地下载数据,我们把gdc-client加入到系统环境变量中

打开win10【控制面板】——【系统和安全】——【系统】——【高级系统设置】——【环境变量】

Win10使用gdc-client下载TCGA数据集【安装使用教程】成功解决闪退问题!_第3张图片

点击系统变量Path的编辑

Win10使用gdc-client下载TCGA数据集【安装使用教程】成功解决闪退问题!_第4张图片

把程序安装路径添加至系统变量

Win10使用gdc-client下载TCGA数据集【安装使用教程】成功解决闪退问题!_第5张图片

最后逐步点击确定,完成设置

用户变量和系统变量的区别:

在高级设置中,有用户变量和系统变量两部分,它们均包含Path变量。

用户变量通常用来存储个人化的配置和偏好设置;系统变量适用于存储整个操作系统的环境变量,它对所有用户和进程都可见。

如果将一个文件的路径添加到系统变量中,就不需要再将它也参加到用户变量中,因为系统变量的优先级更高,会覆盖同名的用户变量。

最后测试环境变量设置是否成功

在命令行中输入以下命令

gdc-client -h

出现和前文相同界面,代表成功。

二、使用gdc-client下载数据

以TCGA-LAML(白血病)转录组学数据下载为例,展示过程

下载manifest文件

选择想要下载的数据

Win10使用gdc-client下载TCGA数据集【安装使用教程】成功解决闪退问题!_第6张图片

添加至购物车(添加前要清除购物车,不然下载的数据就错乱了)

Win10使用gdc-client下载TCGA数据集【安装使用教程】成功解决闪退问题!_第7张图片

打开网站右上角购物车

image-20230713203319990

点击【Download】下载Manifest文件

Win10使用gdc-client下载TCGA数据集【安装使用教程】成功解决闪退问题!_第8张图片

Manifest文件包含想要下载的数据信息;Cart是真正的数据,也是我们想要通过命令行下载得到的

下载数据

把下好的文件放到和gdc-client同一路径下,这样后续处理比较方便

image-20230713203708804

新建一个文件夹来保存Cart数据,我的路径为:C:\Users\10630\Desktop\TCGA-LAML\LAML-data

因此我需要在命令行中输入以下命令来下载(根据自己的路径不同改写)

gdc-client download -m D:\Application\gdc-client\gdc_manifest_20230713_123548.txt -d C:\Users\10630\Desktop\TCGA-LAML\LAML-data

数据会逐个样本下载

image-20230713204233686

如果不自己新建路径,则文件会下载至命令行窗口的路径中,我这里就是:C:\Users\10630

这样会和原有文件混在一起,不好处理,所以还是自己新建一个文件夹保存会比较好

成功下载151个样本

image-20230713212402024

你可能感兴趣的:(生物信息,TCGA,生信)