转载:tcga压缩包提取合并_《TCGA数据下载的终极篇》

原文来自转载 CSDN 原文地址

原标题:《TCGA数据下载的终极篇》

作为GEO数据的姊妹TCGA数据库中的数据也是生信分析常用的数据之一。

TCGA(The Cancer Genome Atlas )是由National Cancer Institute ( NCI, 美国国家癌症研究所)和 National Human Genome Research Institute(NHGRI, 国家人类基因组研究所)合作,在2006年建立的癌症研究项目,旨在运用高通量测序技术和生物信息学分析方法探究癌症的遗传基础,治病机理,提高了我们对癌症诊断,治疗和预防能力。TGCA数据库详细的记录每个患者的临床基本信息、外显子测序、RNA-seq测序、甲基化等数据,是癌症生物信息研究的首选工具。

最新版本(V23.0)TCGA包含39种癌症和一万多个癌症样本,TCGA样本数据可分为四级数据,其中,level1、level2不对外开放,仅对科研人员和研究所开放,一般是在国外的PI需要经过严格的申请才能获得批准下载;level3、level4一般可以公开获取,是生信小白训练学习生信技能、发表SCI的好助手。

虽然说 TCGA数据库level3、level4可以免费获取,官方也提供了python编写的下载工具GDC API,R语言也提供了不少的R包(如:RTCGAToolbox、UCSCXenaTools),但是这些工具都是在命令行使用的,需要一定的编程能力,再加上TCGA数据库远在国外,国内也没有镜像站点,下载速度也是很慢的。即使把数据下载下来时,你看到的不是合并好的一个大文件,而是一个一个小文件,每个文件是一个样本的数据,你需要手动将每个样本的数据合并在一起。对于小白党来说,样本数目过大用Excel合并又耗费时间,而且需要手动添加样本名称,不仅速度慢,而且容易出错。

针对 TCGA数据下载数据慢,数据处理难等问题,我们公司研发了一个新的数据平台,从善的处理以上各种问题。即使是不会编程的小白也可以通过使用我们的数据平台为自身研究找寻合理的研究方向,甚至是发表一些小文章也将成为一种可能。我们通过研发的新的数据平台将常用的公共数据库全部同步到国内服务器中,并且每天同步更新,同时按照常规发表SCI的习惯对所有数据进行整合,编排,方便大家下载与使用。

使用方法//网址:http://sangerbox.com/TcgaDown

一:选择操作

1.左边选择癌症种类;2.选择需要下载的数据类型;3.点击“下载到个人中心”按钮


二:下载操作

网页上方弹出开始下载XXX数据后转到个人中心,进入到下载目录下,将文件按照从大到小的顺序排序,当Merge.txt和Merge.txt.bak大小一样,说明文件合并完成。


你可能感兴趣的:(转载:tcga压缩包提取合并_《TCGA数据下载的终极篇》)