TCGA数据库与数据下载

TCGA数据库:主要储存关于各类肿瘤的一个基本信息,包括RNAseq,miRNAseq,DNA甲基化,CNV,SNP等信息,是目前为止可以获得的公开数据库里面数据相对全面的一个,33种癌症类型,在各个领域得到了广泛的应用,为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据。网址:https://portal.gdc.cancer.gov/     

TCGA只对授权的用户开放Level1-Level3数据访问的权限,而普通用户只能访问Level3的分析结果,这些用户也不能有效结合重要的临床信息进行数据的深入挖掘,严重限制用户对数据的有效利用。(我摘录的,也不明白说的啥)

将TCGA数据下载之后要用第三方工具进行分析。 

进入网站怎么寻找自己想要的数据:说实话我刚进去都不认识这个界面,要去拿个视频看看了。Repository→cases→肿瘤原发部位、项目、疾病类型,比如选择结直肠、TCGA、腺癌或腺瘤→File,选择需要下载文件的数据类型,如果需要下载的是RNAseq数据,就要在Transcriptome Profiling前面打钩→Data Type选择Gene Expression Quantification→Experimental Strategy选择RNA-seq→workflow type有三种数据类型可供选择,分别是counts,FPKM和FPKM-UQ,分别表示counts数和两种归一化后的值,推荐下载counts数据,counts可以用来差异分析,FPKM是矫正后的数据,可以直接用来转化→Add All Files to Cart→右上角CART→download→manifest文件(<50M可以直接下载,>50M要借助下载工具,即Data Transfer TooL)////cart文件///meta文件///clinical josn文件

下载工具的网站:(gdc-client)                                                                https://gdc.cancer.gov/access-data/gdc-data-transfer-tool→4.0✖64z.p(manifest和gdc-client安装包共同下载)→将其解压

将manifest文件与下载后及解压后的文件放在同一文件夹,如图:

图1

复制文件夹路径,打开cmd命令系统(win+R,输入cmd)                                                                  输入cd 空格 和路径  回车后电脑命令系统进入该界面。 直接输入解压后文件的文件名称 空格 download 空格 -m manifest文件名称。回车后即可继续下载文件。

下载的文件与之前下载的cart文件解压后的结果一样,应保存在一个文件夹之内。

你可能感兴趣的:(TCGA数据库与数据下载)