TCGA的28篇教程-整理GDC下载的xml格式的临床资料

TCGA的28篇教程-整理GDC下载的xml格式的临床资料

临床资料因为一直在更新,很多朋友可能需要去下载最新版的,所以不得不使用GDC官网下载的方式。

GDC给出了一系列的用户友好的选择框,你只需要根据条条框框来选择就可以下载到自己想要的数据,而不需要去几百个文件夹里面漫无目的的查找了。 https://gdc-portal.nci.nih.gov/legacy-archive/search/f 根据自定义搜索过滤条件拿到了 mainfest 文件就可以使用下面代码下载:

# https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
mkdir -p ~/biosoft/gdc_client
cd ~/biosoft/gdc_client/
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.3.0_OSX_x64.zip 
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.3.0_Ubuntu14.04_x64.zip
unzip gdc-client_v1.3.0_OSX_x64.zip

/gdc-client --help
./gdc-client download --help 
mkdir clinical
./gdc-client download -m ~/Documents/Nutstore/github/TCGA-KIRC-miRNA-example/GDC/gdc_manifest.2018-08-05-clinical.txt -d clinical
#  Successfully downloaded: 522
mkdir miRNAseq
./gdc-client download -m ~/Documents/Nutstore/github/TCGA-KIRC-miRNA-example/GDC/gdc_manifest.2018-08-05-LUAD-miRNA-seq.txt -d miRNAseq
#  Successfully downloaded: 567
或者直接从微云下载:链接:https://share.weiyun.com/5XsyuzH 密码:68pm7e 

但是有个很严重的问题是该下载方式会对每一个病人给出一个xml格式文件记录着临床信息。

简单给一个代码:

# Load the packages required to read XML files.
library("XML")
library("methods")
dir='/Users/jmzeng/biosoft/gdc_client/miRNAseq/'
all_fiels=list.files(path = dir ,pattern='*.xml$',recursive=T)
cl = lapply(all_fiels
            , function(x){
              #x=all_fiels[1]
              result <- xmlParse(file = file.path(dir,x)) 
              rootnode <- xmlRoot(result)  
              xmldataframe <- xmlToDataFrame( rootnode[2] ) 
              return(t(xmldataframe))
            })

cl_df <- t(do.call(cbind,cl))
save(cl_df,file = 'GDC_TCGA_LUAD_clinical_df.Rdata')

得到的生存资料如下所示:

是不是很简单呀,赶快去试试看吧!

你可能感兴趣的:(TCGA的28篇教程-整理GDC下载的xml格式的临床资料)