UCSC xena数据下载教程

UCSC xena

网站

  • 点击进去


    界面
  • 选择DATA SETS


    选择一个数据中心以及数据集
  • 选中 个TCGA-CHOL


    数据集的具体情况

    临床信息

phenotype是指临床信息

  • 下面看下count数据界面

    数据预览
    该数据已经经过log了

    由于我们下载的数据,已经是经过log了。加上,我们需要的count数据,我们只能将下载的数据反log处理得到count数据
    做差异分析,我们只要count就足够了。

  • 下面看一下,生存信息


    生存信息

下面是相关的R代码

# 1.xena
#下载三个数据count数据、临床信息,生存信息
#下面语句的含义是:从哪个地址下载,并命名
#当你已经下载了数据的时候,将if(T)该为if(F)
if(F){
  download.file(url = "https://gdc.xenahubs.net/download/TCGA-CHOL.htseq_counts.tsv.gz",destfile = "counts.tsv.gz")
  download.file(url = "https://gdc.xenahubs.net/download/TCGA-CHOL.survival.tsv.gz",destfile = "survival.tsv.gz")
}
#读取下载来的count文件  压缩格式的
dat = read.table("counts.tsv.gz",
                 check.names = F,
                 row.names = 1,#行名
                 header = T)#有列名
#逆转log
dat = as.matrix(2^dat - 1)
dat[1:4,1:4]
as.character(dat[1:100,1:10]) #有一些小数

#因为有整数,所以我们应该取整
# 用apply转换为整数矩阵
exp = apply(dat, 2, as.integer)#as.integer向下取整;ceiling是向上取整
exp[1:4,1:4] #行名消失
rownames(exp) = rownames(dat)

#临床信息读取
clinical = read.table("phenotype.tsv.gz",fill = T,header = T,sep = "\t")
#生存信息读取
surv = read.table("survival.tsv.gz",header = T)
clinical[1:4,1:4]
surv[1:4,1:4]

# 2.GDCRNATools
#下面的链接就是该数据下载方式的教程
# http://bioconductor.org/packages/devel/bioc/vignettes/GDCRNATools/inst/doc/GDCRNATools.html

你可能感兴趣的:(UCSC xena数据下载教程)