2022-04-25 TCGA下载(XENA)、ID转化等问题

预后信息下载可使用:Curated版本(在TCGA下面),表达矩阵可使用GDC版本的FPKM(在GDC)下面(如TCGA-LUAD.htseq_fpkm.tsv.gz,实际下载的是log(FPKM+1),这种参考基因组是gencode.v22.annotation.gene.probeMap,注意到XENA网站带的该注释文件缺少gene_biotype这一列关键信息,所以需要参考gencode.gene.info.v22(1).tsv这个注释完善的文件增加上相应注释,才可以把protein_coding相关的转录本提取出来。
以上是XENA网站中注释文件的处理。
表达矩阵中下载下来的基因名是Ensembl ID,所以需要转换为gene symbol,要分情况:

1、像上述XENA直接下载下来的注释文件(gencode.v22.annotation.gene.probeMap)跟同一网页下载下来的表达矩阵文件(TCGA-LUAD.htseq_fpkm.tsv.gz或者TCGA-LUAD.htseq_counts.tsv.gz),其实他们的Ensembl_ID是完全一样的,这样其实可以不用拆解Ensembl_ID的小数点,直接提取protein_coding并将表达矩阵的Ensembl_ID匹配到gene symbol即可。

2、如果确定都是hg38版本,但gencode的版本又不一样,那Ensembl ID小数点的数值可能不一样,这时需要都去掉小数点后面的部分

#去掉ensemble ID的点号
library('tidyr')
library(stringr) 
#separate函数或stringr包的str_split函数拆解点号前面的部分:
LUADdata1<-separate(LUADdata,Ensembl_ID,into = c("Ensembl_ID"),sep="[.]")
LUADdata1[1:4,1:4]
dim(LUADdata1)

#或者:
#加入simplify=T,表示不返回list,文件变为matrix
LUADdata$ID<-unlist(str_split(LUADdata$Ensembl_ID,'[.]',simplify = T))[,1]
LUADdata[1:4,1:4]
dim(LUADdata) 

你可能感兴趣的:(2022-04-25 TCGA下载(XENA)、ID转化等问题)