TCGA的ensmbl怎么转换?

一切不给出原始数据的推文都是耍流氓。而一切不敲代码的初学者都是杨白劳。今天的问题出现在这里。我用Biolinks包下载好TCGA的RawCounts数据之后。用Ensembl官网的人基因组注释文件并转换成表格,对RawCounts的Ensembl好转换成基因名,发现有写基因名有多个Ensembl对应。然后我查看TCGA的pipelines,看到它是用GENECODE进行基因注释的。并且附带有注释文件,在这里点击注释文件即可跳转链接。

TCGA的ensmbl怎么转换?_第1张图片
image.png

下载蓝框内,即可得到今天要操作的原始文件。
后面进入R的世界。

library(refGenome)
ens <- ensemblGenome()
read.gtf(ens, "gencode.v22.chr_patch_hapl_scaff.annotation.gtf")

source("https://bioconductor.org/biocLite.R")
biocLite("rtracklayer")
biocLite("SummarizedExperiment")
gtf1 <- rtracklayer::import('gencode.v22.chr_patch_hapl_scaff.annotation.gtf')
gtf_df <- as.data.frame(gtf1)
head(gtf_df)
ensem2symbol <- gtf_df[gtf_df$type == 'gene',c('gene_id', 'gene_type', 'gene_name', 'source')]
rownames(ensem2symbol) <- substr(ensem2symbol$gene_id, 1, 15)

save(ensem2symbol, file = 'ensem2symbol.Genecode.v22.rdata')


ensem2symbol$gene_name[table(ensem2symbol$gene_name) != 1]
ensem2symbol[ensem2symbol$gene_name == 'CFB', ]

这样就得到了转换表格。在需要转换的代码里,导入这个文件即可。

你可能感兴趣的:(TCGA的ensmbl怎么转换?)