GPL文件 一个探针对应多个symbol 整理成data.frame 【已解决】

虽说简单,但对R语言不熟悉的人来说还是需要指点一下,才会用。首先是GPL下载的文件,以GPL96为例。



提取最感兴趣的3列。



好的,接下来需要得到每个probe 对应单个symbol name的数据框。比如,10073_s_at ——DDR1;10073_s_at ——MIR4640;1053_at——RFC2……

上代码:

symbola=data.frame(probe=selectAnno$probe,symbol=selectAnno$symbol,
                     stringsAsFactors = FALSE)#22283
  symbola=symbola[which(symbola$symbol!= ""),] #21225 #删去symbol为空的
  symbolb=strsplit(symbola$symbol,split = " /// ") # 分割字符串
names(symbolb) <- symbola$probe  #这一步很关键
symbolc <- ldply(symbolb,data.frame) #23749 #list转换为data.frame
colnames(symbolc) <- c("probe","symbol")
save(symbolc,file = "GPL96_probe_symbol.Rdata")
symbola

symbolb

symbolc

大功告成!

你可能感兴趣的:(GPL文件 一个探针对应多个symbol 整理成data.frame 【已解决】)