从KEGG的pathway中提取gene symbol

我的课题需要癌症中糖基因,查了下KEGG,正好有这个通路,如图。

从KEGG的pathway中提取gene symbol_第1张图片

顺便纠正几个KEGG知识:
pathway: hsa05205
K+数字,如K00844 :基因
Ko+数字,如Ko00010 :通路号

如何把图中的基因提取出来呢?我费了好大的劲,最后感谢谷歌,去死吧坑爹的百度。

http://togows.dbcls.jp/entry/pathway/hsa05205/genes.json
网址中的hsa05205换成你想要的通路,就下到了json格式的文件

如何清洗json格式的数据?

我写了一坨代码,看着很恶心。不过倒是可以用,以后技术提升了,我会重新把它改改

setwd("/Users/baiyunfan/desktop/gly")
library(rjson)
library(tidyr)
r=fromJSON(file="hsa05205.json")
gly_gene_symbol<-sapply(1:length(r[[1]]),function(i){strsplit(strsplit(r[[1]][i][[1]],split = "\\s+")[[1]][1],"[;]")[[1]]
})
write.csv(gly_gene_symbol,"gly.csv")

你可以点进那个链接下载数据,然后用我的代码跑一遍 = =
如果能帮我改进就更好了

你可能感兴趣的:(从KEGG的pathway中提取gene symbol)