对水稻(模式物种)进行kegg富集分析

水稻蛋白的两种命名方式:LOC4334374(ncbi geneid)或LOC_Os01g01010.1(MSU (LOC_Os ID))和Os04t0485300(RAP (Os ID)),可能下载的不同的版本所以需要涉及到id的转换。
在水稻中有一些网页工具能完成ID的转换,如Ensemble Plants(http://plants.ensembl.org/index.html),RAP-Db(https://rapdb.dna.affrc.go.jp/),RIGW(http://rice.hzau.edu.cn/rice/).

https://www.genome.jp/kegg/catalog/org_list.html

一般而言,我们无法直接拿到类似于Os06t0664200-01或者3131385的命名数据,通常拿到的是类似于 LOC4334374或LOC_Os01g01010.1的结果。


这是我的

对于RGAP水稻的基因编号,如LOC_Os01g01010.1 我们要把它变成Os06t0664200-01 RAP-ID的命名方式,符合dosa的要求。相关数据库到https://shigen.nig.ac.jp/rice/oryzabase/download/riceId下载。

这里用徐州更的脚本把LOC_Os01g01010.1 转为 Os06t0664200-01。(同样适用于把Os06t0664200转为Os06t0664200-01)

cat your_id.txt | xargs -i awk 'BEGIN{FS="\t"}  $0 ~/{}/ { print $2}' rice_id_20140620174522.txt > RAP_id.txt

富集分析

# 对于RAP ID

Osat_specific <- read_csv("/home/lx_sky6/yt/ltl/Water-use/Results_Nov13/statistics/Osat.txt", 
    col_names = FALSE)

class(Osat_specific) ##记得把dataframe改成list或者vecter


O.sat <- enrichKEGG(Osat_specific$X1, organism="dosa", 
                 keyType = "kegg",
                 pvalueCutoff=0.05, pAdjustMethod="BH", 
                 qvalueCutoff=0.05)
barplot(O.sat) 

image.png

对于拟南芥直接用

AT2G19210
AT2G19230
AT1G51800
AT4G29990
AT4G00280
AT2G19190
AT5G33340
AT1G31450
Ath-specific <- read_csv("/home/lx_sky6/yt/ltl/Water-use/Results_Nov13/statistics/tair.txt", 
                   col_names = FALSE)
Ath <- enrichKEGG(Ath-specific$X1, organism="ath", 
                 keyType = "kegg",
                 pvalueCutoff=0.05, pAdjustMethod="BH", 
                 qvalueCutoff=0.05)
enrichplot::dotplot(Ath, font.size =10,showCategory=20)+
  theme ( legend.key.size = unit(10,'pt'),plot.margin=unit(c(1,1,1,1), 'lines'))
image.png

你可能感兴趣的:(对水稻(模式物种)进行kegg富集分析)