GO和KEGG学习笔记1(含R代码)

材料:一个只有gene name的表格

需求:KEGG富集分析

背景

功能富集分析:按照功能分类,将功能相近的基因/蛋白分到一起,并关联其生物学表型。

Gene Ontology (GO)一个数据库,用以限定描述多种物种的基因/蛋白功能。注释分三类,Molecular Function(MF),Biological Process(BP),Cellular Components(CC)。

KEGG也是个数据库,其中最有名的就是他的pathway数据库。


其代码实现用Y叔的clusterprofiler及其简单。(包的安装和调用不写了)

1.转换ID,因为只有gene name,属于“SYMBOL”所以先要将其转化为"ENSEMBL",ENSG00XXXX格式

name_ID = bitr(genename,fromType = 'SYMBOL',toType = 'ENSEMBL',OrgDb =

                'org.Hs.eg.db')


但是还不够,后面enrichkegg,只支持'ENTREZID“格式的ID,比如’1244‘

所以再用一次bitr函数

name_ID_1 = bitr(genelist,fromType = 'ENSEMBL',toType = 'ENTREZID',OrgDb = 'org.Hs.eg.db')


2.kegg

KEGG <- enrichKEGG(gene = genelist,organism = 'hsa',keyType = 'kegg',pvalueCutoff = 0.05,pAdjustMethod = 'BH')

再写出文件

write.csv(summary(KEGG),'summary_KEGG.csv',row.names = F)


           OK,下一篇记录结果分析和可视化。

补充:GO富集的代码

ego = enrichGO(OrgDb="org.Hs.eg.db", gene = genelist,pvalueCutoff = 0.01,readable=TRUE)

write.csv(ego,"G-enrich_pri.csv",row.names =F)

你可能感兴趣的:(GO和KEGG学习笔记1(含R代码))