专栏十一:基因集和siganture的jaccard相似系数计算

这里不介绍Jaccard相似系数的定义了,最简单的例子

如集合A={1,2,3,4};B={3,4,5,6};
那么他们的J(X,Y)=1{3,4}/1{1,2,3,4,5,6}=1/3

那么如果你富集了几百个基因集,然后你想对这几百个基因集进行归类,肯定是根据基因集的相似性归类吧。比如都是3个基因集合,A通路是VIM IDO1 ITGB1 B是CD3 CD4 CD8 C是VIM ITHB1。那么肯定是A和C最像的,不过要怎么证明呢?

1.从GSEA base下载基因集合

library(GSVA)
library(GSVAdata)
library(GSEABase)
library(limma)


kegg <- getGmt("/home/data/ybk/genelist/c2.cp.kegg.v2023.1.Hs.symbols.gmt")  ##186 gene sets
reactome <- getGmt("/home/data/ybk/genelist/c2.cp.reactome.v2023.1.Hs.symbols.gmt")  ##1569 gene sets 

2.挑两个基因集合出来

var="KEGG_VIRAL_MYOCARDITIS"
var2="REACTOME_MAPK_FAMILY_SIGNALING_CASCADES"

geneIds(kegg[[var]])  # var="KEGG_VIRAL_MYOCARDITIS" 内的基因
geneIds(reactome[[var2]])

3.计算

这里的dat2是如果你有自测数据,那么限定一下你做计算的基因要在你的自测数据中

你可能感兴趣的:(R语言单细胞空间转录组绘图代码,r语言,学习,生物信息学)