在之前我们已经的到了差异表达基因(数据/矩阵),接下来就可以进行富集分析了!
python的第三方库GSEApy就是专门用来做富集分析的。在正式操作之前,先了解富集分析的原理。
1.了解富集分析
(1)介绍
随着高通量测序技术的发展,生物医学相关的研究领域进入了一个以海量数据为特征的组学时代。通过测序后往往会得到差异表达的基因或者蛋白列表。一个自然的问题是,如何将这一长串的基因或者蛋白与某个待研究的生物医学现象以及潜在机制联系起来,是生物医学研究的关键。一种方法就是将基因或者蛋白列表进行分类———对基因功能进行富集分析。鉴于此,研究人员建立了多个注释数据库,希望通过富集分析,发现生物学过程中起到关键作用的生物学通路,从而揭示和理解生物学过程的基本分子机制。
最常用的数据库是GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)。GO数据库主要描述基因的层级关系,包括分子功能、细胞组分和生物学过程。KEGG数据库表述了生物学通路。
基因富集分析常用的方法有4种,包括过表达分析(ORA)、功能集打分(FCS)、通路拓扑结构(PT)和网络拓扑结构(NT)。
(2)原理
将富集分析的原理抽象出来,其实就是类似于下述的“摸球”问题:
小红、小绿和小蓝三个人自称有超能力,可以用手摸摸球就分辨出黑球白球,于是我们找来黑袋子,放100个球,其中20个白球80个黑球,让三人分别无放回地抽取。
小红随机抽出来10个球,其中2个白球8个黑球,情况即
颜色 | 背景 | 抽球情况 | 小红抽球效果 |
白球 | 20 | 2 | 背景白球比例 20/100=20% |
黑球 | 80 | 8 | 所抽球中白球比例 2/10=20% |
球放回去,小绿又来抽球,抽出来10个球,其中3个白球7个黑球,情况即
颜色 | 背景 | 抽球情况 | 小绿抽球效果 |
白球 | 20 | 3 | 背景白球比例 20/100=20% |
黑球 | 80 | 7 | 所抽球中白球比例 3/10=30% |
小绿抽球比例比背景白球比例要高一些,说明小绿似乎会更容易抽到白球
球又放回去,小蓝来抽球,抽出来10个球,其中10个白球,0个黑球,情况即
颜色 | 背景 | 抽球情况 | 小绿抽球效果 |
白球 | 20 | 10 | 背景白球比例 20/100=20% |
黑球 | 80 | 0 | 所抽球中白球比例 10/10=100% |
这下小蓝抽中白球比例比背景白球高了很多,说明小蓝似乎更加容易抽到白球。
现在,我们关心的是,谁抽到更多的白球(相对于背景白球比例),小红与背景一致,不用管了!
小绿和小蓝都比背景多,那么如何判断小绿或者小蓝是走了狗屎运还是有超能力?
显然,抽到白球的概率我们可以用超几何分布的概率公式计算出来,可以用Python来试试:
A.对于小红的情况:
import numpy as np
import scipy.stats as st
print("小红抽球情况发生的概率:",st.hypergeom.pmf(M=100,n=20,N=10,k=2))
B.对于小绿的情况:
print("小绿抽球情况发生的概率:",st.hypergeom.pmf(M=100,n=20,N=10,k=3))
C.对于小蓝的情况:
print("小蓝抽球情况发生的概率:",st.hypergeom.pmf(M=100,n=20,N=10,k=10))
可以看到,小绿抽球的情况发生的概率相比小蓝的情况还是挺高的,达到了20%+,于是我们有把握说,小绿只不过是走了狗屎运而已。与此相反,小蓝抽中10个都为白球的概率几乎为0,我们几乎没有把握说小蓝是走了狗屎运。换句话说,我们有理由相信,小蓝确实有超能力..........
进行基富集分析原理类似于上述抽球案例:
假设我们经过了一系列分析后得到了一个基因集合(差异表达基因或者其他),还有一个通路标签P。于是抽球案例可以简单调整一下。假设某物种共有10000个基因,其中2000个基因与该通路有关,其余与该通路P无关,通过一系列处理后鉴定了1000个差异表达基因,其中200个与该通路P有关,另外的800个没有注释到该通路P(无关)。
背景 | 差异基因 | |
与P有关 | 2000 | 200 |
与P无关 | 8000 | 800 |
注意:
a. 富集和显著富集
按照上述的抽球原理,小绿和小蓝的抽白球比例都超过了背景比例,那么这种情况下两者均是“富集”,因为均偏离了背景。但是后来通过假设检验,小绿抽白球的情况更可能是一种随机波动,而小蓝抽取白球的情况就属于“显著富集”。
b.背景和抽球(基因全集和基因选择集合)
背景 和 抽球;基因全集 和 基因选择集合(如差异表达基因集合)
做基因功能富集分析的是背景注释,指的是这个物种所有基因的功能注释信息而不是选择集的基因功能注释!
2.GSEApy库进行富集分析
首先安装gseapy库:
pip install gseapy
(如果你也是windows系统,在这之前你的电脑上应该安装了rust并且配置了环境变量。否则安装会报错,这是由于gseapy0.12.1是由rust编写的,需要rust编译器)
即可完成安装
接下来就可以进行富集分析的操作啦!
导入需要的包和库
import pandas as pd
import numpy as np
import gseapy as gp
import matplotlib.pyplot as plt
from gseapy.plot import gseaplot,heatmap
数据准备
用gseapy中的函数enrichr做富集分析需要两个数据文件:
gene_list: 接受pd.series、pd.DataFrame、txt(每一行必须包含一个基因symbol)、list(以字符串的形式装这gene symbol)
gene_sets: 情况一(通过bioservices在线访问):接受多个数据库名称,可以以逗号分开,也可 以以列表的形式输入;
情况二(本地运行):以数据库下载的.gmt文件作为输入或者字典.
示范:
# gene_list
gene_list="./data/gene_list.txt",
gene_list=glist
# gene_sets【1】
gene_sets='KEGG_2016'
gene_sets='KEGG_2016,KEGG_2013'
gene_sets=['KEGG_2016','KEGG_2013']
#gene_sets【2】
gene_sets="./data/genes.gmt",
gene_sets={'A':['gene1', 'gene2',...],
'B':['gene2', 'gene4',...],
...}
来源于gseapy官方文档
GSEAPY Example — GSEApy 1.0.0 documentation
加载差异基因表达数据
DEG_exp=pd.read_excel(r'F:\\bioinformatics\\20220806\\data\\GSE5281\\DEG_GSE5281.xlsx')
print(DEG_exp.head())
a.基因列表
glist=DEG_exp['symbol'].tolist() #基因列表
print('差异表达基因数量:',len(glist))
#差异表达基因数量: 727
b.基因集
gsets=['KEGG_2016','KEGG_2021_Human']
开始做富集分析:
enr = gp.enrichr(gene_list=glist,
gene_sets=gsets,
organism='Human', # don't forget to set organism to the one you desired! e.g. Yeast
outdir='enrichr', # don't write to disk,输出目录
cutoff=0.5 ##pvalue阈值
)
运行后,在该项目文件夹下会生成一个enrichr文件,包含富集分析的所有报告
打开KEGG_2016.Human.enrichr.reports.pdf,里面显示了前10个,这是由参数top_term=10所决定的
打开KEGG_2021_Human.Human.enrichr.reports.pdf,同样也显示了前10个
同时,富集的结果也保存在enr.results中,可以查看
print(enr.results.head(5))
当然,还可以进一步作图:环形图、气泡图。详见官方文档
GSEAPY Example — GSEApy 1.0.0 documentation