一文读懂基因富集分析：从小白到SCI

对于小编来讲，刚入手生信时接触最多的就是差异分析，基因组可以算突变率、转录组可以算基因表达水平、表观组可以观察甲基化水平、蛋白质组/代谢组可以看蛋白/代谢物丰度，甚至是宏基因组也可以比较菌群的丰度。最终，在分子水平的出口都是在生物学中心法则的核酸水平，确切的说是在基因水平，但是基因的种类有很多，包括蛋白编码基因（mRNA）、非编码基因（miRNA、lncRNA、snRNA等），理解这些基因所代表的生物学意义的最佳途径就是基因富集分析。本文重点围绕以下四个问题：什么是富集分析？富集分析能用来干什么？富集分析有几种类型？如何在SCI文章中实现高质量富集分析？

一、什么是富集分析？

富集分析的原理。一个生物过程通常是由一组基因共同参与，而不是由单个基因独自完成。富集分析的基本前提假设是，如果一个生物学过程在已知的研究中发生异常，则共同发挥功能的基因极可能被选择出来作为一个与这一过程相关的基因集合。富集分析（Gene Set Enrichment Analysis, GSEA）通常是分析一组基因在某个功能节点上是否相比于随机水平过于出现（over-presentation）。富集分析原理可以由单个基因的简单注释扩展到多个基因集合的成组分析。

二、富集分析能用来干什么？

富集分析的作用。一组基因直接注释的结果是得到大量的功能节点，这些功能具有概念上的交叠现象，导致分析结果冗余，不利于进一步的精细分析，所以研究人员希望对得到的功能节点加以过滤和筛选，以便获得更有意义的功能信息。目前最常用的方法是基于GO和KEGG的富集分析。首先通过多种方法多的大量的感兴趣的基因，例如差异表达基因集、共表达基因模块、蛋白质复合物基因簇等，然后寻找这些感兴趣基因集显著富集的GO节点或者KEGG通路，这有助于进一步深入细致的实验研究。总而言之，富集分析是用来解读一组基因背后所代表的生物学知识，揭示其在细胞内或细胞外扮演了什么样的角色。

富集分析中常用的统计方法有累计超几何分布、Fisher精确检验等。由于在进行富集分析时通常需要同时进行大量检验（多重检验），所以需要采用多重检验校正的方法对检验结果进行校正，常用的校正方法包括Bonferroni校正、Benjiamini false discovery rate校正。利用富集分析方法，对基因注释数据库做生物信息学研究产生了很多富集分析工具，例如DAVID在线分析工具、R clusterProfiler包、Metascape等，这些工具对促进基因功能分析以及研究高通量测序技术产生的生物学知识数据发挥了关键作用。因为网络上相关的教程有很多，本初不再赘述，大家可以自行检索，文末列举了几个小编认为适合上手的教程。

三、富集分析有几种类型？

依据富集分析过程中基因选择、注释数据库的不同，常用的富集分析可以分为以下四种类型：GO term功能富集、KEGG pathway通路富集、MSigDB基因集富集和单基因富集等等。

GO term功能富集

基因本体（gene ontology， GO）数据库是GO组织在2000年构建的一个结构化的标准生物学模型，涵盖了细胞组分、分子功能、生物学过程三个方面，是目前应用最广泛的基因注释体系之一。GO的注释体系是一个有向无环图，包含三个分支，注释系统中每一个节点都是基因或蛋白质的一种描述，节点之间保持严格的“父子”关系。因此，一个基因或蛋白质可以从三个层面得到注释。

KEGG pathway通路富集

京都基因与基因组百科全书（Kyoto encyclopedia of genes and genomes, KEGG）是系统分析基因功能、基因组信息的数据库，整合了基因组学、生物化学及系统功能组学的信息，有助于研究者把基因及表达信息作为一个整体进行研究。目前KEGG共包含了19个子数据库，富集分析常用在KEGG Pathway通路中。

MSigDB基因集富集

MSigDB数据库定义了已知的基因集合，包括H和C1-C7八个系列（Collection）。H: hallmark gene sets （效应）特征基因集合，共50组；C1: positional gene sets 位置基因集合，根据染色体位置，共326个；C2: curated gene sets：（专家）共识基因集合，基于通路、文献等，包括KEGG；C3: motif gene sets：模式基因集合，主要包括microRNA和转录因子靶基因两部分；C4: computational gene sets：计算基因集合，通过挖掘癌症相关芯片数据定义的基因集合；C5: GO gene sets：Gene Ontology 基因本体论；C6: oncogenic signatures：癌症特征基因集合，大部分来源于NCBI GEO 未发表芯片数据；C7: immunologic signatures: 免疫相关基因集合。可以从中获取大量的已知基因集合从而进行富集分析。

单基因富集

单基因富集分析并不是说拿单个基因来进行富集分析，一个基因根本没法进行统计检验。而是基于单个基因来抓取与其相关的基因，然后用这些相关的基因来进行功能富集，有两种方法：差异法和相关法。

差异法：根据给定的一个基因的表达值对样本进行分组，然后计算组间的差异表达基因，进而利用差异基因进行富集分析。

相关法：计算给定的一个基因的表达值与其他基因之间的相关性，将具有显著相关的基因作为一个集合进行富集分析。

四、如何在SCI文章中实现高质量富集分析？

接下来从三篇SCI文章当中看一下如何将其应用。

（一）富集分析揭示肿瘤亚型

2021年8月份发表在JCI Insight（IF=8.311）上的研究Key molecular alterations in endothelial cells in human glioblastoma uncovered through single-cell RNA sequencing，从单细胞角度对胶质母细胞瘤中的内皮谱系细胞进行的降维、聚类，识别到五个亚群，通过计算亚群特异的差异表达基因，进而使用差异表达基因针对GO进行功能富集分析，揭示了这5个亚群特异的生物学功能，进而完成了胶质母细胞瘤的亚型区分，后续进行亚型刻画及生存预后分析。

（二）富集分析常见套路

2020年12月份发表在Medicine (Baltimore) （IF=1.880）的文章Screening and identification of key genes between liver hepatocellular carcinoma (LIHC) and cholangiocarcinoma (CHOL) by bioinformatic analysis，从GEO数据库搜索相关数据，一共找到三套数据，分别下载整理进行差异分析，对三套数据分析得到的差异基因取交集，一共得到170个差异基因，将上述得到的170个差异基因进行GO富集分析、KEGG富集分析，揭示关键功能。后续进行hub基因识别、生存分析验证，足以发SCI文章。

（三）富集分析常见套路

2021年4月发表在Medicine (Baltimore) （IF=1.880）的文章Identification and analysis of key genes associated with acute myocardial infarction by integrated bioinformatics methods。

基本思路是差异分析、GO和KEGG富集分析、PPI分析、筛选hub基因。通过进行差异分析，分别从GSE66360成功鉴定出289个上调的DEG和62个下调的DEG。并且它们主要在富集在嗜中性粒细胞活化，免疫反应，细胞因子，核因子κB（NF-κB）信号通路，IL-17信号通路和肿瘤坏死因子（TNF）信号通路。根据蛋白质间相互作用（PPI）的数据，对排名前10位的hub基因进行了排序，包括白介素8（CXCL8），TNF，N-甲酰基肽受体2（FPR2），生长调节型α蛋白（CXCL1），转录因子AP-1（JUN），白介素1β（IL1B），血小板碱性蛋白（PPBP），基质金属蛋白酶9（MMP9），toll样受体2（TLR2）和高亲和力免疫球蛋白ε受体亚基γ（ FCER1G）。此外，相关分析的结果表明，这10个hub基因之间存在正相关。

建议学习材料

1.生物新信息学（人民卫生出版社李霞主编）

2.https://zhuanlan.zhihu.com/p/66005958[工具] 我比较喜欢的几个富集分析工具（包括在线版和本地版）

3.https://zhuanlan.zhihu.com/p/135410211GO分析和KEGG分析都是啥？

更多文献解读，知识概述请关注：文章 - 生信人 (biosxr.cn)

一文读懂基因富集分析：从小白到SCI

你可能感兴趣的:(一文读懂基因富集分析：从小白到SCI)