富集分析
早期的基因列表解释依赖于选择一系列高得分的基因,然后建立相当主观奇怪的关系。富集分析是一个自动的,基于严格的统计学的方法来分析和解释很大的基因列表,使用的是先验知识。富集分析来评估输入的基因列表在一个已知功能基因集的上调或下调情况。如果一个基因列表中的基因在这个已知功能集中出现的基因数目显著很多,这很可能预示这,这个生物学过程在作者研究的状况下扮演着重要角色。这个分析可以被其他已知的功能基因集重复,这个功能基因集可能数以千计。
过去几年中,有超过60种富集分析方法和工具出现。他们的主要区别在于
-(a)已知功能基因集的数据库不一样
-(b)用来评估富集的统计学方法不一样。
在接下来的几个部分,我们简要review 基因富集已经存在的几种方法,主要考虑到两个方法。
大多数的富集工具都是来自于GO解释,因为它们对大多数生物来说容易获取,并且覆盖的基因数很多,另外,还有其他一些功能基因集存在,除了GO也还有其他一些工具。功能基因集可以基于他们参与的代谢过程或信号通路来进行定义(比如KEGG,Reactome),也可以由基因表达谱调节的目标基因定义(比如mircoRNA,转录因子),也可以由蛋白质特征定义(比如结构域,染色体位置,与某种疾病的联系,刺激因子,或基因扰动等)。多个来源的功能基因集被一些像MSigDB或WhichGenes收集。不是所有的生物被功能基因集覆盖了,并且很多工具值支持特定的生物。
决定富集的统计学方法要么是基于阈值要么是基于全分布。基于阈值的方法需要用户输入排名靠前的不连续的基因列表,这需要设定一个基于统计学的基因得分阈值。基于超几何分布的Fisher‘s精确单尾检验是阐释这个问题的第一个方法,并且会继续成为这种类型最常使用的方法。这些方法对自然非连续分布列表很有用,但是当对连续的基因得分评判时就有缺点了。尤其,结果如果对阈值的选择不稳定,并且,以二进位的方式对待基因得分有很多信息确实(这里说的二进位指的是要么选中,要么不被选中)。另一方面,基于基因全分布的方法没有门槛threshold-free,因为他们检测基因集靠的是比较他们的得分分布vs背景分布。因为这个原因,他们经常被认为是优于threshold-dependent方法,尤其和一个连续的基因集得分。GSEA(Gene-Set Enrichment Analysis),它的基因排序rank源于差异表达或其他统计学,是最流行的技术之一,虽然也有其他的全分布检验模型被提出。
功能基因集冗余问题
因为功能解释的增加,可获得的功能基因集数目也逐渐增加,这就使富集分析对研究者从他们研究的高通量数据获得他们感兴趣的视角提供了非常有力的工具。然而,这产生了一个代价,随着基因集越来越大越来越复杂,这会产生一个非常长的结果列表,并增加基因集之间的冗余。冗余是伴随着登记功能能解释系统而来的一个特殊问题,像GO,子条目对他们的父条目在定义上是冗余的。基因集冗余对富集结果的解释造成了很大的障碍,限制了它分析能力的充分探索。
这个问题可以通过修饰统计学方法或基因集来减小冗余效应,以产生更简洁的富集结果。现在的方法通常利用GO的等级结构减少冗余,一个解决方法课呢个只对GO有效而对其他登记聚类的功能基因无效,比如通路,实验特征和调节靶点等。POSOC开发了GO等级聚类merge单个基因集成clusters,然后再去检测富集。Ontologizer为等级词汇定义了一个修正的Fisher‘s 精确检验,叫parent-child approach。给定一个基因集的富集根据父基因集被计算,而不是实验的基因列表,这样就不考虑子条目了。GOstats和elim采取了一种反向策略:子条目首先被检验,然后父节点被修饰,这样就不被包括在富集的子条目里。Ontologizer倾向于惩罚小的基因集,而GOstats和elim倾向于惩罚大的基因集。这个问题被权重算法克服,这种方法基于基因存在与多少个子基因集对他们进行重新权重赋分。但这被限制于等级词汇,并且需要使用fisher’s精确检验。
如果test和基因集修饰方法对基因集的冗余问题不是完全令人满意的解决方法,那么有其他可行的吗?一个不同的策略是把这些基因集间的冗余关系可视化,以有助于用户在探索富集结果的时候识别冗余。如Onto-Express,cytoscape的插件BiNGO和WebGestalt展示了GO条目等级结构。这有助于发现条目间的父子条目关系,但是这个应用仍然受限于等级词汇。另外的工具有一些灵活性。他们忽略任何预先设置的基因集结构,并计算基因集之间的相似性得分。捕获内在的基因集之间的冗余。DAVID利用模糊基因聚类,基于基因集之间的解释相似性预先计算,把富集基因集分类成不同的但是部分重叠的组。结果以表格形式展示出来。MCM软件和ClueGO(cytoscape插件)比DAVID提供了一个更丰富的可视化解决方案,把富集的基因集以网络形式展示,其中每个基因集代表一个node,边代表相似基因集间的联系。MCM利用fisher’s精确检验p-value作为基因集间的相似性得分。MCM网络包括输入的基因列表和富集的基因集信息。不同颜色区分基因集来源。ClueGO根据Cohen’s kappa 统计学决定基因集的相似性。基因集使用迭代方法进行merge。Nodes,代表富集的基因集,根据聚类成员或可替代性冠以不同颜色,根据上调或下调的基因集的比例。节点大小代表富集的显著性。ClueGO和MCM非常有用,因为他们提供了一个基因集丰富和直观的表现形式,这对任何基因集都可行。可惜的是,所有上述提到的工具,只涉及到一种富集检验(Fisher’s 精确检验),并且不喝其他的富集方法一起运用。许多工具值使用GO注释作为基因集的来源,并没考虑其他有用的的类型的基因集资源。基因集冗余可用的解决方法见下表:
为了克服上述限制,我们开发了Enrichment Map可视化方法,这可以把基因集组织成一个相似网络,其中,nodes代表基因集,连线代表基因成员的重叠,节点颜色代表富集分数。ClueGO和MCM可以产生相似的网络,但是,Enrichment Map使用可视化风格,我们可以发现更多直觉并且提供提高的功能:两个不同的富集实验可以用来比较分析通过在同一个map中展示它们。新的基因集(比如疾病基因,调节子的靶基因)可以和已经存在的基因集进行比较,热图可以用来探索任何基因集暗含在富集结果下的数据(比如基因表达模式)。最后,Enrichment Map是基于模型的,可以和任何类型的富集test和基因集资源使用。Enrichment Map可以自由获得使用,是cytoscape的一个开放插件资源。
我们下面描述Enrichment Map是如何使用的,并且它如何解释富集分析结果,我们使用的例子是我们经常使用的实验设计。
结果Results
为了简化富集结果的导航和解释,我们发展了Enrichment Map,一种基于网络的基因集富集结果可视化方法。基因集富集的重要性首次被分析,使用的方法可选择例如GSEA,并且,基于权重相似性网络被组织,nodes代表基因集,nodes间的权重连线(边)代表重叠分数(重叠分数依赖于两个基因集之间共有的基因数目)。Nodes采取自动排列的方式,这样高相似的基因集就会被集中在一起,这些簇可以很容易的认为识别,并且联系到一定的生物学功能。基因集富集结果图形化匹配到Enrichment Map,
- node大小代表基因集中基因的数目,
- edge粗细和基因集间重叠的基因数目成比例,计算方法是Jaccard或overlap系数
- 富集得分(尤其,富集p-value)和node颜色匹配(梯度颜色)
一种基因集的富集检验(one-class),node颜色从白色(无富集)到红色(高富集)
在two-calss 实验设计中,node颜色从红色(one class高富集比如case)到白色(无富集)再到蓝色(在第二类中高富集的颜色)。
在一些特殊案例中的基因表达实验,感兴趣的状态是和本底控制表达比较,那么红色代表上调,蓝色代表下调。下面这个图总结了从基因得分到Enrichment Map分析的基因得分信息流,目标是一个典型的two-class实验。
下面我们将给出一个Enrichment Map分析基因表达谱实验的典型例子。为了简单化,只有GO来的基因集被使用,虽然实际上其他类型的基因集也可以使用。Case1展示了Enrichment Map大部分的基本应用,也就是两类实验的分析。我们分析MCF7乳腺癌细胞的基因表达谱数据,有雌激素24h的处理对照。在case2,我们标记了雌激素在两个时间点的反应也就是12和24h,来评估时间的改变。在case3,我们分析了结肠癌的基因表达谱研究,来分析基因表达谱数据和已知结肠癌基因之间的联系。
Case1 one 富集(雌激素处理乳腺癌细胞)
雌激素来处理乳腺癌细胞MCF7,来分析基因表达变化。使用t-test统计方法对差异基因进行分类,得到富集结果。GSEA,然后用来分析富集的上调或下调的GO基因sets。只有通过保守显著性阈值的基因集在Enrichment Map中显示(p-value<0.001,FDR<5%),结果显示2378个基因集中156个显著在雌激素处理的细胞中富集。GSEA的结果,像其他的富集方法一样,包含基因集的列表和他们的富集统计学数据。如果有太多的基因子集通过阈值的话,这种组织形式不利于富集结果解释,就像case1。虽然这个表可以根据富集显著性排序(名义p-value,FDR,或其他得分),但仍然十分困难属于一个普通功能组群的基因子集,因为他们典型的都在table中分散着。为了说明这个问题,大量的微管细胞骨架相关基因自己在富集table中高亮显示。
一个简单的方法来解决这个问题就是让富集的GO-term可视化,根据在GO中定义的等级关系。具体看下面这个图
这个结果网络由几个不连续的子网络组成(clusters),他们之间不能互相连接,因为没有通过显著性阈值的基因集被移除了,限制了网络的size,否则,网络会太大而不能可视化。Clusters典型的匹配一个或几个功能组,手工展示并增加了注释标签,看上面那个图。因此,他们可以被成功的用于汇总富集结果。然而,和同一个生物学功能相关的基因集(比如微管骨架)但是被定义到不同的GO部分(比如,细胞组分和生物学过程)并被系统分成了不同的clusters。在几个cases中,从同一个GO部分来的功能相关的基因集也会发生这种情况(比如,MF中的tRNA 加工)。
同样的数据用Enrichment Map展示克服了这些问题,也就是说上面那个图是根据等级关系来的,但重叠高的基因仍然在不同的大term比如MF和BP中,但不会被自动分类。具体看下面这个图。已经不分bp cp啥的
基因集根据他们的相互覆盖被组织到一起。最小的编辑,比如nodes小的变位,少数冗余基因集的移除会被执行以优化网络输出。Clusters被手工circled并且加上标签来突出这些在一系列相关的基因集间普遍的生物学功能。功能上相关的基因集会高度联系,程度要比单独的等级聚类可视化更好。这可以看下下面这个关于微管骨架的放大图。
最重要的是,这个总括的全景图,和已经知道的雌激素的作为细胞增殖的激活剂的角色吻合。实际上,在雌激素处理的细胞中,富集的基因集和增加的蛋白质合成和RNA加工相关,还有有丝分裂细胞周期的调控。
在未处理的细胞中富集的基因集(蓝色)只占了整个map的小部分,并且和细胞膜和细胞黏附有关(即,MHC-II 受体,紧密连接和脂质运输)。这些功能的下调可能在支持增殖中有重要作用,也或许和相对为分化的细胞状态有关。
在这个case中描述的方法,可以应用于其他任何基因表达实验(产生了排序的基因列表)。例如,基因可以根据一个给定的TF调控的可能性排序,可以根据CHIP-chip或chip-seq实验,然后GSEA,或其他任何全分布的方法,可以被用了检测基因集富集情况。
Case2
Enrichment Map也可以用来分析比case1更复杂的实验设计。在刚才的例子,基因表达数据用了分析寻找和雌激素处理的24h的变化。现在,我们评估雌激素处理的动态学差异,也就是我们额外考虑12h的基因表达谱。基因根据差异基因表达排序(t-test),通过比较处理和未处理的细胞。GSEA被用来发现上调或下调基因的富集的GO记忆你就。标准和前面一样也就是(p-value<0.001,FDR<5%).总共188个基因集(一共2378个)显著富集,其中处理组179个,未处理组9个。富集地图产生既匹配12h又匹配24h。12h的节点在节点中心,24h是外围。这种双富集可视化非常有用,因为,我们可以看到两个数据集中同样(都是红色或都是蓝色)或不同的富集结果。看下图:
这非常明显,12h和24h雌激素处理的反应,是非常high-most nodes都是一种颜色或没有nodes同时都是蓝色或红色,前述表示基因集在两个时间点有相反的富集结果。在某些case中,会有一些nodes在一个时间点显著富集,而在另外时间点没变化。
和12h相比,24h显著富集的基因集出现在大多数功能组中。这些结果suggest,对于雌激素处理的转录反应24h总体比较强烈,并且诱导或抑制的功能组同样必要。进一步,和DNA代谢,细胞周期,微管骨架和泛素依赖的蛋白质降解系统四个clusters呈现出有趣的模式:DNA合成(如复制叉,DNA聚合酶激活)相关的基因集在12h显著富集,而和G2/M期组分和过程(比如染色体浓缩,纺锤体和nanphase promoting complex(APC)-dependent protein degradation)在24h显著表达。首先,我们观察了12和24h富集显著性差异是否符合差异基因表达谱模式,热图(有Enrichment Map生成)。APC-dependent 蛋白质降解基因集在雌激素处理24h(和12h相比)显著强烈诱导,看下图,左边的面板。这和富集结果一致。
Heat map of the top 50 features for each phenotype and a plot showing the correlation between the ranked genes and the phenotypes. In a heat map, expression values are represented as colors, where the range of colors (red, pink, light blue, dark blue) shows the range of expression values (high, moderate, low, lowest).
我们下一步调查了完全相反富集模式的基因集,replication fork,上面那个图的右半部分。雌激素处理的基因表达在24h比12h有轻微上调。但是,和未处理的细胞有明显上调。因为,富集被计算是通过比较雌激素处理和未处理的细胞,时间点是同一个。DNA代谢基因集的不同富集结果,很可能源于未处理细胞的雌激素独立的基因表达水平增加。这暗示,G2/M期比G1期可能更依赖与刺激性信号,至少是MCF7乳腺癌细胞这样。
为了评估富集结果的不同差异基因表达的可选择性统计结果,我们重复了这个分析,使用的是ratio of class means而不是t-test。虽然,发现了更多的基因集被富集,但Enrichment Map总体一样,并且有一些噪音模式。因为这个原因,ratio of class means 不被用于最终分析。这也显示了EM用于分析的参数的选择。
Case3 query set post-analysis(结肠癌早期)
这里,我们分析了结肠癌早期的基因表达谱对对照组,来鉴定在不同的基因表达谱中富集的功能组。我们然后挖掘这些基因集,以发现已知的和疾病相关的差异表达基因,或者可能是新的疾病候选基因,使用query set post-analysis进行分析,当然这个软件是EM自带的。基因表达谱数据按差异进行评分,在case和control之间使用t-test检验。GSEA被用于产生富集结果,并且可以使用EM进行可视化,像case1表述的。已知的结肠癌基因从DiseaseHub database获得(http://zldev.ccbr.utoronto.ca/,ddong/diseaseHub),这个数据库整合了从OMIM,GAD,HGMD,PharmGKB,CGP和GWAS来的数据。这个数据库中的大多数疾病基因稀有突变或多态性和结肠癌相关的,要么因为因果关系要么因为统计学关系。重叠性使用Fisher‘s 精确检验p-value评分。名义p-value(没校正的)<10-4被定义为显著差异,并且以粉色的边可视化,粗细显示重要性水平(和-log(p-value)成比例)。
总体来说,EM上调的基因集小于下调的(125对234)。许多下调的基因集是代谢过程,clusters和诸如磷脂和胆固醇生物合成,代谢辅因子,氨基酸代谢和氧代谢(尤其三羧酸循环,线粒体,氧化呼吸链)的功能相关。这不惊奇,因为大家都知道,癌细胞经历了大多数的代谢shifts,比如warburg effect,氧化磷酸化和线粒体代谢急剧下降。和上调的基因集相比,然而,只有几个下调的基因集显著和已知的疾病基因重叠。这是非常合理的,因为观察到的癌细胞中的代谢转移很像一个瘤转移的下游结果,既不是结肠癌特异的,在它的发展中也没有偶然的角色。我们决定去评估三个代谢基因集的基因表达模式,他们和已知的疾病基因都有非常重要,分别是:铁离子结合(iron ion binding),alkyl/aryl 转移酶活性,电子传递活性。从铁离子结合和电子传递活动的疾病基因高度重叠。这些基因中大多数属于细胞色素p450 家族,这对异生物质代谢非常重要。这些基因家族的突变,和癌症联系在一起,一方面因为中和有毒物质的能力,或者因为激活有毒或其他内源物质的获得能力。然而,p450基因中没有一个基因显著上调或下调。另一方面,NQO1(NADH 脱氧酶),其inactivating突变和结肠癌有关,无论是动物模型实验还是人类疾病研究。在癌症样本中下调显著。虽然这个基因很可能对癌症的进展和加重很重要,但是仍然在原始的基因表达分析中没有被鉴定。对aryl转移酶活动的检测解释,超过90%的疾病基因是glutathione s-转移酶,和去毒性有关。尤其,MGST1,显著下调,而MGST1的多态性和增加的结肠癌风险相关。像NQO1,在原始的基因表达谱中并未检测出来,在其他代谢基因集中也发现了相似的结果,Aromatic compound metabolic process,大多数下调的基因基因是glucuronosyltransferases。总之,这种类型的分析对仔细研究某些特别的特殊脱毒酶很有用。这些来自于广泛的有氧代谢的下调信号(warburg effect)。这些检测到的基因的生物学相关性被两个独立的sources支持,也就是微阵列实验的差异表达分析和已知的疾病相关基因(基于一串筛查和机制研究)。因此,这些基因在结肠癌很可能在结肠癌中扮演着重要角色,应该进一步进行研究。
和已知的疾病基因重叠最高的上调基因集和adhesion,angiogenesis,cell motility和免疫反应有关。在这些中,我们聚焦与cell motility和chemotaxis基因集。这些生理过程的失调很可能与肿瘤的侵略生长有关,也可能与对淋巴结的浸润有关,而这种浸润在more advanced 阶段和最终的转移。我们先看一下细胞迁移基因集。它的最大特点是和疾病基因集有着很大的重叠(名义p-value 3.3 10 -8)。然而,这个set中的疾病相关基因仅轻微或不一致的上调(大多数显著的名义p-value1.810 -3)。另一方面,趋药性基因集有几个已知的疾病基因,这些基因也显著上调,甚至它的总体重叠显著性比cell motility要弱。这些基因的大部分是chemokine配体,其中上调最显著的是CXCL12 配体12,这个物质由癌先关的纤维组织母细胞分泌,并且认为和肿瘤侵润有关。因为这个基因集很可能对结肠癌很重要,我们也搜寻了其他不在我们的疾病基因集中的差异基因,有趣的是,这个组中排名最靠前的基因是CYR61,这个基因在最原始的研究中被检测到,并且是作为结肠癌和对照组之间最一致差异表达的7个基因之一。CYR61可以作为疾病相关的新候选分子之一,把它和结肠癌联在一起的只有2篇文献(pubmed)..一个是我们研究中使用的原始微阵列数据研究。
这显示了,EM软件的query set post-analysis可以用于鉴定和某一生物学状态相关的基因集,根据独立的数据集信息,(在我们的研究里用的是差异基因和已知的疾病基因),然后挖掘这些基因集,之前未定义的基因(根据其展示出来的有趣的模式)。这些特征的应用不局限于疾病基因,也可以被用于鉴定已知的regulator(比如TF,microRNA)和靶基因之间的关系,也可以检测感兴趣的状态的的功能富集组 。
EM可以被应用于任何富集检测或基因集数据
刚才的使用按理展示了用EM对GSEA富集结果的可视化展示,用的是GO基因集信息。然而,EM可以和任何类型的富集test或基因集信息兼容。在text S2我们展示了它可以被应用于疾病基因列表,使用fishers 精确ttest检验由GO来的基因集大的集合。当然这也适用于通路数据库。我们也做了EM可视化与其他可视化工具的比较,(都严格依赖于Fisher’s精确检验)。
EM的局限
当富集结果包含很多相关基因集的时候EM可以很好的发挥作用,如果只有少数基因集结果,EM不能很好的提供结果解释。另外,如果这些结果基因集没有高度相关,若没使用GO或相似的等级聚类基因集,EM不能显示clusters,这样的话,和基因集table相比,它优越不到哪里去。在textS3,我们执行了EM,其中只包含几个基因集,包括实验或计算衍生的基因集,结果显示,EM可以应用于很多case,甚至GO不是主要的基因集来源。然而,特殊的基因集,比如texts3,可能会产生更少的基因覆盖,因为连接有点少。
讨论
我们上面描述了EM,一种基因集富集可视化的方法。EM可以把富集的基因集组成网络,有助于管理大的基因集之间重叠的网络,这种大的网络经常容易把结果变的复杂。EM,高度冗余或生物学相关的基因集会在网络中离的很久,使得富集结果容易解释。基因集可以由不同的 标准进行连接,比如共表达基因的数目,然而,我们使用的基因集之间的重叠策略有明显优势。因为,生物学相似的基因集容易被聚在一起,通常,这不依赖于被分析的数据类型(可以是基因表达数据可以是基因相关)。我们已经展示了EM可视化的方法,所用的数据是已经发标的微阵列基因表达谱实验数据。一个是乳腺癌细胞的,一个是结肠癌的。结果显示,EM提供了一个简明切有生物学意义的基于细胞过程的视角。
EM经常可以用于分析单个实验或两种状态的单个比较。并且基因表达数据的meta分析经常执行使用venn图或热图,而不用探索功能解释的full potential。EM可以被用于更多的信息比较,鉴定不同的实验中那个功能组差异更大。一个可视化的网络工作是必须的,因此传统的富集展示通常都是枯燥的容易出错的flat 表格,这经常会导致研究者只选择一小撮基因集进行分析。EM中的热图,可以使用户放大,以探索富集基因集的更多细节,query set analysis有利于和已知疾病基因和调节模块的探索。
Gene set enrichment已经成功应用于连接功能基因集结合疾病和其他生物学过程,还有成千上万的出版信息。我们成功应用EM于几个研究项目,比如caridac failure,甲状腺癌信号通路,哮喘等。实际上,基因组的任何研究项目都可以利用这种可视化框架,尤其是,EM这个插件的营养使得这种整个更加容易。
将来的工作将包括合并分子相互作用网络和通路信息到基因集分析方法,就像已经成功应用于基因表达分析。我们也会提高这种可视化。例如,我们正在研究一种方法,自动组合基因集cluster使用tag云技术,并且改进可视化方法,可以分析多状态实验数据(多余两个富集结果)。这对开发基因集相似性方法也非常有用。这样加权的话,可以考虑基因集中最有信息的基因(比如最差异表达的)。