GO和Pathway富集分析的背景基因集

功能(GO)或者通路(Pathway)富集分析时,都会涉及到 Background; 做分析时,分析工具会提供一些数据供使用者选择或者使用自定义的gene list。

例如,在RNAseq或Microarray;有时候工具提供的 Background时物种所有的基因,现在也没有同一的标准用来自己构建Background。

# Background 构造方法:

  1. 使用全基因组中所有的基因;部分软件是这样操作的。
  2. Background应该包含可能是阳性结果的所有基因。
  3. 实验中,技术平台能够检测到的基因;(e.g., microarray)

# 两个概念+例子
Background frequency:Background 基因集包含注释到某个GO term的基因数目。
sample frequency:需要分析的gene 集包含注释到某个GO term的基因数目。
一个例子,现有S. cerevisiae(现注释有6442个基因)的10个基因需要做富集分析,如果这个10基因有5个基因注释到了GO term-DNA修复(S. cerevisiae有100个基因注释到DNA修复 );那么现在DNA修复的样本频率(sample frequency)是5/10;背景频率(background frequency)就是100/6442。

例子中,10个基因是确定的;使用全基因组注释的基因是6442;若是检测中只检测到5000个基因,那么Background gene集选用5000,背景频率也会变化(100 个DNA修复相关的基因都被检测到了),在统计检验时P值大小也会变化。除此之外,100 个DNA修复相关的基因也可能不会全部都在检测结果中。

GO term或Pathway 是否在实验结果的差异基因集中富集常使用的统计学检验基于超几何、卡方或二项式分布。基于基因组中基因注释到某个GO term的概率不变,查看差异基因集有多少基因可以注释到同一个GO term, 从而得到P值。

# Background 构造方法讨论

  1. 使用全基因组中所有的基因;部分软件是这样操作的。

    现在还没有明确的证据说明某个基因在某个组织或细胞系中不表达;组织和细胞的状态是动态变化的,基于不同的情况,基因表达模式也是不同的;在某个实验中,部分基因的表达可能会检测不到,但是他们还是背景的一部分。
    使用全基因组中所有的基因,背景频率就会比较小;这种情况下得到的结果,p值也相比会小一些,假阳性也会增多。

  2. Background应该包含可能是阳性结果的所有基因。

    在芯片测序中,特定的芯片也会对某一类的基因具有偏好性;Affymetrix Human Genome U133 Plus 2.0 GeneChip中包含了更多与甲基化相关的芯片。
    有的实验目的是为了研究一定实验条件下某个组织特定生物过程的富集状况。常规的操作是比较实验和对照组的结果,通过差异表达的方法来鉴定组特异性表达的基因。阳性结果的蛋白或基因还是很难去鉴定了。

  3. 实验中,技术平台能够检测到的基因;(e.g., microarray)

    在microarray实验中,我们预先根据想要检测的基因设计了芯片探针,因此所能检测的基因是已知的。但是一部分探针可能由于背景噪音的影响无法检测到信号;这部分基因可以通过查阅先前已发表的的数据进行评估。
    在RNAseq也存在各种问题会影响基因实际表达水平的测定,例如,PCR阶段引物与序列之间的偏好性会引入不确定变化;为了避免技术和检测上带来的问题,人为设定基因表达的count阈值,移除低于阈值的基因或者只是丢弃在所有样本中count都为零的基因。

参考:

  • 转录组入门(8): 富集分析
  • Question: Selection Of Background Gene Set In Enrichment Analysis
  • why clusterProfiler fails
  • Ten years of pathway analysis: current approaches and outstanding challenges
  • Multiple sources of bias confound functional enrichment analysis of global -omics data

你可能感兴趣的:(GO和Pathway富集分析的背景基因集)