GO和KEGG富集分析及去冗余工具及原理

1 GO和KEGG富集分析工具:Clusterprofiler包和REVIGO

进行基因功能或生物学通路富集的工具或网站有很多。像DAVID、IPA、GATHE等。我基本采用基于R的Clusterprofiler包。该包抓取最新的KEGG数据进行计算,保证富集结果的可靠性。另外,该包还可以对富集结果进行比较并可视化(基于ggplot2包:http://ggplot2.org/book/)。具体参数设置为:p-value cutoff=0.01, q-value cutoff=0.05, p值矫正方法为BH(即把每个p-value进行矫正,转换为q-value)。

2 去冗余

因为GO条目的分级特性,其富集结果会有冗余,对结果的分析造成影响,其中一个策略是计算两个GO terms之间的语义相似性,去除冗余。
目前主要有两类方法:

2.1 计算语义相似性得分

基于它们的共有父条目的注释统计,计算语义相似性得分,包含Resnik、Lin、Jiang 和Schlicker四种方法;

2.2 基于GO图形结构

Wang提出基于GO的图形结构进行计算。

以上方法,各有利弊,而GOSemsim(GO semantic similarity)是ClusterProfilers包的作者Y叔开发的计算GO terms,sets of GO terms,gene Cluster语义相似性的包,并且提供上述的五种语义相似计算方法。我在进行GO terms集的相似性分析时,一般采取基于Resnik和Lin两种方法的综合方法,简称为simRel方法,利用REVIGO进行分析,然后基于R语言做图。

同样,具体代码和步骤以后再写,先放图


GO和KEGG富集分析及去冗余工具及原理_第1张图片

你可能感兴趣的:(GO和KEGG富集分析及去冗余工具及原理)