文献:clusterProfiler: an R Package for Comparing Biological Themes Among Gene Clusters

文献时间

2011

摘要

转录组和蛋白组测序数据不断增多,这就需要一个综合的分析策略。我们在此提供了一个R包,clusterProfiler,它将基因簇的富集分析和功能描述查找自动化。将分析模块和可视化模块组合成一个简单的流程。目前,此包支持三个物种,人类,小鼠和酵母。这个保重提供的方法,可以简便的推广到其他物种。clusterProfiler包在Bioconductor项目中的Artistic-2.0 License下发布。 源代码和插图可以在http://bioconductor.org/packages/release/bioc/html/clusterProfiler.html免费获得。

引言

高通量产生了大量的数据,就需要从数据中获取生物层面的信息。常用的方法就是通过基因的相似性(例如表达)来形成基因簇,从系统的层面去寻找可能的模式(例如生物过程,启动子等)。

另一种查找相同功能基因的方法就是通过ontologies提供的生物相关信息来判断。比如GO提供基因在生物过程,分子功能,细胞组成三个水平的描述。KEGG提供基因在通路方面的描述。DO提供人类基因在疾病方面的描述。相关的工具已经开发了很多,GO::TermFinder和GOstats用来进行GO富集分析,SubpathwayMiner用来发现通路。

虽然这些工具可以自动计算显著性,但需要手动选择最后的基因簇。 因此,开发了一些新工具,如ClueGO和go-Profiles,以部分解决这一问题。然而,它们仅支持两组基因的比较。TM4 MultiExperiment Viewer通过将层次聚类与EASE相结合来实现Tree-EASE(TEASE)算法,可以执行聚类分析,然后进行GO浓缩计算,但没有用于比较和可视化集群之间功能差异的工具。在这里,我们提出了一个名为clusterProfiler的R软件包,用于GO和KEGG的统计分析,能够使基因簇之间进行比较。

材料和方法

这个包在R平台上实现,依赖的包有GO.db和KEGG.db两个注释数据库,org.Hs.eg.db,org.Mm.eg.db和org.Sc.sgd.db物种基因组数据库。

clusterProfiler包通过groupGO,基于它们在GO特定级别的投影对基因进行分类,并基于超几何分布进行富集GO和富集KEGG分析。为了防止多重测试中的高错误发现率(FDR),还估计了F值控制的q值。 此外,clusterProfiler提供了一个函数compareCluster,用于自动计算每个基因簇的丰富功能类别,并提供了几种可视化方法。

提供的基因簇对比方法,适用于各种gene-ontology。在R中clusterProfiler和DOSE合作可以对比基因簇之间基因和疾病的相关性。疾病背景下比较基因簇能够高通量数据转化为临床数据。

结果

使用了200个癌症病人的表达数据(GSE11121),SAM算法筛选了5230个差异性基因(DECs),然后使用软聚类算法从中鉴定了8个基因簇,最后使用clusterProfiler通过基因簇富集的功能对比这些基因簇。

如图,点的大小表示每行的百分比(GO类别),点的深浅表示富集程度。

总结和讨论

提供了新的包clusterProfiler,内含groupGO,enrichGO和enrichKEGG来进行分类和富集分析。而且,将分类和富集分析应用到了基因簇之间的比对。而且模型更加精巧。任何形式的生物功能ontologys都可以采用这个方法,而且还有图形化工具。

这个包很简单,专门为转录组和蛋白组分析设计。可以很简单的拓展给其他物种,而且方便和其他包合作。

计划了三个发展战略。首先,使用KEGG和GO术语相似的地方来聚合类别,以产生更易解释的结果。然后,找类别中相似的基因对其排序,然后将它们关联起来寻找富集类别,以提高活性模块寻找的灵敏度。最后,我们将开发一个基于诱导有向无环图的统计模型,以比较功能概况作为一个整体而不是一组不相关的类别。这些策略将增加clusterProfiler的多功能性。

你可能感兴趣的:(文献:clusterProfiler: an R Package for Comparing Biological Themes Among Gene Clusters)