转录组数据库的基本使用(一)-GO数据库

转录组数据库的基本使用(一)-GO数据库

转录组数据库有哪些?

目前在对转录组数据进行分析的时候,很多测序公司通常使用以下数据库:

GOhttp://www.geneontology.org

KEGGhttp://www.genome.jp/kegg/

NRftp://ftp.ncbi.nih.gov/blast/db

SwissProthttp://web.expasy.org/docs/swiss-prot_guideline.html

COGhttp://www.ncbi.nlm.nih.gov/COG

Pfamhttp://pfam.xfam.org/

后续会对这类数据库进行一一解释,查漏补缺

其中我们最常用来进行转录组分析的有GO和KEGG两个数据库,本文主要介绍GO数据库。


1.什么是GO数据库?

(Gene Ontology, http://www.geneontology.org)数据库由基因本体论联合会建立,该数据库将全世界所有与基因有关的研究结果进行分类汇总。对不同数据库中关于基因和基因产物的生物学术语进行标准化,对基因和蛋白功能进行统一的限定和描述。


利用GO数据库,可以在以下三个方面对基因和基因产物进行分类注释。

BP:Biological Process,  生物过程

MF:Molecular Function, 分子功能

CC:Cellular Component, 细胞组分

在这三个大分支下面又分很多小层级(level),level级别数字越大,功能描述越细致。最顶层的三大分支视为level1,之后的分级依次为level2,level3和level4。通过GO注释,可以大致了解某个物种的全部基因产物的功能分类情况。


2.GO数据库的术语形式是什么?

GO定义的术语具有有向无环性(directed acyclic graphs ,DAGs)的特点,而并非是传统的等级制定义方式(随着代数增加,下一级比上一级更为具体)。



不理解有向无环没关系,这里给大家举个例子:

植物中有一个生物学途径叫做己糖合成,它的上一级为己糖代谢和单糖合成。当转录组数据中某个基因被注释为“己糖合成活性”后,它自动地获得了己糖代谢和单糖合成地注解。因为在GO中,每个术语必须遵循“真途径”法则,即如果下一代的术语可以用于描述此基因产物,其上一代术语也可以适用。

GO有向无环图里有很多箭头,每种箭头都具有不同的含义。

字符含义箭头符号示例


此外,箭头也具有导向性。例如线粒体(A)是细胞质(B)的一部分,细胞质又是细胞(C)的一部分,从而推导出:线粒体(A)是细胞(C)的一部分。

所有推导的结果箭头都以虚线表示,其他箭头导向性关系可以参考下面这张图。


箭头导向性图

如需转载引用,请标明出处。

你可能感兴趣的:(转录组数据库的基本使用(一)-GO数据库)