转录组数据库的基本使用（一）-GO数据库

转录组数据库的基本使用（一）-GO数据库

转录组数据库有哪些？

目前在对转录组数据进行分析的时候，很多测序公司通常使用以下数据库：

GOhttp://www.geneontology.org

KEGGhttp://www.genome.jp/kegg/

NRftp://ftp.ncbi.nih.gov/blast/db

SwissProthttp://web.expasy.org/docs/swiss-prot_guideline.html

COGhttp://www.ncbi.nlm.nih.gov/COG

Pfamhttp://pfam.xfam.org/

后续会对这类数据库进行一一解释，查漏补缺

其中我们最常用来进行转录组分析的有GO和KEGG两个数据库，本文主要介绍GO数据库。

1.什么是GO数据库？

(Gene Ontology, http://www.geneontology.org）数据库由基因本体论联合会建立，该数据库将全世界所有与基因有关的研究结果进行分类汇总。对不同数据库中关于基因和基因产物的生物学术语进行标准化，对基因和蛋白功能进行统一的限定和描述。

利用GO数据库，可以在以下三个方面对基因和基因产物进行分类注释。

BP：Biological Process, 生物过程

MF：Molecular Function, 分子功能

CC：Cellular Component, 细胞组分

在这三个大分支下面又分很多小层级（level），level级别数字越大，功能描述越细致。最顶层的三大分支视为level1，之后的分级依次为level2，level3和level4。通过GO注释，可以大致了解某个物种的全部基因产物的功能分类情况。

2.GO数据库的术语形式是什么？

GO定义的术语具有有向无环性（directed acyclic graphs ,DAGs)的特点，而并非是传统的等级制定义方式（随着代数增加，下一级比上一级更为具体）。

不理解有向无环没关系，这里给大家举个例子：

植物中有一个生物学途径叫做己糖合成，它的上一级为己糖代谢和单糖合成。当转录组数据中某个基因被注释为“己糖合成活性”后，它自动地获得了己糖代谢和单糖合成地注解。因为在GO中，每个术语必须遵循“真途径”法则，即如果下一代的术语可以用于描述此基因产物，其上一代术语也可以适用。

GO有向无环图里有很多箭头，每种箭头都具有不同的含义。

字符含义箭头符号示例

此外，箭头也具有导向性。例如线粒体（A）是细胞质（B）的一部分，细胞质又是细胞（C）的一部分，从而推导出：线粒体（A）是细胞（C）的一部分。

所有推导的结果箭头都以虚线表示，其他箭头导向性关系可以参考下面这张图。

箭头导向性图

如需转载引用，请标明出处。