GO文件中的注释信息是如何得到的

一直很好奇GO注释文件中的信息是如何得到的,终于在《The Gene Ontology Handbook》中找到了答案。
GO的原始文件可以分为两部分:ontology和association files。

1、ontology

该文件以obo格式储存,每个词条都以树状结构表示着和其他词条的关系,具体内容可以从GO网站中找到,其中的元素和逻辑关系可以简单参考上几篇文章。主要编辑工具有go-basic、go和go-plus三个。

2、association files

这部分文件主要是关于GO词条的具体功能信息,以及相关的支撑信息,以GAF或GPAD格式储存。

如何对基因进行注释

目前对基因的注释主要有两种手段:人工注释和机器注释。

1、人工注释

人工注释由专业人士(biocurators)通过阅读,提取和转化文献中的实验结果来对基因进行注释。人工注释费时费力,但他们的努力非常重要,因为人工注释的准确性是其他注释的基石,目前有20个团队为GO的人工注释贡献力量。

2、机器注释

机器注释主要两大类方法:根据序列进行注释和文本挖掘的方法注释。
1、根据序列信息进行注释:
annotation transfers from Homologous proteins
annotation transfers from Orthologous proteins
annotation transfers from Protein families
2、文本挖掘注释
Automatic text categorization
Lexical approaches
k-Nearest neighbors
Properties of Lexical and k-NN categorizers
Inter-annotator agreement

每种方法的具体解释参考《The Gene Ontology Handbook》的相关章节。

你可能感兴趣的:(GO文件中的注释信息是如何得到的)