基因组注释理论基础

基因组注释主要包括四个方面:

重复序列识别

序列比对方法

        RepeatScout、LTR-finder、Tendem Repeat Finder、Piler、Repeatmoderler软件 + Repbase数据库比对

从头预测方法

        Repeatmasker识别与已知重复序列相似的重复序列

非编码RNA的预测

         一般专注于搜索单一种类的ncRNA,如tRNAScan-SE 搜索tRNA、snoScan 搜索带C/D盒的snoRNAs、SnoGps 搜索带H/ACA 盒的snoRNAs、mirScan 搜索microRNA等等。

          采用的非编码RNA序列的预测方法都是基于序列比对和结构预测

基因结构预测

        包括预测基因组中的基因位点、开放性阅读框架(ORF)、翻译起始位点和终止位点、内含子和外显子区域、启动子、可变剪切位点以及蛋白质编码序列等等。

         Glimmer应用最广泛的原核生物基因结构预测软件。

          真核生物:隐马尔可夫模型-Genscan、SNAP、GeneMark、Twinscan

           基因结构预测主要通过序列比对结合从头预测方法进行。序列比对方法采用blat和pasa等比对方法,将基因组序列与外部数据进行比对,以找到可能的基因位置信息。常用的数据包括物种自身或其近缘物种的蛋白质序列、EST序列、全长cDNA序列、unigene序列等等。这种方法对数据的依赖性很高,并且在选择数据的同时要充分考虑到物种之间的亲缘关系和进化距离。基因从头预测方法则是通过搜索基因组中的重要信号位点进行的。常用的软件有Genscan、SNAP、Augustus、Glimmer、GlimmerHMM等等。同时采用多种方法进行基因预测将产生众多结果,因此最后需要对结果进行整合以得到基因的一致性序列。常用软件有Glean,EVM等。

基因功能注释

           现在多利用四个常用的数据库进行基因功能注释。使用的数据库有Uniprot蛋白质序列数据库、KEGG生物学通路数据库、Interpro蛋白质家族数据库和Gene Ontology基因功能注释数据库。

1):与Uniprot蛋白质序列数据库比对,获得序列的初步信息。

2):与KEGG数据库比对,预测蛋白质可能具有的生物学通路信息。

3):与Interpro数据库比对将获得蛋白质的保守性序列,模序和结构域等。

4):预测蛋白质的功能。Interpro进一步建立了与Gene Ontology的交互系统:Interpro2GO。该系统记录了每个蛋白质家族与Gene Ontology中的功能节点的对应关系,我们通过此系统便能预测蛋白质执行的生物学功能。

基因组注释的三种策略:

从头注释(de novo prediction):通过已有的概率模型来预测基因结构,在预测剪切位点和UTR区准确性较低

同源预测(homology-based prediction):有一些基因蛋白在相近物种间的保守型搞,所以可以使用已有的高质量近缘物种注释信息通过序列联配的方式确定外显子边界和剪切位点

基于转录组预测(transcriptome-based prediction):通过物种的RNA-seq数据辅助注释,能够较为准确的确定剪切位点和外显子区域。

最后需要用EvidenceModeler(EVM)和GLEAN工具进行整合,合并成完整的基因结构。

基因组自动注释软件 CpGAThttp://bioservices.usd.edu/gsap.html

你可能感兴趣的:(基因组注释理论基础)