从头预测基因-GlimmerHMM

官网手册戳这里

GlimmerHMM是基于Generalized Hidden Markov Model (GHMM)进行基因预测,GlimmerHMM把一个基因看做几种特征序列(状态)的有序切换,这些特征序列包括内含子,基因间隔区,四种外显子(第一个外显子,中间的外显子,最后一个外显子,唯一的外显子),切换的过程形成马尔科夫链。

该软件的一些假设

  • 每个基因开始于起始密码子ATG(but partial genes can be predicted)
  • 每个基因阅读框内除最后一个密码子外没有终止密码子(no in-frame stop codons)
  • 每个外显子与前一个外显子在同一个阅读框中。(翻译阅读时外显子间没有移框)

优点:GlimmerHMM的搜索范围下降,从而计算效率得以提高。
缺点:真正的移框外显子(genuine frame shifts)无法被检测到。

软件安装

戳这里进去下载即可
戳我
减压缩即可使用

模型训练

GlimmerHMM需要一个训练数据集,包含尽可能多的来自生物体基因组的完整编码序列,用于进行基因预测,目前训练的模型有拟南芥,水稻,人类,斑马鱼,线虫

  • 数据收集

(1)已经有良好实验背景的该物种基因信息(理想状况,一般不会太多)
(2)从非冗余蛋白数据库(nr)中搜索能够map到基因组上的长ORFs(大于500bp),获取外显子位置信息 (比较常见)
(3) PASA?

  • 开始训练

trainGlimmerHMM   [optional_parameters]

其中 为fasta的序列文件(下载的近源物种基因组序列无需整理)

>seq1
AGTCGTCGCTAGCTAGCTAGCATCGAGTCTTTTCGATCGAGGACTAGACTT
CTAGCTAGCTAGCATAGCATACGAGCATATCGGTCATGAGACTGATTGGGC
>seq2
TTTAGCTAGCTAGCATAGCATACGAGCATATCGGTAGACTGATTGGGTTTA
TGCGTTA

为外显子位置信息,这个文件要求与mfasta_file一致:序列名称一致,位置序号正确指代mfasta_file的序列,不同的序列之间用空行隔开。

seq1 5 15
seq1 20 34

seq1 50 48
seq1 45 36

seq2 17 20

这个例子中,序列sep1具有两个基因,第一个在先导链上(the direct strand)后一个在互补链上,每个基因有两个外显子。
这里有一份真实的mfasta_fileexon_file,可用于理解exon_file

如果训练集中序列太少,程序会自动警告并且退出,默认情况下要求至少50个具有完整起始密码子(ATG)和终止密码子(TAA/TAG/TGA)的基因在训练集中。

运行GlimmerHMM

glimmerhmm_linux fasta.file -d trained_dir/arabidopsis -g -n 1

#参数
-g Print output in gff format
-n Print top n best predictions

你可能感兴趣的:(从头预测基因-GlimmerHMM)