Augustus

在基因组注释中，预测基因结构是最核心的一环，在众多的从头预测软件中，augustus应用较广。但是由于安装过程依赖软件较多，如果没有管理员权限一般不要轻易尝试，有兴趣可以参考基因预测软件中的奥古斯都。

1. 脚本运行

$ augustus --strand=both --genemode=partial --singlestrand=false --hintsfile=hints.gff --extrinsicCfgFile=extrinsic.cfg --protein=on --introns=on --start=on --stop=on --cds=on --codingseq=on --alternatives-from-evidence=true --gff3=on --UTR=on ----outfile=out.gff --species=human genome.fa

$ augustus --noprediction=true --species=SPECIES sequences.gb

参数解释：

--strand=both,--strand=forward or --strand=backward 表示注释基因在两条链还是其中一条；

--genemodel=partial, --genemodel=intronless, --genemodel=complete,--genemodel=atleastone or --genemodel=exactlyone

partial : 允许在序列边界预测不完整的基因(默认值) intronless : 只预测单外显子基因，如在原核生物和一些真核生物中 complete : 只预测完整基因 atleastone : 预测至少一个完整的基因 exactlyone : 准确预测一个完整的基因；

--singlestrand=true 独立预测每条链上的基因，允许在相反的链上有重叠的基因。这个选项在默认情况下是关闭的；

--hintsfile=hintsfilename 当使用此选项时，将打开考虑提示(外部信息)的预测。hintsfilename包含gff格式的提示；

--extrinsicCfgFile=cfgfilename 可选的。此文件包含用于提示及其boni和mali的使用源列表。如果没有指定配置目录中的extrinsic.cfg文件，则使用$AUGUSTUS配置路径；（不太懂）

--maxDNAPieceSize=n 此值指定是为了运行核心算法(Viterbi)而将序列分割成的片段的最大长度。默认的是——maxDNAPieceSize = 200000；

--protein=on/off

--introns=on/off

--start=on/off

--stop=on/off

--cds=on/off

--codingseq=on/off

输出选项。输出预测蛋白序列，内含子，起始密码子，终止密码子。或者在“初始”、“内部”、“终端”和“单外显子”之外使用“cds”。cds不包括停止密码子(除非stopCodonExcludedFromCDS=false)，而终端和单个外显子包含停止密码子;

--AUGUSTUS_CONFIG_PATH=path 配置config的路径(如果没有就指定为环境变量)；

--gff3=on/off 输出gff3格式；

--proteinprofile=filename 读取蛋白序列；

--predictionStart=A, --predictionEnd=B 针对某一特定区域进行注释，可以快速注释某一感兴趣的区域；

--UTR=on/off 预测除编码序列外的未翻译区域。目前，这只适用于人类，galdieria, toxopl asma和caenorhabditis；

--outfile=filename 打印输出到文件名而不是标准输出；

--noInFrameStop=true/false 不要返回带有终止密码子的转录本。否则，可能会发生内含子跨越终止密码子。默认值:假；（不太懂）

--noprediction=true/false Augustus也可以以genebank格式文件为输入文件，进行基因预测，并将预测结果和genebank的结果进行比较后得出一个精确性的统计结果。

Augustus

1. 脚本运行

你可能感兴趣的:(Augustus)