Glimmer软件

1. Glimmer是什么

Glimmer软件采用马尔科夫模型识别微生物中的蛋白编码基因,主要是针对细菌,古菌和病毒。该软件由The Institute for Genomic Research开发,已经用于上千个细菌,古菌,病毒基因组的注释。不过该软件最终结果只是基因的位置信息,需要额外程序将基因从基因组上提取出来,并翻译成对应的氨基酸序列。
软件的官网 http://ccb.jhu.edu/software/glimmer/index.shtml

image

2. Glimmer安装

wget http://www.cbcb.umd.edu/software/glimmer/glimmer302.tar.gz
#停止正在进行的wget操作  Ctrl + Z
tar -zxvf glimmer302.tar.gz  #解压缩命令
#tar -zcvf 压缩文件名 .tar.gz 被压缩文件名
cd glimmer3.02/src
make #编译

但是,安装软件难以一帆风顺。

3. 安装Trouble Shooting

3.1 报错1:

image

解决方案:

vi Common/gene.cc
#将文件中的446行char * p 改成 const char * p
#保存退出
:wq

3.2 报错2:

image

解决方案:

vi ICM/icm.cc
#将1986行char * p 改成 const char * p
#保存退出
:wq

之后在/glimmer3.02/bin下可以找到可执行文件,即说明编译完成。


image

4. Glimmer的使用

4.1 将一个fasta格式文件中的多条序列合并成一条

sed -e '/>/d' /Users/kimhan/Desktop/final_set_img_fnas/2795386064.fna | tr -d 'n' | awk 'BEGIN {print ">1"}{print $0}' > /Users/kimhan/Desktop/1.fna

4.2 创建训练模型

Glimmer一般使用三种方法创建训练模型:

a. 用亲缘关系很近的物种的基因;
b. 用自身序列创建的ORF数据;
c. 用基因组本身的已知信息。

这里我们采用自身数据作为训练数据。
测试数据下载:
链接:https://pan.baidu.com/s/1OTh1PDGTnRfdlCGc1M1VSQ 密码:orox

4.2.1 产生长的ORF数据

long-orfs -n -t 1.15 /Users/kimhan/Desktop/genome1.fna /Users/kimhan/Desktop/1.longorfs

4.2.2 提取数据集

extract -t /Users/kimhan/Desktop/genome1.fna /Users/kimhan/Desktop/1.longorfs > /Users/kimhan/Desktop/run1.train

4.2.3 生成预测模型

build-icm -r /Users/kimhan/Desktop/run1.icm < /Users/kimhan/Desktop/run1.train

4.3 基因预测

glimmer3 -o50 -g110 -t30 /Users/kimhan/Desktop/genome1.fna /Users/kimhan/Desktop/run1.icm run1

4.4 提取预测序列

extract -t /Users/kimhan/Desktop/genome1.fna run1.predict > /Users/kimhan/Desktop/predict1.fasta

5. 注意

要注意/glimmer3.02/bin下的可执行文件软链至/usr/local/bin,避免出现command not found的报错

ln -s /Users/kimhan/glimmer3.02/bin/glimmer3 /usr/local/bin

你可能感兴趣的:(Glimmer软件)