Glimmer软件

1. Glimmer是什么

Glimmer软件采用马尔科夫模型识别微生物中的蛋白编码基因，主要是针对细菌，古菌和病毒。该软件由The Institute for Genomic Research开发，已经用于上千个细菌，古菌，病毒基因组的注释。不过该软件最终结果只是基因的位置信息，需要额外程序将基因从基因组上提取出来，并翻译成对应的氨基酸序列。
软件的官网 http://ccb.jhu.edu/software/glimmer/index.shtml

image

2. Glimmer安装

wget http://www.cbcb.umd.edu/software/glimmer/glimmer302.tar.gz
#停止正在进行的wget操作  Ctrl + Z
tar -zxvf glimmer302.tar.gz  #解压缩命令
#tar -zcvf 压缩文件名 .tar.gz 被压缩文件名
cd glimmer3.02/src
make #编译

但是，安装软件难以一帆风顺。

3. 安装Trouble Shooting

3.1 报错1：

image

解决方案：

vi Common/gene.cc
#将文件中的446行char * p 改成 const char * p
#保存退出
:wq

3.2 报错2：

image

解决方案：

vi ICM/icm.cc
#将1986行char * p 改成 const char * p
#保存退出
:wq

之后在/glimmer3.02/bin下可以找到可执行文件，即说明编译完成。

image

4. Glimmer的使用

4.1 将一个fasta格式文件中的多条序列合并成一条

sed -e '/>/d' /Users/kimhan/Desktop/final_set_img_fnas/2795386064.fna | tr -d 'n' | awk 'BEGIN {print ">1"}{print $0}' > /Users/kimhan/Desktop/1.fna

4.2 创建训练模型

Glimmer一般使用三种方法创建训练模型:

a. 用亲缘关系很近的物种的基因；
b. 用自身序列创建的ORF数据;
c. 用基因组本身的已知信息。

这里我们采用自身数据作为训练数据。
测试数据下载：
链接:https://pan.baidu.com/s/1OTh1PDGTnRfdlCGc1M1VSQ 密码:orox

4.2.1 产生长的ORF数据

long-orfs -n -t 1.15 /Users/kimhan/Desktop/genome1.fna /Users/kimhan/Desktop/1.longorfs

4.2.2 提取数据集

extract -t /Users/kimhan/Desktop/genome1.fna /Users/kimhan/Desktop/1.longorfs > /Users/kimhan/Desktop/run1.train

4.2.3 生成预测模型

build-icm -r /Users/kimhan/Desktop/run1.icm < /Users/kimhan/Desktop/run1.train

4.3 基因预测

glimmer3 -o50 -g110 -t30 /Users/kimhan/Desktop/genome1.fna /Users/kimhan/Desktop/run1.icm run1

4.4 提取预测序列

extract -t /Users/kimhan/Desktop/genome1.fna run1.predict > /Users/kimhan/Desktop/predict1.fasta

5. 注意

要注意/glimmer3.02/bin下的可执行文件软链至/usr/local/bin，避免出现command not found的报错

ln -s /Users/kimhan/glimmer3.02/bin/glimmer3 /usr/local/bin

Glimmer软件

1. Glimmer是什么

2. Glimmer安装

3. 安装Trouble Shooting

3.1 报错1：

3.2 报错2：

4. Glimmer的使用

4.1 将一个fasta格式文件中的多条序列合并成一条

4.2 创建训练模型

4.2.1 产生长的ORF数据

4.2.2 提取数据集

4.2.3 生成预测模型

4.3 基因预测

4.4 提取预测序列

5. 注意

你可能感兴趣的:(Glimmer软件)