HMMER3.1软件使用

HMMER3.1软件的使用

HMMER3.1官方下载地址:http://hmmer.org/download.html。

HMMER3.1使用手册:http://eddylab.org/software/hmmer3/3.1b2/Userguide.pdf

安装:

# 直接下载二进制包,根本就不需要进行安装,只要稍微设置一下PATH变量就可以使用了,非常方便。

# 在home目录下创建biosoft目录,一般的生物分析软件都在这里

mkdir biosoft && cd biosoft

# 二进制包解压

tar -zvf hmmer-3.1b2-linux-intel-x86_64.tar.gz

# 添加至环境变量

vim ~/.bashrc

export PATH=$PATH:~/biosoft/hmmer-3.1b2-linux-intel-x86_64/binaries

# 环境变量立即生效

source ~/.bashrc

使用说明:

HMMER软件最重要的就是四个二进制文件:hmmbuild/hmmsearch/hmmscan/hmmalign

基本使用:

1.hmmbuild构建HMM文件

根据提供的sto格式的序列比对软件构建HMM文件,sto格式文件相对于普通比对文件来看主要区别在于# STOCKHOLM 1.0开头和//结尾

hmmbuild +要输出的文件名(.hmm)+sto文件(相对路径)

hmmbuild R2R3.hmm R2R3.sto

解释一下其中的idx这一行,nseq表示一共四条序列,alen表示比对氨基酸一共171个,mlen表示最大比对上149个氨基酸,eff_nseq表示比对效率0.96存在22个gap,re/pos表示每个位置的相对熵0.589(这个就表示看不太懂)。

2.hmmsearch搜索序列数据库

hmmsearch可以识别的格式包括fasta,EMBL/UniProt文本格式和GENBANK格式

hmmsearch R2R3.hmm uniprot R2R3.fasta > R2R3.out

比对结果的说明:最后两列是对序列的说明和描述信息:

第一列的E-vaule是最终要的一个参数,越小越有可能是同源的序列

第二列的score也可以用来评估可能性,而且不依赖于比对数据库的大小,只依赖HMM文件和目标序列

第三列bias是score的偏差,比如score是222.7,那么原始值就是加上3.2,等于225.9,但是这个数值一般不重要,可以忽略不看。

后面的3列也是一样的参数,只是对于best 1 domain而言,前三列是对于full sequence而言。最后的#dom内容是有多少个domain,exp是均值,可以是小数,而N是真正的整数个数。

你可能感兴趣的:(HMMER3.1软件使用)