蛋白序列比对生成多序列比对(MSA)文件

### 1. uniref 数据库下载
# https://www.uniprot.org/help/downloads     

# 下载 uniref50,uniref90 等数据
wget https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/uniref90.fasta.gz
## 下载中断后,可以通过-c (--continue)参数,从断点处接着下载
# wget -c https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/uniref90.fasta.gz

## 准备序列文件,单一序列,fasta格式
wget https://rest.uniprot.org/uniprotkb/Q94K49.fasta

### 2. 安装序列比对软件
## 2.1 安装hmmer,
conda install hmmer

## 2.2 安装hh-suite
# conda安装报错
#conda install hhsuite
#conda install -c conda-forge -c bioconda hhsuite

## 编译安装,make 有时会出错
#git clone https://github.com/soedinglab/hh-suite
#mkdir build
#cd build
#cmake ..
#make
#make install

## 下载Linux bin文件,直接运行
wget https://github.com/soedinglab/hh-suite/releases/download/v3.3.0/hhsuite-3.3.0-SSE2-Linux.tar.gz; mkdir hhsuite-3.3.0-SSE2-Linux; cd hhsuite-3.3.0-SSE2-Linux tar xvfz ../hhsuite-3.3.0-SSE2-Linux.tar.gz; export PATH="$(pwd)/bin:$(pwd)/scripts:$PATH"

### 3. 在序列数据库中迭代搜索
jackhmmer Q94K49.fasta path/to/uniref90.fasta

hhblits -i test.fasta -d path/to/uniref90.fasta -oa test_output_alignment.a3m -ohhm test_output_hhm_file.hhm

# -i:指定输入蛋白质序列文件。
# -d:指定构建的HHblits数据库。
# -oa:指定输出比对结果的A3M格式文件。
# -ohhm:指定输出HHM文件,这是比对结果的二进制版本。

# HHblits的输出文件包括A3M格式的比对结果和HHM格式的二进制文件。您可以进一步分析这些文件,
# 或者将它们用于其他蛋白质序列和结构分析工作,如蛋白质结构预测、功能注释等。

参考:
https://pubmed.ncbi.nlm.nih.gov/29905871/
https://pubmed.ncbi.nlm.nih.gov/25937944/
https://github.com/soedinglab/hh-suite
https://pubmed.ncbi.nlm.nih.gov/22198341/

你可能感兴趣的:(生物信息学)