PSP - 使用 MMseqs2 工具快速搜索蛋白质序列数据库 (GMGC)

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/131934642

PSP - 使用 MMseqs2 工具快速搜索蛋白质序列数据库 (GMGC)_第1张图片

MMseq2 是非常强大和高效的生物信息学软件,可以在极短的时间内对大规模的核苷酸和蛋白质序列进行搜索和聚类。主要特点有:

  • 使用一种新颖的序列比对算法,可以在保持高灵敏度的同时,大幅提高搜索速度。它可以比 BLAST 快 10000 倍,比 PSI-BLAST 快 400 倍。
  • 可以处理多种序列格式,包括 FASTA, FASTQ, A3M, Stockholm 等,还可以直接从 NCBI 下载序列数据,或者从 UniProt, Pfam, InterPro 等数据库中获取预构建的序列集。
  • 提供了多种搜索模式,包括序列对序列,序列对数据库,数据库对数据库,以及配置文件对配置文件,还支持多种搜索参数,例如最小序列相似度,最大 E 值,最小覆盖率等。
  • 可以对搜索结果进行聚类分析,根据序列相似度将序列分为不同的类别。使用了一种贪心算法,可以在线性时间内完成聚类任务。还可以生成聚类结果的可视化报告。
  • 开源软件,使用 GPL 许可协议。它用 C++ 编写,适用于 Linux, MacOS 和 Windows 平台。它可以在多核和多服务器上并行运行,并具有很好的可扩展性。

Paper:MMseqs2: sensitive protein sequence searching for the analysis of massive data sets

GitHub:MMseqs2: ultra fast and sensitive sequence search and clustering suite

  • 超快速、灵敏的序列搜索和聚类套件

参考文档:MMseqs2 User Guide


1. 数据库

数据库的 FASTA 文件:virus4/gmgc.fa

数据库下载,60G,参考 MSA DB - GMGC:

  • 全球微生物基因目录(The Global Microbial Gene Catalog)是一个集成的、一致处理的、涵盖微生物世界的基因目录,结合宏基因组学和高质量的分离株序列。从 13,174 个宏基因组(覆盖 14 种生境)和完整的 ProGenomes2 数据库中,共有 23 亿个开放阅读框(ORFs)按照 95% 的核苷酸同源性进行聚类,构建了一个包含 3.0265 亿个单基因(unigenes)的目录。

PSP - 使用 MMseqs2 工具快速搜索蛋白质序列数据库 (GMGC)_第2张图片

数据如下:

>GMGC10.033_133_404.UNKNOWN|built-environment
MKGLVVTGLTVAFGFVAYEKLTYVVDVVKHLIA
>GMGC10.026_381_531.UNKNOWN|built-environment
MIWRSGRFAAVALQRKPPVGWAGNLVQPEKLRV
>GMGC10.013_658_495.UNKNOWN|built-environment
MMNKMKSNKFFNTMGMVLSALIDAKAVATTLNK

设置 BOS 命令:

alias bos='bcecmd/bcecmd --conf-path bcecmd/bceconf/ bos'

2. 配置 MMseqs2

安装 MMseqs2:

conda install -c conda-forge -c bioconda mmseqs2

版本号 13.45111:

conda list mmseqs2
# packages in environment at miniconda3/envs/torch-def:
#
# Name                    Version                   Build  Channel
mmseqs2                   13.45111             h95f258a_1    bioconda

配置 ~/.bashrc,即:

if [ -f miniconda3/envs/torch-def/util/bash-completion.sh ]; then
    source miniconda3/envs/torch-def/util/bash-completion.sh
fi

测试命令:mmseqs,输出信息。

默认命令顺序:

mmseqs createdb examples/DB.fasta targetDB
mmseqs createindex targetDB tmp
mmseqs easy-search examples/QUERY.fasta targetDB alnRes.m8 tmp

3. 构建索引

构建 mmseqs 索引:

mmseqs createdb data/gmgc.fa gmgc.db   # 耗时较长
mmseqs createindex gmgc.db tmp

搜索 MSA:

mmseqs easy-search QUERY.fasta gmgc.db alnRes.m8 tmp

createdb的日志:

createdb gmgc.fa gmgc.db 

MMseqs Version:         13.45111
Database type           0
Shuffle input database  true
Createdb mode           0
Write lookup file       1
Offset of numeric ids   0
Compressed              0
Verbosity               3

Converting sequences
[294700023] 10m 36s 322ms
Time for merging to gmgc.db_h: 0h 1m 45s 892ms
Time for merging to gmgc.db: 0h 3m 52s 379ms
Database type: Aminoacid
Time for processing: 0h 27m 40s 149ms

createdb的输出:

gmgc.db
gmgc.db.dbtype
gmgc.db_h
gmgc.db_h.dbtype
gmgc.db_h.index
gmgc.db.index
gmgc.db.lookup
gmgc.db.source
gmgc.fa

createindex的日志:

indexdb gmgc.db gmgc.db --seed-sub-mat nucl:nucleotide.out,aa:VTML80.out -k 0 --alph-size nucl:5,aa:21 --comp-bias-corr 1 --max-seq-len 65535 --max-seqs 300 --mask 1 --mask-lower-case 0 --spaced-kmer-mode 1 -s 7.5 --k-score 0 --check-compatible 0 --search-type 0 --split 0 --split-memory-limit 0 -v 3 --threads 232 

Target split mode. Searching through 5 splits
Estimated memory consumption: 691G
Write VERSION (0)
Write META (1)
Write SCOREMATRIX3MER (4)
Write SCOREMATRIX2MER (3)
...
Time for merging to gmgc.db.idx: 0h 0m 0s 523ms
Time for processing: 0h 27m 43s 883ms

4. 搜索序列

搜索 MSA,以 T1157s1_A1029.fasta 为例,使用 mmseqs 进行搜索,即:

mmseqs easy-search T1157s1_A1029.fasta virus4/gmgc/gmgc.db alnRes.m8 tmp

输出日志,默认 -s 5.7

  • A very fast search would use a sensitivity of -s 1.0, while a very sensitive search would use a sensitivity of up to -s 7.0
...
createdb T1157s1_A1029.fasta tmp/15503592239095911252/query --dbtype 0 --shuffle 1 --createdb-mode 0 --write-lookup 0 --id-offset 0 --compressed 0 -v 3 

Converting sequences

Time for merging to query_h: 0h 0m 14s 960ms
Time for merging to query: 0h 0m 3s 422ms
Database type: Aminoacid
Time for processing: 0h 0m 22s 843ms
Create directory tmp/15503592239095911252/search_tmp
search tmp/15503592239095911252/query virus4/gmgc/gmgc.db tmp/15503592239095911252/result tmp/15503592239095911252/search_tmp --alignment-mode 3 -s 5.7 --remove-tmp-files 1
...

搜索出的结果 alnRes.m8,包括 450 条搜索结果,如下:

A       GMGC10.285_640_775.MNL1|built-environment       0.483   954     493     0       39      992     1       954     2.234E-258      832
A       GMGC10.241_341_405.MNL1|soil    0.569   657     280     0       3       659     55      705     1.592E-232      756
A       GMGC10.275_542_093.MNL1|human-skin      0.615   348     127     0       179     526     2       333     7.241E-130      454
A       GMGC10.302_382_477.MNL1|human-gut       0.393   592     290     0       22      613     1       478     1.668E-109      393
A       GMGC10.233_643_273.MNL1|soil    0.613   320     120     0       141     451     1       320     2.039E-107      387
A       GMGC10.291_266_275.MNL1|human-gut       0.362   544     286     0       7       550     36      484     7.208E-96       351
A       GMGC10.295_625_477.MNL1|human-skin      0.801   212     42      0       71      282     1       212     2.547E-94       347
A       GMGC10.230_501_499.MNL1|soil    0.632   280     100     0       90      362     3       282     3.678E-93       343
A       GMGC10.053_306_367.MNL1|human-gut       0.360   546     297     0       7       552     25      489     2.928E-92       340
A       GMGC10.284_538_017.MNL1|built-environment       0.365   529     292     0       22      550     1       461     1.359E-85       320

即,搜索完成。

5. 配置 Small BFD 库

AF2 官网:https://github.com/deepmind/alphafold

安装下载工具:

apt-get install aria2

下载文件 small_bfd

mkdir small_bfd
cd small_bfd/
# 下载文件
aria2c https://storage.googleapis.com/alphafold-databases/reduced_dbs/bfd-first_non_consensus_sequences.fasta.gz
gunzip bfd-first_non_consensus_sequences.fasta.gz

你可能感兴趣的:(AI,for,Biotech,蛋白质数据库,GMGC,MMseq2,SmallBFD)