基因家族数据库网站更新:pfam to InterPro

在基因家族分析中,通过pfam数据库检索获得已知基因家族的hmm模型(隐马模型)是必不可少的一步,最近发现pfam数据库有变动,和大家分享一下。

1. pfam数据库

pfam数据库是一个很常用的蛋白家族数据库,以UniProt数据库收录的蛋白数据为依据创建,目前更新至35.0版本(November 2021, 19632 条数据)。在该数据库可以下载某个基因家族对应的hmm模型文件、比对序列、物种信息、HMM logo等数据。

pfam-data.png

其中hmm模型文件包含基因家族序列特征信息,可以搭配hmmer软件,进行基因家族成员的鉴定。示例如下。

HMMER3/f [3.1b2 | February 2015]
NAME  HLH
ACC   PF00010.29
DESC  Helix-loop-helix DNA-binding domain
LENG  54
ALPH  amino
RF    no
MM    no
CONS  yes
CS    yes
MAP   yes
DATE  Fri Oct  8 12:30:32 2021
NSEQ  141
EFFN  13.446808
CKSUM 2765420813
GA    20.7 20.7;
TC    20.7 20.7;
NC    20.6 20.6;
BM    hmmbuild HMM.ann SEED.ann
SM    hmmsearch -Z 61295632 -E 1000 --cpu 4 HMM pfamseq
STATS LOCAL MSV       -8.1203  0.71907
STATS LOCAL VITERBI   -8.5323  0.71907
STATS LOCAL FORWARD   -4.1884  0.71907
HMM          A        C        D        E        F        G        H        I        K        L        M        N        P        Q        R        S        T        V        W        Y   
            m->m     m->i     m->d     i->m     i->i     d->m     d->d
  COMPO   2.63857  4.60732  3.12079  2.59097  3.91146  3.34577  3.65477  2.72697  2.34650  2.25366  3.81419  2.92282  3.35595  2.97348  2.34750  2.69062  2.96487  3.07925  5.50922  3.67513
          2.68618  4.42225  2.77519  2.73123  3.46354  2.40513  3.72494  3.29354  2.67741  2.69355  4.24690  2.90347  2.73739  3.18146  2.89801  2.37887  2.77519  2.98518  4.58477  3.61503
          0.11486  6.24172  2.23905  0.61958  0.77255  0.00000        *
      1   2.86348  5.09259  3.41336  2.97350  4.85877  3.11053  4.46191  4.47912  1.65222  3.28307  5.05098  3.17871  4.34625  2.23182  1.42635  2.70183  3.48012  4.19210  6.44319  3.67814      1 r - - H

2. 数据库更新

最近发现数据库更新,通知发布时间2022年8月4日。更新后,原有pfam数据库保留至2023年1月,全部功能整合到InterPro数据库,到期后将不能访问。

pfam-decommission.png

在InterPro数据库,网站首页选择pfam就可以进入使用了。

interPro-pfam.png

进入之后搜索目标家族的编号,会罗列对应信息,与原pfam数据库数据相同。

PF00010-hmm-download.png

3. 新版数据库使用问题

新版数据库检索内容与原pfam数据库类似,目前发现了以下问题,和大家分享一下。

  • 3.1 hmm模型文件编码方式修改

原pfam数据库下载的hmm模型文件为文本文件,可以使用文本编辑器查看文件中的内容。数据库整合后,这些文件的编码格式变为二进制文件,无法通过文本编辑器打开,导致hmmsearch等配套软件无法读取。运行时会出现如下错误。

hmmsearch-wrong-info.png

下载的文件不能打开是因为本身格式为压缩文件,加上gz后缀即可解压获取文本文件[2]。(感谢狠太加奶提供信息)

4. 解决方法

对于hmm模型文件无法使用的情况,可以先用以下方法解决。

  • 4.1 生成hmm模型文件

在基因家族检索信息界面,会给出模型创建的命令,示例如下。

hmm-generation-cmd.png

数据库中可以下载对应家族的seed序列,下载后使用提供的命令创建hmm文件即可,seed下载界面如下。

interPro-family-seed.png

这种方法会使用下载的种子序列构建hmm文件,但是不能保证和数据库中模型文件内容完全一致,最终的结果可能也会有出入,酌情考虑使用。

  • 4.2 模型信息提取

在数据库中提供了所有已收录基因家族的模型信息文件,下载后提取目标基因家族的信息即可,这种方法直接使用数据库的文件,较4.1的方法更可靠。

pfam-database.png
  • 4.3 软件更新

hmmer软件最近一次更新是在2020年11月6日,更新时间大概1-2年一次,新版更新之后可能会支持二进制的模型文件。

5. 参考文献

[1] https://xfam.wordpress.com/2022/08/04/pfam-website-decommission/
[2] https://blog.csdn.net/Hentai1989/article/details/127351397?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166683857716782414966344%2522%252C%2522scm%2522%253A%252220140713.130102334.wap%255Fall.%2522%257D&;request_id=166683857716782414966344&biz_id=0&utm_medium=distribute.wap_search_result.none-task-blog-2allfirst_rank_v2~rank_v29-1-127351397-null-null.wap_search_all_course_earnings_v1&utm_term=pfam%E6%95%B0%E6%8D%AE%E5%BA%93%E8%BD%AC%E7%A7%BB&spm=1018.2118.3001.4187

你可能感兴趣的:(基因家族数据库网站更新:pfam to InterPro)