Pfam-[The Pfam protein families database in 2019]

今年Pfam数据库发文称:过去几年,Pfam数据库发生了重大变化!

细看了一下,果真变化重大!

吓得我赶紧过来把笔记更新了~~

* 32.0版的Pfam更新了些什么 ?(31.0版,2017年,才1年多)

1. 数据量增加:蛋白家族数量增加到17,929;

2. 蛋白家族宗族分类和功能注释的优化:将重新定义的蛋白家族与已有的家族进行整合;

3. 与RepeatsDB协同优化Pfam中的串联重复蛋白结构定义:RepeatsDB ( a database of tandem repeat protein structures)串联重复是蛋白质结构分析中的一个难题,因为这些序列可能是高度退化的;

4. 造了825个新的家族:基于蛋白结构域进化分类(Evolutionary Classification of Protein Domains ,ECOD)的相似性比较分析;

5. 定义了Pfam中蛋白家族的序列本体论,(Sequence Ontology, SO):知道基因本体论(Gene Ontology,GO)的肯定能推断这是个啥意思。。不知道就自行百度咯~

6. 关联了每一个Pfam数据贡献者的ORCID ID:ORCID,是Open Research and Contributor ID的简称,即开放学术出版物及学术产出的作者(即科研工作者)标识符。ORCID 是一套不产生任何费用的、在全世界范围唯一的16 位身份识别码,是科研工作者在学术领域的身份证。我咋没有?我是黑户~

Pfam的关注度这么大~引用量上万了~~

Pfam-[The Pfam protein families database in 2019]_第1张图片


* Pfam是什么?

    Pfam(http://pfam.sanger.ac.uk/)是一个大型的蛋白家族数据库, 最新版本的Pfam数据库(31.0,2017年 )包含了16712个蛋白家族的注释及基于隐马尔科夫模型(Hidden Markov models,HMMs)的多序列比对信息 。数据库更新啦,32.0版本的Pfam包含了17929个蛋白家族的注释及基于HMMsD的多序列比对信息。

* Pfam能干什么 ?

    Pfam提供蛋白质家族和结构域的完整准确的分类,被广泛用于查询蛋白家族或蛋白结构域的注释,结构及其多序列比对信息。在该数据库中,每个蛋白家族由多个序列比对和HMMs(hidden Markovmodels,隐马尔可夫模型)所体现。

Pfam包括两个质量级别的家族数据库:Pfam-A和Pfam-B。

   1.  Pfam-A来自基础序列数据库Pfamseq,是根据最新的UniProtKB数据库建立,质量较高。

   2.  Pfam-B做为Pfam-A的补充,是一个未注释的低质量数据库,一般是由ADDA数据中的非冗余cluster自动生成的。虽然质量较低,但对于鉴定Pfam-A无法覆盖到的功能保守区域也是非常有用的。

* Pfam的结果怎么解读?

Pfam-[The Pfam protein families database in 2019]_第2张图片

序列搜索结果页以提问的这位同学发给我的截图为例:

该蛋白比对到的是Pfam-A 数据库,结果靠谱。

1)Family:蛋白家族名称;

2)Description:蛋白家族描述

3)Entry type:类型;

4)Clan:宗族(根据序列,结构,功能和HMM比较的相似度将多个蛋白家族整合为宗族),2005年首次将Clan引入Pfam;

5)Envelope (From To):比对到的蛋白序列(the region on the sequence over which the match lies);

6)Alignment(Start End):高置信度的比对蛋白序列(the region over which the alignment confidence is high);

7)HMM (From To):比对到结构域区域;

8)HMM length:Pfam结构域的长度;9)Bit Score:比对打分;

10)E-value:比对的E值(pfam结构域筛选阈值为: E-value < 0.001);11)Predicted active sites:预测的活性位点。

12)#HMM: 与查询序列相同的残基显示为浅蓝色,与查询序列类似标记为深蓝色;

13)#PP:每个氨基酸残基位点比对的后验概率(posterior probability),PP越高表示在HMM图谱中该位点比对的置信度越高;

14)#SEQ:蛋白序列标记原则同#HMM。ps:Envelope区域与HMM length不匹配的比对被认为是局部比对。


参考文献

1) The Pfam protein families database: towards a more sustainable future: R.D. Finn, P. Coggill, R.Y. Eberhardt, S.R. Eddy, J. Mistry, A.L. Mitchell, S.C. Potter, M. Punta, M. Qureshi, A. Sangrador-Vegas, G.A. Salazar, J. Tate, A. Bateman

2) Pfam-Wikipedia.https://en.wikipedia.org/wiki/Pfam

3)The Pfam protein families database in 2019: S. El-Gebali, J. Mistry, A. Bateman, S.R. Eddy, A. Luciani, S.C. Potter, M. Qureshi, L.J. Richardson, G.A. Salazar, A. Smart, E.L.L. Sonnhammer, L. Hirsh, L. Paladin, D. Piovesan, S.C.E. Tosatto, R.D. Finn.

4)Nucleic Acids Research(2019)  doi: 10.1093/nar/gky995

你可能感兴趣的:(Pfam-[The Pfam protein families database in 2019])