生物信息领域常用软件工具及数据库

常用工具

1. PSi-blast

Psi-balst是一种更加高灵敏的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效.多用于生成蛋白质的多序列比对(MSA)和PSSM(特异性位置打分矩阵)。相关指令和生成PSSM文件的代码参考:

2.Clustal

Clustal可以用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是图形化界面版本后者是命令界面),是生物信息学常用的多序列比对工具。

3. CD-HIT

CD-HIT是用于蛋白质序列或核酸序列聚类的工具,根据序列的相似度对序列进行聚类以去除冗余的序列,一般用于构建非冗余的数据集用于后续的实验分析。官网链接(http://weizhongli-lab.org/cd-hit/)

4. MMSeq2

MMseqs2(多对多序列搜索)是一个软件套件(https://github.com/soedinglab/MMseqs2),用于搜索和聚类巨大的蛋白质和核苷酸序列集。 MMseqs2是开放源代码GPL许可的软件,以C ++实现,适用于Linux,MacOS和Windows(作为Beta版本,通过cygwin)。 该软件设计为可在多个内核和服务器上运行,并具有很好的可伸缩性。 MMseqs2的运行速度比BLAST快10000倍。 它以其速度的100倍达到了几乎相同的灵敏度。 它可以执行与PSI-BLAST相同灵敏度的配置文件搜索,速度是其400倍以上。


常用数据库

1. SCOP数据库

SCOP数据库将蛋白质按照层级结构进行分类,其从高到低分别为类,折叠,超家族和家族。

2. PROSITE数据库

PROSITE收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。

3. Uniprot

Uniprot是一个全面的,高质量的,免费使用的蛋白质序列与功能信息数据库,许多内容来自基因组计划,它还包含了大量来自研究文献的关于蛋白的生物学功能信息。

4. Pfam

Pfam是一个蛋白质家族数据库。此数据库会利用隐马尔可夫模型进行多重序列比对以及加上蛋白脚注

Pfam中所登录的每一个蛋白质家族可以:

  • 查询多重序列比对
  • 查看蛋白质主要结构
  • 检视物种演化树
  • 连结其他数据库
  • 查看已知的蛋白质结构

 

你可能感兴趣的:(生物信息)