插件 | 地表最强 Hmmer Search 界面工具

写在前面

从某个物种中鉴定某个家族的全部成员,一般有两种操作:

  1. 基于Domain,用hmmsearch等软件
  2. 基于序列相似性,用BLAST等软件

事实上,我个人是推荐第二种,尤其是目前绝大多数物种的基因结构注释存在问题。使用第一种,遗漏的几率更大,比如正好保守结构域区段没有被注释出来。当然,使用第二种,则有一定可能引入假阳性。当然了,后者完全可以通过进一步多类证据整合查看。这也就是可视化存在的意义(TBtools 的三图合一)。
然而,第一种确实是很快,也一直被更多人推崇。我也并不反对。所以,很久以前,在 TBtools 中放了一个功能。

插件 | 地表最强 Hmmer Search 界面工具_第1张图片

具体可以参考推文《使用HMM进行基因家族鉴定?无人不能》。两年后,再来看实现逻辑, Ugly!
于是,我一边带娃,一边写了今天这个插件(其实是委托运营团队的 Feature Request)。

插件 | 地表最强 Hmmer Search 界面工具_第2张图片

写完这个插件,我个人还是比较满意。毕竟从某个角度来说,TBtools又少了一些被人吐槽的点(尽管我还是不明白,不就HMM,有啥好吐槽的),也多了一个极度友好的功能!

使用极其简单

正如上图,用户只需要关心:

  1. 输入文件 - 查询信息 和 序列库
  2. 输出文件

对于输入文件一,支持三类,且自动识别:

  1. PFAM ID,如 WRKY 结构域为 PF03106,MYB 结构域为PF00249,这些可以直接在 PFAM 数据库上找到,更或者在一些文献中会注明。
  2. 多序列比对结果,如果果胶甲基酯酶 PME 家族,这类结构蛋白,常常不像转录因子,不一定有保守结构域在PFAM上。可以自己拿不同物种已知的PME蛋白序列,用TBtools 的MUSCLE Wrapper或者其他多序列比对软件,得到的比对结果(无需注意比对结果格式,兼容几乎所有多序列比对格式,如Fasta,Clustal,PAML等),直接用作输入。
  3. HMM库,比如整个Pfam_A.hmm数据库,当然也可能是某几个感兴趣的保守结构域的HMM。

而对于输入文件二,简单,反正就是一个蛋白序列库,下文我们直接使用香蕉所有蛋白序列集合。
至于输出文件...给个路径就行了。
下面,用三个使用实例来介绍具体使用方法。

实例一 - 直接使用 PFAM ID 列表

前述提到,转录因子WRKY和MYB家族的Pfam IDs分别为 PF03106 和 PF00249。这些可以直接在Pfam数据库查到


插件 | 地表最强 Hmmer Search 界面工具_第3张图片

使用这两个Pfam ID,我们就可以直接筛选出所有香蕉可能的WRKY和MYB家族成员。使用方法如下


插件 | 地表最强 Hmmer Search 界面工具_第4张图片

非常快
插件 | 地表最强 Hmmer Search 界面工具_第5张图片

点击确定,即可直接跳转到输出文件


插件 | 地表最强 Hmmer Search 界面工具_第6张图片

一般 TBtools 用户只需要看 XLS,打开就知道了
插件 | 地表最强 Hmmer Search 界面工具_第7张图片

堪称完美!这个格式,可以直接用于结构域可视化。毕竟是 TBtools 用不,应该知道怎么获取对应序列的序列长度,然后用 Simple BioSequence Viewer 或者 Advanced Gene View 做可视化。
我鼓捣鼓捣,大概是这样一张图
插件 | 地表最强 Hmmer Search 界面工具_第8张图片

实例二 - 直接使用多序列比对结果

正如前面提到的,有一些家族并没有保守的 Pfam IDs,我们可以直接使用一些已知家族成员蛋白序列(即使他们来自于不同物种),做一个多序列比对之后,用于输入。


插件 | 地表最强 Hmmer Search 界面工具_第9张图片

下载完了就用MUSCLE比对


插件 | 地表最强 Hmmer Search 界面工具_第10张图片

插件 | 地表最强 Hmmer Search 界面工具_第11张图片

如果你没听我的劝告,点击“Directly Viz...”,那么会看到

或许这里面就有保守结果域吧,肉眼看看比对效果也挺好的。
保险起见,还是直接比对输出 clutalw 格式(试了下,似乎TBtools Fasta2Clutal在特殊字符下会失效)


插件 | 地表最强 Hmmer Search 界面工具_第12张图片

OK,继续
插件 | 地表最强 Hmmer Search 界面工具_第13张图片

自动弹出结果....
插件 | 地表最强 Hmmer Search 界面工具_第14张图片

Emmm,似乎数目有点多。对比了下HMM的结果和香蕉基因组注释的结果
插件 | 地表最强 Hmmer Search 界面工具_第15张图片

当然我们有理由相信,假阳性没那么高(HMM得到的多了46个,得详细看看了),尽管存在。多少估计还是要精细看看,不过偏离主题了。

实例三 - 使用已有的HMM库,如Pfam_A.hmm

有些时候,用户会自己下载一些.hmm库,或者从其他什么地方拿到。比如实例一中,用户也可以自己下载WRKY结构域的.hmm和MYB的.hmm文件,合并之后用这种方式来输入。这个模式的开放,其实对我来说,估计还是直接上Pfam_A.hmm全库。比如我鉴定了某个家族,香蕉的某某家族。这里我们就用香蕉基因组注释的PME蛋白序列,大概也就75个基因。我们看看注释得如何,都有什么结构域。
于是可以直接下载Pfam_A.hmm全库,跑上


插件 | 地表最强 Hmmer Search 界面工具_第16张图片

Emmm,大概也就一两分钟。


插件 | 地表最强 Hmmer Search 界面工具_第17张图片

也可以做个可视化
插件 | 地表最强 Hmmer Search 界面工具_第18张图片

写在后面

Emmm,整完了。又是一个插件。作为委托团队的Feature Request。这个插件纳入众筹系列(未定价)。先想想再说~~ 感兴趣的朋友,可看看这两天插件商店的更新。对插件商店不了解的,建议看看推文《Plugin | 高速版插件商店!我又有一个绝妙的 idea》。
是谁?说 TBtools 不好用了~

你可能感兴趣的:(插件 | 地表最强 Hmmer Search 界面工具)