TBtools | 快速(以分钟计)且准确地获取家族进化分支成员

写在前面

生物信息数据下游分析,是一个非常复杂,且几乎没有也不可能流程化的操作。究其原因,但凡贴近生物学问题,需要更多生物学视角,甚至是研究人员的直觉。而这,恰恰又是工作亮点挖掘,做出有意义工作的关键;甚至说实际一点,paper 发得好不好的关键。解决,是不可能解决的。但是加速,是存在可能的。TBtools 的相当部分功能,也正是其这个作用。简而言之,TBtools,打辅助。

需求的产生

在数据中,挖掘生物学故事的时候+,我们常常会拿一些已知基因更或者是已知通路为参考,大体可以分为两种操作:

  1. 组学视角:一般使用Gene Ontology,KEGG,Reactome,Mapman等,做做富集分析,于是得到结果。事实上这类分析确实有用,可以相对明确方向。但很多时候,对于非模式生物(人类,小鼠,拟南芥,水稻)等,注释就不准确,那么细究下去问题多多
  2. 传统视角:举个栗子,课题是花芽分化,于是研读了近年来花芽分化相关的众多文献,其中陈雪梅教授课题组报道了拟南芥中发现ARF3对花分生组织的分化有决定性作用。回到我们的数据,在我们关注的材料中,是否是ARF3这个节点出了问题?

两种操作,各有千秋。不过,从某种角度来说,往往从传统视角出发,可以发现更多东西,毕竟这是比较solid地站在巨人的肩膀上。那么问题来了,ARF本身在植物的每个物种中都是基因家族,拟南芥在ARF3对应我们材料中,哪一个ARF?如何去确定?解决办法一般有三:

  1. 基因共线性分析,如果正好是在一个共线性区块上,那么证据最为充分。但是往往这一分析只能检测到一部分。而基因并不总是伴随大片段复制。
  2. BLAST取最优,这是一个简单粗暴的想法,可以找到序列差异相对比较小的成员,但是无法保证找到统一同一分支的成员。原因较多。其一,BLAST,其中+L+字符对应的是局部比对。两个人的手长得很像,不代表其他地方,比如脚,身上,脸等等也向;其二,BLAST输出比对结果是符合阈值的结果,并不保证第一个就是全局最优,换句话说,局部最优仍然可以再发生(尤其是限制了比对时参数,而不是报告时参数);其三,BLAST得到的是一个列表,单纯这个列表,我们如果取The+Best+Hit,那么不能保证ARF3在我们当前物种就真的只有一个,或许分支成员扩张了呢?如果我们取top3,我们又不能保证是否纳入了其他分支的成员,Sad !
  3. 最稳妥,最靠谱的是+鉴定当前物种整个 ARF 家族,然后跟拟南芥的 ARF 家族一起构建进化树,最后确定 ARF3 分支,然后拿到IDs。于是,在没有 TBtools 之前,你可能需要一两天(如果你熟悉一些命令行软件,如BLAST,Seqkit,MEME,Hmmer,当然最好你还有使用各式各样的可视化软件,如GSDSv2),当然最麻烦的是建树,基因成员太多,MEGA,raxML,FastTree,IQ-tree都救不了你;在+TBtools+出现之后+,你不再需要命令行,几乎所有功能都可以在其中完成,而且顺手,所以,时间会缩短到大半天(因为成员太多,那么建树,真的快不起来)。

解决办法

其实快速的解决办法还是有的。这几天,为了搞好学位论文,我刷了不少个papers,整理了与课题可能相关的通路(以及基因)。对着自己的数据,就需要做前述工作。鉴定了五个转录因子家族之后,不想再整了(Sad...真的挺麻烦)。可能搞分析的会提出,你怎么不用orthofinder之类的?还是不要来搞笑了。一是计算量和时间;二是精度。好吧,那咋办?我不想干了。那就只能突发奇想,......,既然又是生信大佬们都看不上的,那就我自己来

手牵手,好基友

分析第一步,打开TBtools


功能说明如下

来个示例



其他的都设置完毕,填上一个ID接口,点击 Start,大概过了 一分钟...(注意,如果按照鉴定家族 + 构建进化树,半天或者一两天是正常的,因为还有许多坑....)。结果出来了,直接右键复制就可以用了。连你自己想办法去截取分支,拿到ID,都帮你搞定了。


靠谱不靠谱啊?

Emmm,这是一个问题,我也不知道。不过我有不是没有参考答案。在这个工具写出来之前,我鉴定了这个家族成员R2R2MYB,同时把100来个序列和拟南芥的100来个R2R3MYB一起建了颗ML树。结果如下:


缩小到目标范围,

结果一致。
那么是不是结果总是一致?于是我又看了几个


也看了一些比较特别的,反正就一两分钟的事情

Emmm,也很好。

出问题了?

不对啊,怎么会跟预期不符合啊。Emmm....


按理说应该是出一个大分支,不应该是冒出一个序列。于是我查了一下 LITCHI023822.m1,结果发现....木有在我鉴定出来的R2R3MYB基因列表。于是,对这个序列做一顿查看

  1. pfam,不好意思,只有一个 MYB domain,不是R2R3...


  2. SMART,不对啊,有两个 MYB domain,就是 R2R3


  3. NCBI CDD Search


OK,Confirmed ! 也就是说,我。。。鉴定 R2R3MYB的时候,漏掉了。Sad,因为,我只看了Pfam,而Pfam,不够优秀,敏感度决定了他只挖掘到一个domain。所以,基于domain的筛选,其实不要搞太早,不然反而会过滤掉正确的结果。当然,如果我还结合 MEME 的结果,应该就不会漏吧。

但是,话说回来,我现在有了“FindBestHomology”这个功能,还搞家族鉴定干啥?新功能,确实可以,更灵敏,更靠谱! ,又快又好,真香!

写在最后

前天晚上鼓捣了下思路,搞了功能;昨天早上8点出门前开始写了点推文;晚上23点左右回来继续整理下,现在是24点04分。时间过得真快。之所以写了一个来小时,因为网页崩溃了,推文历史记录差点找不回来。最后我是通过URL反转义回来,然后再手动调整。或许,如果没找回来,这个推文也就不会出来了。
很久没有增加新功能了,主要还是我课题上没有太多新的迫切的需求。
PS:早前提过,TBtools论文没有被接收之前,不做更新;前几天更新了,于是多少大家猜到了目前情况;前前后后十来人问要新的 doi号,大体是 预印本大家还是不太认可或者加引用不方便... 不过,确实暂时木有新doi,继续bioRxiv吧。新的doi出来了,自然公告一下。谢谢各位支持了。

你可能感兴趣的:(TBtools | 快速(以分钟计)且准确地获取家族进化分支成员)