矫正基因结构注释 - 做有良心的基因家族分析

写在前面

半个月前，我推了一个《任何人都能掌握-基因家族分析》的腾讯课程（原本事实是开给课题组）。在热身课程（完全免费）中，将我个人对基因家族分析的认知和其意义均做了说明，感兴趣的可见 https://ke.qq.com/course/338062?tuin=72ed3eb
其中涉及到一点，即是，基因家族分析中一个常常被忽略甚至忽视的，对科研可能有所贡献的步骤（可能很多培训公司并不会涉及），那就是矫正基因结构注释。

为什么要矫正基因结构注释

基因组，尤其是植物基因组，从测序，到组装，到注释，每一个都不简单。甚至存在一种说法，一篇基因组文章，一个组装算法。而事实上，注释也是类似的。即使是拟南芥或者水稻这两个模式生物，都不能保证所有基因的结构都被注释出来。更何况刚发表的基因组？
在基因家族分析讲演中，有这么一个图

从图中可以很直接的看出来，明显至少有那三个基因是 缺胳膊少腿
那么，怎么办？ 当然是选择矫正他啊
基因家族分析， 是一个常规工作，既然有意要做这个工作，那么就 不应该简单的过家家。我觉得既然要做，就做好他。所以，开着基因家族分析， 其实是一个比较好的机会，同时完成对应的家族基因的结构注释矫正。

如何矫正

在半个月前的讲演中，其实也已经讲过了，用在线网页工具softberry就可以了，以上图的 Aco005453.1为例，基于motif pattern和domain info，可以明显地看出来，其缺少的是5端，GRAS结构域也被截断了（注意，这个在几乎所有物种的基因组结构注释文件都会出现，因为软件永远不可能保证绝对的准确，至少目前这个事情上是的，而菠萝基因组已经做得很优秀了。）

操作步骤

1.首先，获得这个基因的位置信息
使用TBtools的gff3 gene info工具

打开这个gene info文件即可找到基因的坐标信息

可以看得出来，就是在LG1上
2.提取该基因当前区间，以及上下游5000bp

这个时候我们就得到了这部分序列
3.基于文本直接预测基因模型
打开softberry网页工具 http://www.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind
把上述获得的序列黏贴进去

点击search，很快就可以得到结果

4.查看是否已经补全
上述已经预测除了一个新的基因模型，同样是包含了两个外显子，进行校验
将序列直接提交到NCBI CDD-search

这时，我们得到一个惊喜

我们得到的新的序列，已经补全了CDS，GRAS结构域已经补全，同时还预测出来得了DELLA结构域，说明这个丢失了5端的序列，本身应该是GRAS中DELLA分支的成员，这是不错的结果。
But，矫正结构注释还差一步！
5.重新生成gff3注释文本
上述是通过软件直接预测的，而事实也可以直接通过race实验并做sanger测序完成。无论如何，我们得到的终归是Fasta序列，而对于日后还需要做的各种分析，我们需要的是GFF3或者GTF类的文件，那么怎么办？
用TBtools啊！在很久以前，我就已经实现了这个功能， 一个目前来说算是老朋友的需求，由于他文章迟迟没有发，我还是决定开放这个工具，事实也不会影响他的东西。
操作起来很简单
找到并打开这个工具

黏贴新构建成的CDS序列，设置对应的DNA序列（也就是刚才的5000bp上下游），点击Start即可。这样重构的gff3文本最准确。But！生成之后可能需要自己调整下坐标，还是比较麻烦。所以我一般是，DNA序列直接用genome代替（TBtools已经尽可能地考虑了各种比对问题，hsp overlap，末端比对不上等等...），所以这里具体操作是

很快，TBtools就重构出对应等等gff3文本

OK，重构出来的gff3文本跟softberry上面的fgensh的结果一直，是两个exons
说明TBtools这个重构gff3文本的工具，还是可以使用的，具体处理了较多的问题

6.将重构的gff3文本，黏贴替换原始对应的gff3文本的数行
这一步手动操作，不过需要注意，我们预测出来的基因结构，其实存在一定小问题，也就是，其实。。。我们从一开始截取序列就截取错了
我们预测成，这个序列了。怪我！。。。坐标选大了

恩，随意选的一个基因，果然是给我自己下套

后面的这个基因，已经不大可能是真实的基因（无可救药，应该丢掉，可能即使是基于RNAseq数据查看都救不过过来，因为已经是Overlap了，当然可以考虑或许存在不大可能存在的可变剪切？或者是两个GRAS domain？）

小结

恩。。。我又试了几个基因，基本无解。或者是正好基因与上下游有overlap，或者是基因结构预测后并没有太大的改善。不过似乎也OK，毕竟我们大概可以知道其中两个基因并不真实。
如果要证明他们是否真实，可能还是需要RNAseq数据辅助，或者事实上，需要race实验。得到序列之后，再按照上述操作，用TBtools重构gff3即可。

写在最后

嗯，意料之外，情理之中。
据我个人了解，菠萝基因组应也是经过了基因结构注释的人工矫正。所以从某个角度来说，大部分基因结构应是正确。可能单纯从文本预测上，确实无法改善结构注释信息。而只能发现一些确实有问题的序列。对于这些序列，或者是事实并不存在的假基因，或者是需要race实验做进一步获取。
无论哪一种途径，得到序列之后可以直接用TBtools重构gff3信息，并修改原始gff3文件。做进一步分析。