以「同源蛋白」为参考,高效提升「基因结构注释」质量

虽然,我在 IGV 的基础上,优化增强,并开发了 IGV-GSAman,但其实我也就前几天才认认真真自己用了下,也做了不少优化。大体上,应该是花了两三天时间,优化了20Mb*3 ,一共三条染色体的基因结构注释。
当然,我们知道,二代测序数据,更或者是三代测序数据从某个角度来说是最优标准?但也有不少时候,二代数据根本看不清楚,而三代测序数据(转录本完整度OK,可是覆盖率低)常常测不到不少位置的转录本。
于是,往往会出现下述类似情况(其中橙色为拟南芥或和水稻比对到当然参考基因组的gff3结果)



此时,二代数据来看,很可能两个转录本,在原始电子注释中,只注释出左边的部分。而同源蛋白注释(水稻或者拟南芥)则表示,这里应该是一个蛋白。所以准确的注释是一个蛋白,而不是两个基因。当然,这个是比较简单的情况。
很多时候,当一个位点的可变剪切模式过多的时候,或者两个位点靠得非常近,同源蛋白注释可以告诉我们,这是两个基因,不是一个基因。而二代测序数据,不行。
更比如下面这个位点,其实也是一个。那么为什么中间二代测序数据会突然下降,一个是错配问题,事实上,我们猜测是 hisat2 在这块有小bug,提议用 STAR 。另外,这个位点是原来没有注释出来的,同源注释也让我们更明确,这就是一个可信的coding位点。


更或者这种时候,我们会更明确,其实中间有一个靠谱的蛋白需要我们去注释出来。


那么问题来了,我们如何得到一个「同源蛋白比对到当前物种基因组的 GFF3 文件」?答案就是lh3大神前面发表的一个软件工作「miniprot」。这个软件可以很快将蛋白序列比对到基因组序列上,快速重构出GFF3。感觉非常不错。使用起来也非常简单,其实就是一个命令

miniprot -t 4 --gff ref.genome.fa query.prot.faa > out.gff3

当然,尽管只是一个命令,用起来还是不太方便。比如我还是看了一下manual,(或者说,以前我用过了,每次我还要看manual)。同时呢,不少朋友其实就没有服务器....在本地比如windows上跑起来不太方便。于是我想了想,方便以后操作,干脆做一个界面化功能出来。

用 TBtools 的「CLI Program Wrapper Creator」快速界面化已有软件

我完全没想到,整体使用非常简单,感兴趣的朋友可以参考之前的视频教程,



前后居然不到 10min,我相信,就算我自己来 Coding 一个出来,也不知道要写是不是大半个小时。同时还要debug。但是现在,我一遍过,导出来就是一个「实用插件」直接可以上架到 TBtools 的 Plugin Store....
太强了!

写在最后

Emmm,还是欢迎大伙一起来做做一些插件。一定要相信,有些事情,真的可以一劳永逸!

你可能感兴趣的:(以「同源蛋白」为参考,高效提升「基因结构注释」质量)