TBtools:基因家族分析简单流程

写在前面:非常感谢CJ开发出如此强大的TBtools工具。作者(CJchen-0410)在B站上有新手教程,大家可以给大神点个关注。


本文以《Genome-wide identification and phylogenetic analysis of rice FTIP gene

family》为例,介绍TBtools基因家族分析的流程。

本文内容
1、从结构域出发鉴定基因家族成员
2、顺式作用元件分析
3、保守结构域分析
4、多物种共线性分析

准备工作

本文主要介绍TBtools的用法,复现文章中作者用到TBtools的地方。

1、工具

(1) TBtools 1.09852 (下载地址:https://github.com/CJ-Chen/TBtools/releases)

(2) MEGA

(3) Pfam

(4) PlantCARE

2、数据集下载

(1) EnsemblPlants


1、从结构域出发鉴定基因家族成员

(1) 从 Pfam下载所有的结构域的hmm格式文件

image

Pfam-A 是 人工标注的结构域,Pfam-B 是预测的结构域

(2)EnsemblPlants 下载水稻的所有蛋白序列(pep),基因序列(fa),全基因组序列(fa),全基因组注释(gff3) ( 我用的是MSU的水稻数据,MSU 和 NCBI 的基因注释差别不大)

image
基因组序列
注释文件
蛋白序列
基因序列

其他物种的相关序列也可以在这下载。

(3)文献作者是利用C2结构域和PRT-C结构域查找OsFTIPs基因家族成员,在Pfam上找到两个相关结构域的登录号PF00168,PF08372。新建个文本

image

(4) 利用TBtools的hmm search 工具 查找

image

这里其实是做了个 hmmer 软件的接口 。往常要用hmmer来找结构域需要在Pfam 上 下载 结构域的模型 ,而且hmmer 这个软件 win版本不太友好,这里是给出了个优化方案,TBtools内置了部分 hmmer 使其直接调用。

(4)输出结果

结果

每个结构域都会有两部分 分数 ,分别是序列得分和结构域得分,可以通过结果太多可以用E-value 筛选。我用excel筛选了下,找个交集,共找到13个,和文献中一致。

image

(5) 得到目标基因的蛋白序列、基因序列、启动子序列、注释文件

利用TBtools的 Fasta Extract 工具提取蛋白序列、基因序列

要注意蛋白和mRNA序列的ID是有版本号的,如 LOC_Os06g41090.1 的.1。 提取蛋白序列需要标版本号,提取DNA序列则需要把版本号去掉。总之就是输入的目标ID要和fasta文件中的ID对应。

image
结果

利用GXF Selector 筛选目标基因的注释文件

image

利用Gtf/Gff3 Sequences Extract 提取启动子

输入上步目标基因的注释文件和基因组序列文件,选择参数。输入注释文件后需要按下初始化,不然start是灰的。如果需要 基因组所有基因 的启动子 可以输入 全基因组的注释文件。

image
结果

(6) 可视化

TBtools 画的是矢量图,可以改颜色 样式 ,比较方便。具体操作如下,结果就不一一展示了。

基因在染色体上的位置
基因结构

同时,TBtools也支持NCBI、MEME的预测结果

基于Pfam结果的motif可视化
Pfam预测

当然还有更加酷炫的进化树、基因结构、motif分析的三合一图,请出门向左(https://my.oschina.net/u/4579431/blog/4834581)。

2、顺式作用元件预测

文献中作者是用PlantCARE进行预测的。拿出提取到的启动子序列扔上去等邮件就好了,一般在半个小时左右。

PlantCARE预测

邮件中的tab文件是所有结果的汇总。得到的启动子序列往往比较多,需要手动筛选下,主要保留响应元件。需要整理成TBtools能识别的格式和一个序列长度的文件。

整理后的数据格式
启动子长度文件
image

3、保守结构域分析

TBtools上可以直接运行MEME。

image

可视化 用到输出的 xml 文件

image

作者还写过一个更全的版本,出门右转(https://www.jianshu.com/p/b8ffd0fd1cbf)

4、多物种共线性分析

(1)需要两个物种的基因组序列(fa)和基因组注释文件(gff3) 这里用水稻和拟南芥为例。原理就是blast。这一步运行时长主要还是和基因组大小和电脑线程数有关,条件允许的情况下可以多开几个线程。

image
结果文件

(2)运行过程中可能会弹出警告,但没事儿。这主要是注释文件的问题

(3)可视化 主要用到结果中的gff文件、ctl文件、collinearity文件

灰色的是基因组比对上的地方,红色的是比对上的目标基因(没比对上就没有。还可以放多个物种的比对结果。也可以物种内共线性比对,查看是否发生基因复制事件(https://www.meiwen.com.cn/subject/ljltbctx.html),思路和方法也是差不多的

image
结果

TBtools 不止能做基因家族分析,随着TBtools这个社区的壮大,已经有了很多教程,也有很多作者贡献了十分有用的插件,小的方面可以完成批量重命名、热图、维恩图、火山图、Logo、气泡图,大的方面能够完成转录组分析和注释,WGCNA等工作。同时也感谢这些作者降低了生信分析的门槛,更好的帮助科研工作(凑结果)。作者也写了很多的教程 可以关注公众号:生信药丸。

参考文献:

Genome-wide identification and phylogenetic analysis of rice FTIP gene family

愚见 | 解读文稿 BMC Plant Biology 本氏烟类成束蛋白阿拉伯半乳聚糖基因家族分析

TBtools: An Integrative Toolkit Developed for Interactive Analyses of Big Biological Data

你可能感兴趣的:(TBtools:基因家族分析简单流程)