保姆级教程:手把手教你画出内容丰富的基因结构图 (进化树+CDD+UTR/CDS)

写在前面:在基因家族生信分析(二)这篇文章里,简单提到了一种基因结构绘制的方法,当时是跟着视频课做笔记,没有实际操作。直到今天实际操作了一下,发现有很多需要注意的地方,今天就详细记录一下。

正文在这:先放成果图哈,这张基因结构图里分为进化树,CDD(保守功能结构域),UTR/CDS(基本基因结构)三大部分。

最后的效果图!

第一步,UTR/CDS(基本基因结构)

1)首先从拟南芥官网获取GFF3文件(GFF3文件里无具体序列,是一些结构信息)

下载完会获得GFF3文件,如文件夹里的1

2)以WRKY家族转录因子为例,下载序列信息,打开plantTFDB网站,选择所需物种。点击WRKY家族,点击Download Sequence

plantTFDB主页
下载完会获得WRKY家族转录因子序列信息,如文件夹里的2

3)简化2里的基因名,方便后续操作

TBtools步骤
将序列名进行简化,得到文件夹中的3

4)提取基因ID和序列(取其中30个)


TBtools步骤
得到序列名称list,如文件夹里的4
保证下面方框中输入的基因名称和文件3中基因名称一致、

5)展示基本基因结构

TBtools步骤
按步骤输入,start,得到下图
UTR/CDS(基本基因结构)

第二步,UTR/CDS(基本基因结构)+CDD(保守结构域)

1)打开NCBI的CD search:一键直达,然后找到Batch CD-search,进行批量分析。

分析完成后,Download得到文件夹里的6

2)打开hitdata.txt(这里要用excel打开)。

其中Query列信息需要分列处理一下

3)将Query列信息分列,是为了获取对应的基因ID。

分列步骤图

4)将From,To,Short Name 列信息同样复制到Sheet2,得到我们所需的信息。(ps. 这里保存的话,就没有sheet2了,而是直接变成了hitdata.txt,但是信息仍然是处理过的,影响不大)

sheet2里有我们需要的所有信息

5)展示基因结构

还是这个步骤
右边的参数框错了,应该是选下面两个哦。输入的信息略有变化,得到下图
UTR/CDS(基本基因结构)+CDD(保守结构域)

第三步,UTR/CDS(基本基因结构)+CDD(保守结构域)+进化树

1)这里就是用mega做一个进化树,然后保存为netwick格式(文件8),这个就不讲了,不会的可以关注公众号私信我,给你发教程哈。

TBtools步骤
,左图是进化树,右图是结果图

需要注意的是,当你把.nwk文件导入并作图,出来的基因顺序是根据进化树顺序排列的,但是是倒序,如上图中红框部分本来在最上面,生成图片之后就跑到了最下面。

进化树生成pdf(文件9)

基因结构图同样导出成pdf,将这两个图片用AI编辑,把你的进化树水平翻转一下,然后调好间距、颜色、blabla,然后保存,就可以得到一开始的效果图啦!


不过时至今日,基因结构绘制功能已经有了加强版,看着就很厉害,可惜我还不会用,害,慢慢学习,加油!有哪个小伙伴会的话也可以教教我呀哈哈哈。

推荐版本

为了方便大家练习,我把做这张图用到的文件都打包在一个文件夹了,微信搜索“今天吃了橙子”,回复”结构图“即可快速获取哦~

今日份奥利给:一个人要像一支队伍,对着自己的头脑和心灵招兵买马,不气馁,有召唤,爱自由(,早日SCN)。

你可能感兴趣的:(保姆级教程:手把手教你画出内容丰富的基因结构图 (进化树+CDD+UTR/CDS))