简洁 | 优雅地准备 比较基因组分析 文件

写在前面

比较基因组分析已然是常见生信数据分析。开展这类分析时,往往会遇到各式各样的问题,尤其是,输入文件内容和格式的问题,比如:

  1. 只有基因组序列文件和基因结构注释信息
  2. CDS或者蛋白序列 ID 与基因结构注释信息文件中基因 ID 不匹配
  3. CDS或蛋白序列文件中包含可变剪切体
  4. 不同物种 ID 命名系统冲突
  5. ...

解决这一系列问题,最好的办法是针对每一个物种,做相应的文件准备。在 TBtools 中,已有系列工具实现,如 One Step MCScanX 等。为了后续的一些可能操作,使 TBtools 功能串联使用更为顺畅,刚才花了点时间,抽取这部分功能。

Genome Analysis Init

简洁 | 优雅地准备 比较基因组分析 文件_第1张图片

可以看出来,输入文件有二:

  1. 基因组序列文件
  2. 基因结构注释信息文件

此外,可选项 Prefix ,可用于增加前缀,解决不同物种 ID 命名冲突的问题
最后是... 一个输出目录(注意:是目录,不是文件)

使用方法

打开 TBtools 并找到该功能


简洁 | 优雅地准备 比较基因组分析 文件_第2张图片

打开 Genome Analysis Init,随后设置输入输出文件


简洁 | 优雅地准备 比较基因组分析 文件_第3张图片

输出文件

简洁 | 优雅地准备 比较基因组分析 文件_第4张图片

其中,无论是CDS 还是 蛋白序列,都已经取了代表性转录本对应的序列,可以直接用于下游分析

写在后面

可以说,这是一个非常简单的功能。在这个功能推出之前,可以用 TBtools 分几步走:

  1. 对 GXF 文件进行前缀增加
  2. 对基因组序列ID进行前缀增加
  3. 提取GXF代表性转录本的CDS
  4. 翻译 CDS 为 蛋白

然而,如果可以一步搞定,为什么还要做四步呢?

你可能感兴趣的:(简洁 | 优雅地准备 比较基因组分析 文件)