植物基因组-基因组分析中的“地图”文件(gff3和gtf文件介绍)

常见的生物信息分析中,基因组的注释文件和参考基因组具有相同重要的功能,如果说参考基因组是一个蕴含着所有资源的宝岛,那么基因组的注释文件就是航海路线图。因此,理解基因组注释文件,将会极大地帮助我们提高生信分析效率。今天,我们的主题就来探究常见的注释文件gff3和gtf。

gff3文件介绍

GFF3(General Feature Format Version 3)是GMOD项目研发的一套存储序列结构信息的通用格式文件,主要进行一个scaffold或者染色体上面每个位置都是什么序列元件的注释信息总结。

如图所示,gff3文件主要有以#开始的行数,为基因注释行,起到注释信息的作用,没有#的行,表示主体部分,整个文件以tab键分隔。

中国春小麦参考基因组各个染色体长度的信息,即保存在#行,不过染色体的长度不是从1开始,而是从第一个注释的基因起始位置开始,这点需要注意,可以从下图看到。

编号1即为第一个基因的起始位置,

编号3为中国春参考基因的第一个基因,因为这里用的是02G版本的基因注释文件,可以看到,它也显示了previous的基因ID,也就是01G时候的基因ID,这里为各位利用小麦做基因组注释的同学提个醒,可以用这个进行01G和02G版本的ID转换。

编号4,是第二基因

编号5,是一个基因的结构注释,该基因chr1a: 40098-70338,是总长度,包括mrna序列,three_prime_UTR(3' UTR), exon,CDS,five_prime_UTR(5' UTR),exon,five_prime_UTR。

中国春参考基因组v1.1 gff3文件

gff3文件包含9列,

1. 染色体,chr1A

2. 版本号,可以看到属于IWGSC_v1.1_201706

3. 基因结构注释,包括gene,mrna,exon,CDs等

4. 起始位置

5. 终止位置

6. score - 该基因结构的评分,一般是对基因结构做比对时的E-value和ab initio gene prediction features时的P-value

7. “+”表示正链,“-”表示负链,“.”表示不需要指定正负链。

8. 步进。对于编码蛋白质的CDS来说,用0,1或2 指定下一个密码子开始的位置。分别表示到达下一个密码子需要跳过的碱基个数。对于其它属性,则用点(.)代替。

9. attributes - 该基因其他属性,可以有多个每个属性之间必须以“;”分割,例如“ID=some-id;Name=some-name;Parent=some-parent”,请注意这个Parent属性,由于基因结构比较复杂,一个序列元件(例如:exon)可能属于另外一个基因(例如:gene),这个Parent属性的意思就是该序列元件在哪个序列元件上面,如果一个序列元件没有Parent属性,说明他的父元件就是scaffold或者chromosome用0,1或2。在中国春v1.1上的参考基因组,同样包含previous选项,这是对使用v1.0的基因ID转换时用的。

GTF文件,GTF全称是Gene transfer format

同样包含9列,以tab键分隔,和gff3文件类似,相信对gff3了解的话,再理解gtf就很容易了,这里我们不再赘述。

IWGSC V1.1 gtf文件

gff3文件转为gtf文件,利用gffread软件即可实现

#gff3转为gtf

gffread reference.gff3 -T -o reference.gtf

#gtf转为gff3

gffread reference.gtf -o- > reference.gff3

有些时候的分析,例如htseq-count对reads进行计数,一般使用gtf文件,所以掌握gff3和gtf文件是非常重要的。

你可能感兴趣的:(植物基因组-基因组分析中的“地图”文件(gff3和gtf文件介绍))